当前位置: 首页 > 期刊 > 《中国药房》 > 202022
编号:13790700
国家高新技术产业开发区生物医药产业政策主题挖掘及量化评价研究(3)
http://www.100md.com 2020年11月15日 《中国药房》 202022
     3 文件检索结果及数据处理

    3.1 文件检索结果及分布情况

    按照上述政策检索和筛选方法,本研究共获得国家高新区生物医药产业相关政策文本518件,涉及高新区132家,其余37家国家高新区因其官网未发布涉及生物医药产业的政策文件或未建立官方网站而未获得有效信息。518件政策文本的地区分布见图3。由图3可知,与生物医药产业相关的政策文本主要集中在东部地区。

    3.2 政策文本预处理

    以518件国家高新区生物医药产业园区层级政策文本为语料库,采用Genisim中的Jieba分词工具包并结合正则表达式(去除字母、数字等非中文字符)进行中文分词。融合《中文停用词库》《哈工大停用词》作为本研究的停用词表,去掉长度小于2的词汇以及“企业”“组织”等政策文本的常规名词词汇,同时加载基于国家高新区和政策文本的自定义词典以提升分词效果,最终获得有效词汇58 617个。

    为了构建合适的数据结构,使其具有Gensim主题建模可以处理的输入格式,本研究采用词袋模型(Bag of words)的形式来表示文档。该模型可以忽略每个词汇出现的顺序,将每篇文档表示成一个长向量。同时,引入TF-IDF算法进行词向量加权,建立词项文档矩阵(DTM)。TF-IDF算法可减少在多篇文档中频繁出现的词汇的权重 ......
上一页1 2 3 4 5下一页

您现在查看是摘要页,全文长 5045 字符