基于文本挖掘的流行性乙型脑炎用药规律研究(2)
第1页 |
参见附件。
通讯作者:吕诚,E-mail:lv_cheng0816@163.com
起、由蚊传播的一种急性传染病,临床表现以高热、意识障碍、惊厥或抽搐、呼吸衰竭为特征,致残率、病死率高。本病多发于夏秋季节,10岁以下儿童易感。1991-2005年我国由于乙脑疫苗的合理应用与医疗水平的提高,每5年年均发病率、病死率均呈逐步下降趋势[1]。近年来有研究显示,成人及老年人发病率相对增高[2]。其防治工作仍然具有重要意义。
本研究借助课题组不断成熟的文本挖掘技术[3-4],结合原文献回溯、人工阅读分析等方法,对现有中文文献进行挖掘,探索乙脑临床用药规律。
1 资料与方法
1.1 文本数据收集
在中国生物医学数据库中,“缺省”状态下检索“乙型脑炎”,检索起始时间为1978年,截至2012年7月23日,共得到文献3225篇,全部纳入,依次下载所有文献并保存。
1.2 文本数据处理
将收集到的数据按照下载的先后顺序,整合到一个平面文件(.txt)里,以ANSI编码格式保存。然后,利用专有的文本提取工具(软件著作权,软著登字第0261882号,登记号2010SR073409),对下载的非结构化的文本数据进行信息提取,保存成格式化的、便于大型关系型数据库(Microsoft SQL Server,SQL)处理的格式,然后导入SQL中进行下一步的挖掘分析。假设每一篇文献的贡献度是相同的,一篇文献中重复出现的关键词只需要计算1次,据此构建算法进行数据清洗工作[3]。清洗后的数据,既可以提取挖掘对象的一维频次,也可以得到挖掘对象的二维关系 ......
您现在查看是摘要介绍页,详见PDF附件。