当前位置: 首页 > 期刊 > 《中国中医药图书情报》 > 20153
编号:13642002
中医方剂数据库文本挖掘数据预处理的尝试(1)
http://www.100md.com 2015年6月1日 《中国中医药图书情报》 20153
     摘要:目的针对中医方剂数据挖掘需要提出一套以数据清洗为主的数据预处理方法,使数据规范、准确和有序,利于后续处理。方法通过检索技术,在方剂数据库中获取文本数据源,将非规范化的数据通过辅助词群行处理、正则表达式替换、异名处理等步骤进行清洗,改进数据质量。结果在中国方剂数据库共检索到1758条记录,在方剂现代应用数据库共检索到91条记录。源文本数据经预处理后共得到有效记录6913味药,可成功导入相关信息挖掘系统进行方剂名称和中药名词的信息抽取。结论本方法适用于基于中医方剂数据库的文本挖掘和知识发现,可成功对源文本数据实施清洗,得到标准统一、无噪声的数据,实现所需方药信息的有效抽取,可为中医方剂文本型数据信息分析与挖掘研究提供有益的借鉴。

    关键词:中医方剂:方剂数据库:文本挖掘:数据预处理:数据清洗

    doi:10.3969/j.issn.2095-5707.2015.03.003An Attempt on Data Preprocessing for Text Mining in TCM Prescription DatabaseWU Leil ......
1 2下一页

您现在查看是摘要页,全文长 3328 字符