当前位置: 首页 > 期刊 > 《中国中医药图书情报》 > 20153
编号:13641500
中医方剂数据库文本挖掘数据预处理的尝试(2)
http://www.100md.com 2015年6月1日 《中国中医药图书情报》 20153
     资料与方法

    数据来源

    由于本研究主要针对方剂名称和药物名称进行预处理,因此选用了两个具备方剂和药物名称的数据库,即中国方剂数据库和方剂现代应用数据库,均隶属于中国中医科学院中医药信息研究所自1984年开始进行建设的中医药学大型数据库群。

    在中医药在线(http://www.cintcm.com/)的中医药多库融合平台( http://cowork.cint cm.com/engine/windex.jsp)中,选择方剂类数据库中的中国方剂数据库和方剂现代应用数据库,字段选择均用“主治”,模糊检索,输入“中风”,年代不限,检索时间为2013年11月27日。

    研究方法与工具

    基于辅助词群的行处理工具 文本行抽取和处理是文本数据预处理中的常用方法,而基于辅助词群的方法可有效提升其灵活度。该方法是基于预先建立的包含辅助词群的辅助文件,可对源文件实现抽取或去除包含辅助文件中词群的行输出;并可按给定的批量行号提取行。

    本研究中的行处理由数字人文研究内容挖掘系统ROST CM实现。

    正则表达式文本处理工具正则表达式是一种可以用于模式匹配和替换的规范,一个正则表达式就是由普通的字符以及特殊字符组成的文字模式,它用以描述在查找文字主体时待匹配的一个或多个字符串。在很多文本编辑器或其他工具里 ......
上一页1 2

您现在查看是摘要页,全文长 5130 字符