论文下载：利用文本挖掘探索痛风证药特点-证候-中药-数据分层算法

利用文本挖掘探索痛风证药特点

http://www.100md.com 2013年3月1日郭洪涛郑光王济华李松伟

第1页

    参见附件。

     【摘要】目的：利用文本挖掘技术探索痛风证药特点。方法：在中国生物医学文献数据库中收集治疗痛风的文献，采用基于敏感关键词频数统计的数据分层算法，挖掘痛风的证候及中药的特点，将结果通过一维频数和构建网络图进行展示。结果：痛风实证多见湿、热、痰、瘀等，虚证多见肝肾阴虚等；中药核心药物有黄柏、苍术、牛膝、薏苡仁、土茯苓、桂枝、当归等。结论：文本挖掘能够便捷地总结痛风证、药特点，也为中药复方配伍提供一种新的方法。

    【关键词】痛风；证候；中药；文本挖掘；数据分层算法

    痛风(gout)是一种难治愈、易复发的代谢性风湿病，临床上以高尿酸血症、反复发作的痛风性关节炎为主要特点，常累及肾脏[1]。中医药治疗痛风具有一定的临床优势，不仅在急性痛风性关节炎期可以起到较快的抗炎镇痛作用，而且在痛风间歇期及慢性痛风性关节炎期具有稳定的降低尿酸的作用[2]。中西医治疗痛风的文献在医学文献数据库中已经大量存在，本文利用课题组逐渐成熟的文本挖掘技术[3]，探索痛风的证、药特点。

    1 材料与方法

    1.1 文本数据收集方法概述在中国生物医学文献数据库(Chinese BioMedical Literature Database，CBM，http：//sinomed.cintcm.ac.cn/index.jsp)中以“缺省[智能]”状态下检索“痛风”，共得到文献6135篇(检索日期：2012年12月3日)，依次下载所有文献并保存。

    1.2 文本数据处理将收集来的数据按照下载的先后顺序，整合到一个平面文件(后缀.txt)里面，以ANSI编码格式保存。然后，利用专有的文本提取工具(软件著作权，软著登字第0261882号，登记号2010SR073409)，对下载的非结构化的txt文本数据进行信息提取，保存成格式化的、便于大型关系型数据库(Microsoft SQL Server，以下简称SQL)处理的格式，然后导入SQL中进行下一步的挖掘分析。假设每一篇文献的贡献度是相同的，一篇文献中重复出现的关键词，只需要计算一次，据此构建算法进行数据清洗工作[3] ......

http://www.100md.com/html/paper/2095-4174/2013/03/13.htm

您现在查看是摘要介绍页，详见PDF附件。