基于文本挖掘技术分析治疗精子活力低下症的中医用药规律(1)
摘要:目的 利用文本挖掘技术探索治疗精子活力低下症的常用中医用药规律,为临床治疗提供一定的参考依据。方法 登录中国知网(CNKI)收集中医治疗精子活力低下症的相关文献,使用MySQL数据库,运用全文索引对数据进行归档存储,并人工降噪处理。利用数据挖掘中的关联规则算法,统计分析常用中药用药频率及药物协同关系规律,绘制协同药物网络图并进行分析讨论。结果 中药协同关系分析显示菟丝子、枸杞子、淫羊藿、熟地黄、黄芪是治疗精子活力低下症最常用的中草药。结论 常用中药用药规律,对临床应用具有一定指导意义,文本挖掘技术可以为中医药研究提供技术支持。
关键词:精子活力低下症;中医;文本挖掘;用药规律
中图分类号:R256.56 文献标志码:A 文章编号:1007-2349(2019)01-0019-04
根据《世界卫生组织人类精液分析实验室技术手册》(第5版)的描述,精子活力低下症是指男性精液参数分析中前向运动(PR)精子百分率低于参考值下限,即低于32%[1]。WHO命名为弱精子症。据西方国家统计调查,10%~15%的育龄夫妇存在不育问题,其中男性因素大约占50%[2]。在中国约1/10的夫妇发生不育,属于男方因素的约为40%[3]。而且无论是在国内还是国外,男性精子的质量在近10年内都出现了明显下降的趋势[4]。中医学中没有“精子活力低下症”或“弱精子症”之说及记载。但该病与中医“精寒”、“精冷”等症有关。中医学在精子活力低下症治疗中积累了宝贵的经验,关于中医药治疗精子活力低下的文献已有大量刊载,通过文本挖掘技术[5]对精子活力低下症文献进行全面分析和整理,将有助于发现精子活力低下症治疗规律特征,为进一步提高中医临床治疗效果、深入开展中医科研提供依据。
1 资料与方法
文本挖掘是从非结构化的文本数据中,抽取有价值信息的处理技术[6]。文本挖掘应用到生物、医学上,可以分为文本数据收集、处理、结构化分析、可视化以及评价5个步骤[7]。
1.1 数据收集 登录中国知网(China National Knowledge Infrastructure,CNKI,http://www.cnki.net/)在关键词检索下检索关键词“弱精子症”、“精子活力低下症”。经过检索共得到文献750篇,检索日期2017年11月10日。
1.2 数据处理 将检索到的相关文献运用OCR 识别技术,按照UTF-8编码格式统一保存在新建文本文件(后缀TXT)中。然后利用文本提取工具,将非结构化的文件内容整理为[文章序号,关键词]这样的格式化结构,便于MySQL数据库录入与处理。
1.3 数据一次清洗 将1.2项中提取的结构化文本信息存入数据库的数据表中,表名为table_initial,针对“序号”和“关键词”进行处理。对于1篇文献中重复出现的关键词只需要计算1次,据此进行数据清洗工作。
1.4 数据挖掘以及可视化分析 对于文献检索和查阅而言,在1篇文章中出现的关键词,部分地反映整篇文章的信息。就某篇具体文献来说,相关关键词的“共同出现”蕴含有一定的意义。基于以上分析,构造针对每篇文献共同出现的关键词对算法,得到名为keypairs数据表。将相同的关键词对进行合并处理,只保留它们出现的频数,构造进一步算法实现得到key_pairs_frqcy 数据表,抽取不同频数词对,应用 Cytoscape3.5进行可视化处理。圆圈的大小表示某一药物出现的频数大小,例如,菟丝子的圆圈最大,共出现101次。这种频数大小反映了某一药物在精子活力低下症诊治中的重要程度。线条的粗细反映了某一药物与其他药物相兼出现的频数大小。菟丝子与枸杞子的线条最粗,即两者相兼出现的证型有85个。这种频数大小反映了某一药物在精子活力低下症诊治中的重要程度。
1.5 数据二次清洗 经过专业知识评估,数据一次清洗后仍存在噪音问题,这些噪音主要是自然语言的二义性和表达方式的多样性产生的,对于这类问题,只能逐个分析并建立规则,然后根据规则,依据专业知识对数据进行二次清洗降噪。即中药名称根据《中药学》(高学敏主编,中国中医药出版社,2007年)进行规范,使同种药物名称统一,如中药“仙灵脾”、“淫羊藿”统一规范为“淫羊藿”。
2 结果
2.1 中药频数统计 治疗精子活力低下症常用中药频数统计显示,频数由高至低排列,前15味中药。菟丝子、枸杞子、淫羊藿、熟地黄、黄芪、当归、覆盆子出现频次超过50,较其他药更常用。频数靠前的15位中药可以构成方剂五子衍宗丸,具有补肾益精之功效。
2.2 中药协同关系分析 通过文本挖掘整理出的药对组合中,频次最多的35对组合如表1,从表中可知,枸杞子、菟丝子、淫羊藿、熟地黄之间的组合频次最高,均大于55次,利用Cytoscape软件将上述药物组合进行可视化处理,生成二维网络关系图。
菟丝子、枸杞子可与11个其他的中草药配伍相兼使用,其次淫羊藿分别与9个其他的中草药配伍相兼使用,熟地黄可与8个其他的中草药配伍相兼使用,体现了治疗精子活力低下症复方的配伍核心。
3 讨论
在生物学领域,由于生物学数据和生物医学文献数量的急骤增长,通过数据挖掘寻找规律和新知成了生物学研究的一个新热点和重要分支[8]。近年来,随着各种信息传媒和通量的不断加大,中医证用药规律研究呈现多元化的趨势[9]。采用文本挖掘进行用药规律研究是方法之一。文本挖掘是从文本集中发现潜在、隐藏的归纳性知识的一门技术[10],它能对海量数据进行整合、分析,获得的结果更具有代表性、可信度更高[11]。既往的研究表明,文本挖掘具有探索治疗疾病用药规律的技术特征和条件,可操作性强[12]。精子活力低下不育症是男科的常见重大疾病。本研究从750篇文献中挖掘中医诊治精子活力低下不育症的用药规律,文献信息全面,挖掘过程恰当,质量控制严格,所得结果具有指导临床用药价值。, http://www.100md.com(陈曙辉 林煦垚 张明强 陈立 秦国政)
关键词:精子活力低下症;中医;文本挖掘;用药规律
中图分类号:R256.56 文献标志码:A 文章编号:1007-2349(2019)01-0019-04
根据《世界卫生组织人类精液分析实验室技术手册》(第5版)的描述,精子活力低下症是指男性精液参数分析中前向运动(PR)精子百分率低于参考值下限,即低于32%[1]。WHO命名为弱精子症。据西方国家统计调查,10%~15%的育龄夫妇存在不育问题,其中男性因素大约占50%[2]。在中国约1/10的夫妇发生不育,属于男方因素的约为40%[3]。而且无论是在国内还是国外,男性精子的质量在近10年内都出现了明显下降的趋势[4]。中医学中没有“精子活力低下症”或“弱精子症”之说及记载。但该病与中医“精寒”、“精冷”等症有关。中医学在精子活力低下症治疗中积累了宝贵的经验,关于中医药治疗精子活力低下的文献已有大量刊载,通过文本挖掘技术[5]对精子活力低下症文献进行全面分析和整理,将有助于发现精子活力低下症治疗规律特征,为进一步提高中医临床治疗效果、深入开展中医科研提供依据。
1 资料与方法
文本挖掘是从非结构化的文本数据中,抽取有价值信息的处理技术[6]。文本挖掘应用到生物、医学上,可以分为文本数据收集、处理、结构化分析、可视化以及评价5个步骤[7]。
1.1 数据收集 登录中国知网(China National Knowledge Infrastructure,CNKI,http://www.cnki.net/)在关键词检索下检索关键词“弱精子症”、“精子活力低下症”。经过检索共得到文献750篇,检索日期2017年11月10日。
1.2 数据处理 将检索到的相关文献运用OCR 识别技术,按照UTF-8编码格式统一保存在新建文本文件(后缀TXT)中。然后利用文本提取工具,将非结构化的文件内容整理为[文章序号,关键词]这样的格式化结构,便于MySQL数据库录入与处理。
1.3 数据一次清洗 将1.2项中提取的结构化文本信息存入数据库的数据表中,表名为table_initial,针对“序号”和“关键词”进行处理。对于1篇文献中重复出现的关键词只需要计算1次,据此进行数据清洗工作。
1.4 数据挖掘以及可视化分析 对于文献检索和查阅而言,在1篇文章中出现的关键词,部分地反映整篇文章的信息。就某篇具体文献来说,相关关键词的“共同出现”蕴含有一定的意义。基于以上分析,构造针对每篇文献共同出现的关键词对算法,得到名为keypairs数据表。将相同的关键词对进行合并处理,只保留它们出现的频数,构造进一步算法实现得到key_pairs_frqcy 数据表,抽取不同频数词对,应用 Cytoscape3.5进行可视化处理。圆圈的大小表示某一药物出现的频数大小,例如,菟丝子的圆圈最大,共出现101次。这种频数大小反映了某一药物在精子活力低下症诊治中的重要程度。线条的粗细反映了某一药物与其他药物相兼出现的频数大小。菟丝子与枸杞子的线条最粗,即两者相兼出现的证型有85个。这种频数大小反映了某一药物在精子活力低下症诊治中的重要程度。
1.5 数据二次清洗 经过专业知识评估,数据一次清洗后仍存在噪音问题,这些噪音主要是自然语言的二义性和表达方式的多样性产生的,对于这类问题,只能逐个分析并建立规则,然后根据规则,依据专业知识对数据进行二次清洗降噪。即中药名称根据《中药学》(高学敏主编,中国中医药出版社,2007年)进行规范,使同种药物名称统一,如中药“仙灵脾”、“淫羊藿”统一规范为“淫羊藿”。
2 结果
2.1 中药频数统计 治疗精子活力低下症常用中药频数统计显示,频数由高至低排列,前15味中药。菟丝子、枸杞子、淫羊藿、熟地黄、黄芪、当归、覆盆子出现频次超过50,较其他药更常用。频数靠前的15位中药可以构成方剂五子衍宗丸,具有补肾益精之功效。
2.2 中药协同关系分析 通过文本挖掘整理出的药对组合中,频次最多的35对组合如表1,从表中可知,枸杞子、菟丝子、淫羊藿、熟地黄之间的组合频次最高,均大于55次,利用Cytoscape软件将上述药物组合进行可视化处理,生成二维网络关系图。
菟丝子、枸杞子可与11个其他的中草药配伍相兼使用,其次淫羊藿分别与9个其他的中草药配伍相兼使用,熟地黄可与8个其他的中草药配伍相兼使用,体现了治疗精子活力低下症复方的配伍核心。
3 讨论
在生物学领域,由于生物学数据和生物医学文献数量的急骤增长,通过数据挖掘寻找规律和新知成了生物学研究的一个新热点和重要分支[8]。近年来,随着各种信息传媒和通量的不断加大,中医证用药规律研究呈现多元化的趨势[9]。采用文本挖掘进行用药规律研究是方法之一。文本挖掘是从文本集中发现潜在、隐藏的归纳性知识的一门技术[10],它能对海量数据进行整合、分析,获得的结果更具有代表性、可信度更高[11]。既往的研究表明,文本挖掘具有探索治疗疾病用药规律的技术特征和条件,可操作性强[12]。精子活力低下不育症是男科的常见重大疾病。本研究从750篇文献中挖掘中医诊治精子活力低下不育症的用药规律,文献信息全面,挖掘过程恰当,质量控制严格,所得结果具有指导临床用药价值。, http://www.100md.com(陈曙辉 林煦垚 张明强 陈立 秦国政)
参见:首页 > 保健版 > 家庭用药 > 用药常识 > 信息