当前位置: 首页 > 期刊 > 《中国中医药图书情报》 > 20146
编号:13657256
面向中医药文献的语义关系发现方法研究(1)
http://www.100md.com 2014年12月1日 《中国中医药图书情报》 20146
     摘要:从中医药文献中提取语义关系的方法,能充实中医药知识库系统,提升知识获取效率,改进知识检索效果。本研究通过搜集中医药文献并从中找出在一起频繁出现的词对,基于中医药学语言系统判断语义关系的性质,再将所发现的语义关系交由领域专家进行检验。该方法向中医药领域专家提供了从文本中发现语义关系的新颖技术手段。

    关键词:语义关系;中医药学语言系统;知识库

    目前,中医药领域实用的知识库系统显现出大型化的趋势,往往包含百万条语义关系。例如,中医药学语言系统(Traditional Chinese MedicineLanguage System,TCMLS)已收录概念12万余条,术语30万余条,语义关系127万多条。由人工编辑如此大量的语义关系,是一个耗时费力的大工程。若能实现从文献中自动抽取语义关系,则可大幅提升知识获取效率。因此,语义关系发现方法对领域知识库的构建具有很大意义。本文介绍了一项基于TCMLS从文本中发现语义关系的初步尝试。该研究试图将文本中蕴含的语义关系挖掘出来,与TCMLS现有的语义关系结合,得到更为全面、准确的语义关系,并明确系统中语义关系的文献来源,从而扩充TCMLS的数据规模,提升TCMLS中语义关系的准确性和可靠性。
, 百拇医药
    1、研究背景和相关工作

    中医药学是经过几千年的发展而形成的,文献记载是其重要的知识流传的方式之一。近年来,中医团体开展了大量的知识工程工作,采用各种文献中的知识来构建中医药领域知识库,提供知识检索服务。以TCMLS为例,因缺乏实用的中医药文本挖掘方法,在语义关系抽取方面,主要依赖于加工人员的个人知识和手工操作。这种方法与加工人员个人的知识、素养和责任心有很大关系,造成数据准确性良莠不齐,难以对数据质量进行有效管理。随着系统规模的不断扩大,人工编辑的复杂性也不断增大,制约着TCMLS的进一步发展。鉴于此,拟对中医药文献内容进行语义关系提取,得到具体概念之间的语义关系,与TCMLS的语义关系进行比较,并对TCMLS进行进一步扩充。

    从自由文本中挖掘语义关系是一个非常困难的问题,因为同一种关系在文本中会有多种表达方式。常见的语义关系发现方法,主要包括如下2大类。

    1.1 基于语法分析的语义关系发现
, 百拇医药
    此类方法的主要思路是:基于自然语言处理(NLP)技术,通过对文本进行语法分析,构建出语法树,再通过语法和词性的分析得到其中的语义关系。这类方法的优点是对语义关系定位比较准确,并可以通过语法特征得到文本中的隐含信息。但其缺点在于:此类方法的效果严重依赖于语法分析的结果,对于一些特殊的领域,现有的语法分析方法往往无法取得令人满意的结果。因此,基于语法分析的语义关系抽取算法其应用范围受到了很大的限制,特别是在一些有着独特语法规则的领域中更是如此,本文中提到的中医药领域就是一个例子。

    1.2 基于模式匹配的语义关系发现

    这种方法是用某种模式对文本进行匹配,根据匹配的情况得到相应的语义关系。根据匹配模式的不同来源,可以分为两类:基于领域知识的模式匹配和基于学习的模式匹配。基于领域知识的模式是由领域专家将其领域知识总结、升华得到的通用知识模式,然后再使用这些模式作为模板,从文献中找到相应的关系。基于学习的模式匹配方法,是指使用机器学习方法,通过对文献特征的分析得到有用的模式。这类方法的目标一般限定为仅挖掘某些特定类别的实体的几种特定关系,无法胜任中医药领域中语义关系种类很多的情况。
, 百拇医药
    综上所述,这两类方法都不适合中医药领域的需求。本研究提出基于TCMLS的文本语义关系发现方法,该方法以TCMLS中的词汇为基础,发现语义关系中的主体和客体;以TCMLS中已有的语义关系为根据,推测从文本中挖出的语义关系的类型。本研究的基本策略,是基于TCMLS从文本中发现更多的关系,经用户验证后加入TCMLS之中,从而丰富TCMLS的语义关系;再用丰富后的TCMLS进行新一轮的文本挖掘,进一步丰富TCMLS;以此类推,从而形成一套基于文本语义关系发现来驱动TCMLS加工的技术方案。下面具体介绍基于TCMLS的语义关系发现方法。

    2、文本语义关系发现方法

    如图1所示,文本语义关系发现,是指从“……人参有‘补五脏、安精神、定魂魄、止惊悸、除邪气、明目开心益智’的功效……”的文本中,发现“人参补五脏”、“人参安精神”、“人参止惊悸”、“人参除邪气”这样的关系。该方法会统计每条关系出现的频数:如果在文档D1,D2……Dn中都出现了某条关系R,则R出现的频数即为n。该方法的基本策略是:以TCMLS作为领域词库,从文献库中找出在同一文档中出现的两个领域术语(如“人参、邪气”、“人参、五脏”等),构成候选的文本语义关系,并统计每条关系的频数,以供语言学家进行检阅和处理。由机器判断语义关系的谓词(如“人参”与“邪气”之间的谓词为“除”)仍是一个技术难题。本方法会在这两个词附近找出一些候选性谓词(如“补”、“除”等)推荐给用户;并提供TCMLS中的相关用法,供用户参考(例如,针对“人参”和“肾阳虚证”,系统会根据TCMLS中的用法向用户推荐“治疗”这一谓词)。
, 百拇医药
    为实现该策略,首先需要将中医药文本分解成一系列独立的语义单元。中医药文献资源包括书籍、期刊、会议论文集、病历、报告等,语义单元划分要针对不同类型的文献进行具体分析。本研究主要考虑书籍、期刊和会议论文集。这些文献都可被分为一系列“文章”(在书籍中对应一章或一节,在期刊和会议论文集中对应一篇论文),可对文章进一步细分,将文章分为小节,将小节分为段落,将段落分为句子。

    理论上,在一篇文章中出现的任意两个词汇之间都可能存在或强或弱、或直接或间接的语义关系。因此也可将“文章”作为语义单元进行语义关系发现。但在语义关系识别阶段,关键词组过长会极大增加算法复杂性。为保证算法效率,关键词组内词汇数量不宜过多,因此本研究未将整篇文章作为语义单元进行挖掘。与全文相比,“句子”是一个相对较小、且有完整语义的单元。“句子”通常描述一个完整的意思,且其中的词汇之间通常有某种联系,因此“句子”为中文分词及后续处理提供了天然的单元。但语义关系的主体和客体也有可能分散在不同的句子中,仅以句子作为语义单元会遗失掉很多的关系。鉴于此,本项目分别以句子和小节作为基本的语义单元,进行语义关系发现,下面介绍其核心思想和设计原则。, 百拇医药(于彤 贾李蓉 张竹绿 朱玲)
1 2下一页