中医医案文献自动分词研究(2)
1 资料与方法1.1 分词模型
汉语分词的主要瓶颈是切分排歧和未登录词识别,采用层叠隐马模型(hierarchical hidden Markov model,HHMM)的词法分析框架较好地解决了这一问题。该模型是中国科学院计算技术研究所在传统隐马模型(hidden Markov model,HMM)基础上进行扩展及泛化后提出的,基于这一框架研制的汉语词法分析系统(Institute of Computing Technology Chinese Lexical Analysis System,ICTCLAS),将中文分词、词性标注、命名体识别、切分排歧等词法分析任务整合到一个相对统一的理论模型中,是目前最好的汉语词法分析系统之一,分词精度达到98.45%[1]。
本研究基于JAVA实现了ICTCLAS的算法,基本流程见图1。首先是对中医医案的文本进行原子切分,同时完成大小写、简繁体、全角半角的规范,其次引入中医领域词典完成N-最短路径的粗切分以覆盖尽可能多的歧义,然后通过多层隐马模型对未登录词进行识别,接着用基于类的隐马模型进行全局最优分词,最后对分词结果进行词性标注[2]。
图1 基于HHMM汉语词法分析框架
1.2 建立中医领域词典
对于中医医案文献来说 ......
您现在查看是摘要页,全文长 4966 字符。