基于多特征条件随机场的《金匮要略》症状药物信息抽取研究(2)
1 研究方法在自然语言处理领域中,CRF模型可以使用字、词、词性等上下文特征,也可以引用词典等外部特征,即可以将任意相关知识源融入文本特征中,解决了序列标注和文本切分的问题,且在英文序列标记名词短语识别等方面取得了较好效果。CRF最常用的结构为线性链,可以有效克服隐马尔可夫模型假设条件的限制及最大熵模型标记偏执的问题。
一般采用CRF做医学术语抽取包括特征选取、参数估计和结果标注3个步骤,首先选择相关特征,然后利用所选特征对数据进行训练,得出特征函数权重参数,最后通过输入测试数据,使用训练好的模型对文本进行序列标记,完成医学命名实体识别。
1.1 数据准备与分词
CRF的训练和测试选用了CRF++工具包来实现,CRF++工具包是一个可用于分词、连续数据标注的简单、可定制的开源的条件随机场工具。首先要对《金匮要略》文本进行语料预处理和标注,然,后将其标注的语料分为2个部分,70%的部分作为训练语料,30%的部分作为测试语料。利用CRF训练测试的步骤概括如图1。
《金匮要略》全书共25篇,方剂262首,列举内外科病症60余种。由于年代久远,古文意思较为难懂,又兼具通假字较多,所以首先要进行必要的数据清洗,如古文中的“之乎者也”不影响上下文医学表达的词都去掉。分词处理使用中国科学院计算技术研究所开发的ICTCLAS 2015分词工具,此版本比过往版本对中文分词处理更加完善。但由于分词系统没有经过大量古文的自然语言方面的优化 ......
您现在查看是摘要页,全文长 5698 字符。