当前位置: 首页 > 期刊 > 《中国中医药图书情报》 > 20202
编号:13490880
中医病历术语识别方法探讨(2)
http://www.100md.com 2020年4月1日 《中国中医药图书情报》 20202
     1 中医病历命名实体识别研究的特殊性

    利用计算机自动提取病历中的实体信息的难点在于:虽然医学术语的表述方式有一定的规范,但它还是一种自由化的文本表述,不同的医生在表达同一种意思时使用的中医术语往往会有不同的表达方式,对于这种情况,医生可以很容易判断出它们是否表达了同一意义,例如,医生可以很迅速地反应出纳差、不能食、食少、不知饥饿、饥不欲食、不思饮食、食欲不振等均表达“纳呆”之意,而计算机想判断出这一点却并不容易。在实现让计算机理解的过程中,我们显然无法找到一本包含各种表述的词典,采用“字-字”匹配的模式来让计算机进行理解。此外,我们还希望计算机能够对识别出的中医术语进行分类,把属于症状的归属到症状术语里,属于病因的归属到病因术语里,属于方药的归属到方药术语里,以便进一步的挖掘分析。

    实现病历文本语料术语识别的自然语言处理技术为命名实体识别(Named Entity Recognition, NER)技术,它最早由美国纽约大学学者R Grishman和B Sundheim于1996年在MUC-6(Message Understanding Conference 6)会议上提出,目的是从自然语言文本中识别出实体指称及其类别[8]。传统的NER任务包括识别人名、地名、组织机构名称等实体指称 ......
上一页1 2 3 4 5下一页

您现在查看是摘要页,全文长 4958 字符