中医病历术语识别方法探讨(3)
深度学习模型的自主学习能力恰好可以解决CRF模型需要大量依赖人工制定特征工程的弊端,使得今后在抽取中医术语时,即使没有语言学专家的加入,也可以完成术语抽取工作。因此,应当对深度学习方法进行专门研究,以找寻适用于中医病历术语识别工作的深度学习模型。3 深度学习模型在中医病历术语识别中的应用
3.1 中医病历术语识别属于NER序列标注问题
中医病历术语识别属于NER序列标注问题[16]。所谓序列标注,是指把输入句子文本看作由词语组成的序列X=(x1,x2,……xi……xn),如X为现病史文本中“发作时伴有反酸,嗳气,无呕吐”这一句话,xi表示经过分词处理后的文本词语,即“发作/时/伴有/反酸/嗳气/无呕吐/”,序列标注就是给句子中每个词语打上标签集合中的某个标签Y=(y1,y2,……yi……yn)。使用BIEOS标记方法[17],其中B为实体标记的开始,I为实体标记的其他部分,E为实体标记的结尾,O为不属于命名实体, S为单字即构成症状术语。例如,“发作时伴有反酸,嗳气,无呕吐”可被标识为“发/O 作/O 时/O 伴/O 有/O 反/B酸/E,/O 嗳/B气/E,/O 无/B呕/I吐/E ......
您现在查看是摘要页,全文长 4619 字符。