当前位置: 首页 > 期刊 > 《中国现代医生》 > 2017年第30期
编号:13218222
基于大数据微信聊天机器人在癌症患者随访中的设计和应用研究进展(2)
http://www.100md.com 2017年10月25日 中国现代医生 2017年第30期
     由于分词工具本身也是使用词库训练得到的,其准确识别癌症患者随访任务中的相关词汇需要建立一个癌症相关的专门词库。以人工的方式建立癌症专业词汇数据库的工作量很庞大,并且数据库不会自动添加和识别新词。专业词汇经常出现在学术文章中,因此可能通过词分词后两个词之间的距离,来寻找这些专业词汇之间的相关性,并且统计这些词语在不同的文章中出现的频率来确定这是否是一个专业词汇。比如,“闪光侦检器”这个单词在肿瘤相关的文章中联合出现的比例约为96.67%,但是出现在其他文章中的距离基本都超过10以上,也就是说,如果闪光和侦检器两个词连在一起出现时,就可以认为是一个词语。同样的情况也大量出现在肿瘤相关领域内的专业词汇。类似的新词发现方法可以参考“基于微博内容的新词发现方法”[17]。首先通过网上现有的专业词汇和学术文章建立起一个基础的专业词库,然后再通过每天对于新出现的学术文章再次处理,并将患者对话中的语言进行二次分析来找到新词。

    发现同义词的过程对患者特别有用,因为绝大多数患者都不是专业人士,提问时常用日常词语而非专业词汇,比如:辛辣食物为专业词汇,但是患者可能说:辣的、刺激的、大料等。这次词汇必须再一次通过分析方法,作为近义词发现并保存到词库中。其流程见图4 ......
上一页1 2 3下一页

您现在查看是摘要页,全文长 4795 字符