中医古籍医案知识元标引方法的思考及对策
病机,1中医古籍知识元标引现状,2模板标引方法,1模板标引方法,2标引示例,3模板标引方法存在的问题,3节点自定标引方法,1规定关系建立节点为最小知识单元,2自定义建立语义关系,3消歧方式,4选择性建立附加节点,5标引示
陈晗婷,刘昕妍,王于静,林子宜,顾元烨,杨曜嘉,王维广,翟双庆(北京中医药大学中医学院,北京 100029)
中医古籍卷帙浩繁,其中医案形式多样,内容丰富,记载了海量疾病诊疗方法与经验。但大部分古籍作为文物被各大图书馆、博物馆收藏,这对检索查阅造成困难。随着中医现代化研究的深入,传统古籍整理手段与知识获取方式已不能满足当前中医学发展和传承的需要。对古籍中的医案进行知识元标引,不仅能将医案信息完整保留,实现资源共享,也能够在数据深度挖掘方面,如特定证型诊疗规律[1]的研究、组方用药[2]等方面发挥相应作用。
1 中医古籍知识元标引现状
20世纪70年代后期,弗拉基米尔·斯拉麦卡指出,知识的控制单位将从文献深入到其中的数据、公式、事实、结论等最小的独立的“知识元”[3]。在中医古籍标引中,柳长华先生提出“知识元是知识系统中可以表达一个完整概念的不可分解的最小知识单元。知识元是由一个或一个以上的元概念和构建这个元概念的语义成分(属性词)构成的”[4]。知识元标引即通过分析文本内容逻辑以“知识元-关系-知识元”的方式构建知识图谱,形成中医古籍结构化数据库。
知识元标引通常有两种模式:一是自上而下的标引模式,即以知识体、知识元、语义类型、语义关联的顺序,知识体量逐渐缩小进行标引(下文称为“模板标引方法”)[5];二是自下而上的标引模式,即先对数据进行预处理,提取关键词,提取关键句,最后定义知识元结构(下文称为“节点自定标引方法”)[6]。
目前根据模板标引方法在中医药领域已构建的平台有由中国中医科学院研发的“古籍文献知识加工平台”[7],国家重点研发计划立项的“中医古籍‘病脉证并治’知识元标引系统”[8]。模板标引方法有结构清晰、标引难度小等优点,但在标引医案类文本时,尚存在不足之处。因此,本研究提出基于自下而上标引模式的节点自定标引方法,并构建了标引平台“中医经典知识挖掘与传播平台”。下文将从标引医案时模板标引方法标引流程及存在的问题,节点自定标引方法的解决对策,两方法标引同一医案的对比这三方面进行详细论述。
2 模板标引方法
2.1 模板标引方法
模板标引方法依托“中医古籍‘病脉证并治’知识元标引系统”进行介绍。系统提前为标引者设立“病脉证并治”“方剂”“本草”“医案”等标引模板,并结合中医理论与辨证特点,在各模板中搭建好固定“知识体-知识元”关系框架。以下为具体操作流程。
2.1.1 确定模板 登录系统后,标引者可依据自身中医理论知识判断并选择需标引文本所适用模板 ......
您现在查看是摘要页,全文长 11345 字符。