针灸古籍经验推荐平台构建方法及功能展示(3)
2.3.5 监督分类 采用Adaboost算法[5],将规则抽取的结果根据标准库的内容进行细分分类。该算法的优点是不需预先标注的手工训练集,只需少量抽取目标的样本信息及大量的未标注语料就可自动抽取目标信息。先将标准库构建成训练模板,通过Adaboost算法迭代进行分类。2.3.6 相似度计算 为提高监督分类的准确率,在采用Adaboost算法基础上,采用基于TF-IDF[6]和余弦[7]实现相似度分析。该算法通过词频和逆向文档,将文本信息转为多维的空间向量,通过余弦公式计算两个空间向量的夹角大小进行评估文本的相似度。
2.3.7 歧义分析 对于同一病症在不同书籍中存在不同名称的歧义,采用基于隐含语义分析(latent semantic analysis,LSA)[8]和奇异值分解(singular value decomposition,SVD)[9]来解决。
2.3.8 关联挖掘 通过以上的清理、去噪、整理,形成病症-腧穴-经络-刺灸法集,采用Apriori算法[10]实现多层的关联分析,通过迭代和设置最小支持度和置信度,分析项集之间的潜在关系,建立腧穴配伍关系、病症腧穴对应关系、腧穴刺灸法对应关系的知识库。
2.3.9 决策分析 在关联挖掘所建立知识库的基础上,采用决策树C4.5算法[11]解决疾病不同症状所选用的腧穴、刺灸法可能不同的问题 ......
您现在查看是摘要页,全文长 5350 字符。