几种数据挖掘方法用于中医证候分析的对比研究(4)
4.2 K-means聚类结果设定K=8,K-means算法运行后将聚成8类。
参考专家组辨证经验,8个聚类组中,除类Ⅰ、Ⅶ外,特别是类Ⅱ和Ⅳ的患者大都有多种证候要素兼夹,无法推断出某聚类组属于哪个类。类Ⅰ和Ⅶ的效果较好,类Ⅰ把湿证和热证的证候要素聚在一组,但数量较少;类Ⅶ把血瘀证候要素聚在一起,可以推测聚类组为血瘀证类。该聚类的类Ⅱ与层次聚类对患者的类Ⅳ相同;该类Ⅰ与层次聚类对患者的类Ⅰ相似,因此K-means聚类和层次聚类在对患者聚类后得到的结果相似。
由于患者存在多种混合证候,且K-means的聚类效果受K值的影响很大,故尝试将K值设为9、10、11类,结果变化不大,聚类效果仍不理想。整体而言,K-means聚类效果略优于层次聚类,但由于大多数分组存在证候混合情况,而K-means也仅能将患者划分到一个类别,所以整体效果不理想。
5 小结
本研究对比4种不同的无监督方法在挖掘中医证候时的差异。①从症状划分角度来看,层次聚类和因子分析能在一定程度上提取证候,但聚类效果一般。复杂网络聚类效果较差 ......
您现在查看是摘要页,全文长 4441 字符。