基于信息增益的中医体质多标记分类方法研究(1)
摘要:目的 为降低中医体质传统分类方法主观性误差,兼顾兼夹体质,提出基于信息增益的中医体质多标记分类方法。方法 采用多标记方法进行中医体质分类。为解决多标记分类方法中不同特征对分类标签的影响不同的问题,通过体质分类数据计算各特征项的信息增益,计算体质分类特征对分类标签的权重,进而通过加权的多标签分类器,得出体质数据多標记分类。结果 与传统判别分析法相比,基于信息增益的多标记分类方法在1-错误率(16.33%)、汉明损失(15.44%)、平均准确率(82.61%)方面均有一定优势。结论 基于信息增益的多标记分类方法在保证准确率同时可兼顾兼夹体质,实现对体质特征差异性及趋同性的更好描述。
关键词:中医体质分类;信息增益;多标记分类
中图分类号:R2-05;R229 文献标识码:A 文章编号:1005-5304(2019)06-0097-04
Abstract: Objective To propose a multi-label classification method of TCM constitutions based on information gain; To reduce the subjective error of traditional classification methods of TCM constitutions and take into account the combination of constitutions. Methods The multi-label method was used to classify TCM constitutions. In order to solve the problem that different features of multi-label classification method had different influence on the classification label, the information gain of each feature item was calculated by the physique classification data, and the weight of classification features were calculated. Then multi-label classification of physique data was obtained by weighted multi-label classifier. Results Compared with the traditional discriminant analysis method, the multi-label classification method based on information gain had certain advantages in 1-error rate (16.33%), hamming loss (15.44%), and average accuracy (82.61%). Conclusion The multi-label classification method based on information gain can ensure the accuracy. Taking into account the combination of constitutions can realize the better description of the difference in constitution characteristics and convergence.
Keywords: TCM constitutions; information gain; multi-label classification
中医体质学以体质特征为研究主体,以体质调节为目的,是中医基础理论的重要组成部分。目前,机器学习、复杂网络等大数据相关技术在中医体质相关研究中应用范围仍相对局限。目前体质分类多采用《中医体质分类与判定自测表》(以下简称“自测表”),基于专家经验的判别分析法(DA)进行。自测表通过分值表示各条目与体征描述的符合程度,但该判定过度依赖于被调查者的主观,且受专家认知等影响,分类结果存在一定误差;同一体质分类中各指标小项权重无区分,而预实验发现部分小项对体质判定具有更好的分类贡献;无权重数据容易稀释特征值,导致兼夹体质的缺失[1];此外,该方法无法满足大数据时代海量医疗数据的处理需求。
因此,为解决实验样本量与质的矛盾,降低实验分类结果的人为误差,为后续病体相关性研究提供分类依据,本研究从中医体质的内涵出发,提出一种基于信息增益的中医体质多标记分类方法,通过信息增益定义不同特征对分类标签的贡献,作为多标记分类器中相似性的权重,通过计算加权的余弦相似度的K近邻算法,得出体质数据的多标记分类。
1 信息增益
2 多标记学习
标记学习旨在通过抽象待分类对象的特征空间与类别标记间的函数表示,实现待分类对象到类别的映射[5],即从{()|1≤i≤N}中习得f∶x→y,其中为待分类对象的特征向量集合,yi∈Y为xi属于类别集合中类别li的标记,即xi属于类别li,为类别集合。
3 基于信息增益的多标记分类方法
传统的多标签学习方法忽略了不同特征间对标签分类贡献的区别,且文本的特征表示限制了文本分类性能的提升[10-11]。为解决该问题,通过加权的方式实现特征项与各分类标签间相关性的描述,突出特定特征对分类的重要性,提出基于信息增益的多标签分类方法(TMLKNN)。加权后的(4)式表示为:, 百拇医药(吕庆莉)
关键词:中医体质分类;信息增益;多标记分类
中图分类号:R2-05;R229 文献标识码:A 文章编号:1005-5304(2019)06-0097-04
Abstract: Objective To propose a multi-label classification method of TCM constitutions based on information gain; To reduce the subjective error of traditional classification methods of TCM constitutions and take into account the combination of constitutions. Methods The multi-label method was used to classify TCM constitutions. In order to solve the problem that different features of multi-label classification method had different influence on the classification label, the information gain of each feature item was calculated by the physique classification data, and the weight of classification features were calculated. Then multi-label classification of physique data was obtained by weighted multi-label classifier. Results Compared with the traditional discriminant analysis method, the multi-label classification method based on information gain had certain advantages in 1-error rate (16.33%), hamming loss (15.44%), and average accuracy (82.61%). Conclusion The multi-label classification method based on information gain can ensure the accuracy. Taking into account the combination of constitutions can realize the better description of the difference in constitution characteristics and convergence.
Keywords: TCM constitutions; information gain; multi-label classification
中医体质学以体质特征为研究主体,以体质调节为目的,是中医基础理论的重要组成部分。目前,机器学习、复杂网络等大数据相关技术在中医体质相关研究中应用范围仍相对局限。目前体质分类多采用《中医体质分类与判定自测表》(以下简称“自测表”),基于专家经验的判别分析法(DA)进行。自测表通过分值表示各条目与体征描述的符合程度,但该判定过度依赖于被调查者的主观,且受专家认知等影响,分类结果存在一定误差;同一体质分类中各指标小项权重无区分,而预实验发现部分小项对体质判定具有更好的分类贡献;无权重数据容易稀释特征值,导致兼夹体质的缺失[1];此外,该方法无法满足大数据时代海量医疗数据的处理需求。
因此,为解决实验样本量与质的矛盾,降低实验分类结果的人为误差,为后续病体相关性研究提供分类依据,本研究从中医体质的内涵出发,提出一种基于信息增益的中医体质多标记分类方法,通过信息增益定义不同特征对分类标签的贡献,作为多标记分类器中相似性的权重,通过计算加权的余弦相似度的K近邻算法,得出体质数据的多标记分类。
1 信息增益
2 多标记学习
标记学习旨在通过抽象待分类对象的特征空间与类别标记间的函数表示,实现待分类对象到类别的映射[5],即从{()|1≤i≤N}中习得f∶x→y,其中为待分类对象的特征向量集合,yi∈Y为xi属于类别集合中类别li的标记,即xi属于类别li,为类别集合。
3 基于信息增益的多标记分类方法
传统的多标签学习方法忽略了不同特征间对标签分类贡献的区别,且文本的特征表示限制了文本分类性能的提升[10-11]。为解决该问题,通过加权的方式实现特征项与各分类标签间相关性的描述,突出特定特征对分类的重要性,提出基于信息增益的多标签分类方法(TMLKNN)。加权后的(4)式表示为:, 百拇医药(吕庆莉)