基于随机森林和多标记学习算法的慢性胃炎实证特征选择和证候分类识别研究(3)
3 讨论特征选择不仅可以去除数据的冗余特征信息和无关特征信息从而提高原始数据的质量,而且还可以大大降低数据挖掘的成本。
3.1 特征选择
随机森林算法是一种机器学习方法,适合对高维、离散型数据进行建模仿真,当数据含噪声时也表现出良好的性能。它是Leo Breiman[9-10]于2001年提出的一个新的组合分类器算法,从而对数据进行挖掘和模式识别。该方法在许多领域得到了应用,例如天文学、微阵列、药物发现、癌细胞分析等[11]。其主要优点有:①较少的参数调整;②不必担心过度拟合;③适用于数据集中存在大量未知特征;④能够估计哪个特征在分类中更重要;⑤当数据集中存在大量的噪音时同样可以取得很好的预测性能。本研究充分考虑到中医数据的多标记特点,将随机森林算法和REAL多标记学习算法结合,挑选出慢性胃炎4个实证证候的症状和体征大部分与中医理论相符。如湿热内蕴,上泛舌面可见苔黄、苔腻、苔厚。根据中医理论,舌中部多反映中焦脾胃的病变 ......
您现在查看是摘要页,全文长 3923 字符。