基于随机森林和多标记学习算法的慢性胃炎实证特征选择和证候分类识别研究(2)
1.9.1.2 随机森林算法 本研究利用Abhishek Jaiantilal的R package randomForest工具包训练出中医慢性胃炎数据的分类模型以确定特征重要度。在不增加原样本集样本的情况下通过自举法(bootstrap)选择样本子集构建一组分量分类器,然后利用投票(voting)机制综合分量分类器的结果得到最终分类结果。在构建分量分类器时,未被选中的样本组成袋外(out-of-bag,OOB)数据集,用袋外数据进行测试得到袋外误差(out-of-bag error,OOB Err)。在森林每一颗树的构建过程中,记下OOB事例集,并记下分类投票正确的个数。随机改变OOB事例集中一个特征m,把这些事例训练成树。然后用之前未受改变特征m影响情况下正确分类投票数减去改变OOB事例集中特征m后的正确分类票数得到票数差,这个票数差客观反映了特征m对分类的影响程度。对每棵树做相同处理,然后每棵树结构得到的票数差取平均值称为特征m的重要度(raw importance)。取出重要度参向量importance=(ipt1,ipt2,… ......
您现在查看是摘要页,全文长 4321 字符。