分类算法在高血压诊断中的应用研究(2)
1改进的C4.5算法1.1算法思想 C4.5算法是一种分类决策树算法,算法的基本思想是找出具有最大信息增益率(Gain Ratio)的属性作为决策树的分裂节点,再根据不同属性值建立树的分支,对每个分支重复建立树的下一层节点和分支,直到分支的属性值属于同一类[3]。C4.5算法使用信息增益率来选择属性,GainRatio越大,区分样本的能力就越强,克服了用信息增益选择属性时存在的偏向问题。但是有些因素,如患者是否服药、患者性别等对高血压的诊断具有很大的影响。因此,引入属性权重?棕的概念,对C4.5算法进行改进。
1.2算法描述
算法:Hypertension _Decision_Tree
输入:训练数据集样本,属性集
输出:高血压分类决策树
(1)创建一个节点Node
(2)如果数据集中的元组属于同一类
(3)返回Node作为叶子节点,并以该类为标记
(4)如果属性集为空
(5)返回Node作为叶子节点,标记为样本集的普通类
(6)选择属性集中具有最高信息增益率的属性作为分裂属性
(7)使用分裂属性标记节点Node
(8)对分裂属性的每个属性值X
(9)由节点Node产生一条满足分裂属性值=X的分枝
(10)设Di是D中满足分裂属性值=X的数据集合
(11)如果Di为空
(12)添加一个树叶节点 ......
您现在查看是摘要页,全文长 4833 字符。