当前位置: 首页 > 期刊 > 《医学信息》 > 2019年第1期
编号:13329199
分类算法在高血压诊断中的应用研究(2)
http://www.100md.com 2019年1月8日 《医学信息》 2019年第1期
     1改进的C4.5算法

    1.1算法思想 C4.5算法是一种分类决策树算法,算法的基本思想是找出具有最大信息增益率(Gain Ratio)的属性作为决策树的分裂节点,再根据不同属性值建立树的分支,对每个分支重复建立树的下一层节点和分支,直到分支的属性值属于同一类[3]。C4.5算法使用信息增益率来选择属性,GainRatio越大,区分样本的能力就越强,克服了用信息增益选择属性时存在的偏向问题。但是有些因素,如患者是否服药、患者性别等对高血压的诊断具有很大的影响。因此,引入属性权重?棕的概念,对C4.5算法进行改进。

    1.2算法描述

    算法:Hypertension _Decision_Tree

    输入:训练数据集样本,属性集

    输出:高血压分类决策树

    (1)创建一个节点Node

    (2)如果数据集中的元组属于同一类

    (3)返回Node作为叶子节点,并以该类为标记

    (4)如果属性集为空

    (5)返回Node作为叶子节点,标记为样本集的普通类

    (6)选择属性集中具有最高信息增益率的属性作为分裂属性

    (7)使用分裂属性标记节点Node

    (8)对分裂属性的每个属性值X

    (9)由节点Node产生一条满足分裂属性值=X的分枝

    (10)设Di是D中满足分裂属性值=X的数据集合

    (11)如果Di为空

    (12)添加一个树叶节点 ......
上一页1 2

您现在查看是摘要页,全文长 4833 字符