5种诊断试验评价指标的一致度分析
作者:毛宗福 宋业胜
单位:毛宗福(湖北医科大学 武汉430071);宋业胜(湖北医科大学 武汉430071)
关键词:诊断试验评价;一致度;聚类分析
数理医药学杂志000308
摘 要 通过模拟实例对5种诊断试验评价指标的一致性进行了研究,结果表明,5种诊断试验评价指标结果间没有必然的一致性。通过指标聚类分析,Jouden指数、可用度、信息量指标聚为一类,符合率、比数积指标聚为一类。符合率、信息量指标因随验前概率改变而改变,不宜广泛应用。
中图分类号:R 195.1 文献标识码:A
文章编号:1004-4337(2000)03-0205-02
, http://www.100md.com
近年来,诊断试验综合评价方法的研究与应用发展较快[1,4],常用于比较两种或多种诊断试验优劣的综合统计指标有符合率(e)、比数积(φ)、Jouden指数(J)、可用度(u)、信息量(I)等[4]。关于这些指标的优缺点,已有大量研究[2,3,5]。本文拟对上述指标,就其评价结果的一致性进行初步探讨,以期更好地指导应用于实践。
1 5种综合统计指标简介
表1为一般诊断试验评价模式。基于此模式的5种常用综合统计指标算式为[3]:
符合率(e)=(a+d)/n (1)
比数积(φ)=ad/bc (2)
Jouden指数(J)=Se+Sp-1 (3) (4)
, 百拇医药
信息量(I)=P.Se.ln{Se/[P.Se+(1-Sp)(1-P)]}+(1+Sp).(1-P)ln{(1-Sp)/[P.Se+(1-Sp)(1-P)]}+(1-Se).P.ln{(1-Se)/[1-P.Se-(1-Sp)(1-P)]}+Sp(1-P)ln{Sp/[1-Sp-(1-Sp)(1-P)]} (5)
表1 某试验诊断某病的结果 诊断试验
金标准
合计
有病
无病
阳 性
, http://www.100md.com
a
b
a+b
阴 性
c
d
c+d
合 计
a+c
b+d
n
2 一致度分析
表2为4个诊断试验在就诊人群患病率分别为0.1、0.4时,8种组合情况的5种综合统计指标的评价结果。
, 百拇医药
2.1 由表2不难发现,比数积、Jouden指数、可用度指标不受验前概率的影响,具有较好的稳定性。符合率、信息量指标则随验前概率改变而改变,甚至出现相反的评价结果。例如,对Se=0.800,Sp=0.800与Se=0.610,Sp=0.930两个诊断试验,按信息量指标评价,P=0.1时,后者优于前者;P=0.4时,则前者优于后者。对Se=0.643,Sp=0.969和Se=0.571,Sp=0.994两个诊断试验,按符合率指标评价,P=0.1时,后者优于前者;P=0.4时,则前者优于后者。
表2 5种综合统计指标评价结果 诊断试验
验前概率
(P)
符合率
(e)
比数积
, http://www.100md.com
(φ)
Jouden指数
(J)
可用度
(u)
信息量
(I)
Se
Sp
0.800
0.800
0.1
0.800
, http://www.100md.com
10.0
0.600
-0.200
0.073
0.800
0.800
0.4
0.800
10.0
0.600
-0.200
0.193
0.610
, http://www.100md.com
0.930
0.1
0.898
20.8
0.540
-0.214
0.079
0.610
0.930
0.4
0.802
20.8
0.540
, 百拇医药
-0.214
0.174
0.643
0.969
0.1
0.936
56.3
0.612
-0.178
0.063
0.643
0.969
0.4
, http://www.100md.com
0.839
56.3
0.612
-0.178
0.240
0.571
0.994
0.1
0.952
220.5
0.565
-0.189
0.132
, 百拇医药
0.571
0.994
0.4
0.825
220.5
0.565
-0.189
0.241
2.2 根据表2,按5种综合指标评价结果的优劣顺序,计算其一致性系数,Kappa=0.243。进一步用Kendall和谐系数校正公式计算,W=0.403。经χ2检验,χ2=14.11(0.04, http://www.100md.com
2.3 用Kendall和谐系数校正公式,计算符合率、比数积、Jouden指数、可用度、信息量指标两两间和谐系数(见表3)。根据指标聚类法,采用最小相似系数作为类间相似系数作聚类分析。结果显示信息量、Jouden指数、可用度聚为一类,符合率、比数积聚为一类。表3 5种综合统计指标两两间Kendall和谐系数
符合率
(e)
比数积
(φ)
Jouden指数
(J)
可用度
(u)
, http://www.100md.com
比数积(φ)
0.86
Jouden指数(J)
0.50
0.49
可用度(u)
0.72
0.79
0.89
信息量(I)
0.37
0.64
0.45
, 百拇医药
0.55
3 讨论
上述分析表明,符合率(e)、比数积(φ)、Jouden指数(J)、可用度(u)、信息量(I)5种综合统计指标用于评价诊断试验优劣时,其结果间没有必然的一致性,即在实践应用中,采用不同评价方法会得到不同结果,甚至截然相反的结论。因此,有必要从理论和实践上进一步探讨综合评价诊断试验的最合适指标。
3.1 符合率、信息量两个指标因随验前概率改变而改变,而验前概率多为一种主观估计概率,往往难以正确估计,所以笔者认为,符合率、信息量两个指标不宜作为普遍应用的评价指标。
3.2 对某一诊断试验,其敏感性和特异性均优于另一诊断试验,则根据算式(2)、(3)、(4)可知,比数积、Jouden指数、可用度三个指标评价结果的优劣顺序必然一致;但若该诊断试验较另一诊断试验的敏感性高而特异性低,或敏感性低而特异性高时,这三个指标评价结果的优劣顺位往往不一致。如表2所示,对Se=0.800,Sp=0.800和Se=0.610,Sp=0.930两个诊断试验,若按Jouden指数和可用度指标评价,结果为前者优于后者;若按比数积指标评价,结果则刚好相反。
, 百拇医药
3.3 从算式(2)不难看出,比数积(φ)指标本身在应用时还存在一定的缺陷。例如Se=100%时,算式无意义;Sp=100%时,无论敏感性如何改变,算式恒为零。
3.4 无论是从前面模拟实例分析结果,还是从聚类分析结果,抑或是从Jouden指数、可用度、比数积指标算式结构分析来看,Jouden指数和可用度指标评价结果的一致性较好。至于究竟何者为诊断试验综合评价的最合适指标,尚有待于进一步探讨。
参考文献
1,Sox HC. Probabiuty theory in the Use of Diagnostic Tests. Annals of Internal Medicine. 1986,104:60~66.
2,Diamond GA, Hirsch M, Forrester JS, et al. Application of Information Theory to Clinical Diagnostic Testing. Circulation. 1981,63:915~921.
, 百拇医药
3,Diamond GA, Forrester JS, Hirsch M, et al. Application of Conditional Probability Analysis to the Clinical Diagnosis of Coronary Artery Disease. J. Clin Invest. 1980,88:1210~1221.
4,陈平雁.诊断试验的评价指标及其应用.中国卫生统计,1991,8(5):53~57.
5,陈平雁,王斌会,莫一心.几种诊断试验统计方法的比较.中国卫生统计,1995,12(5):8~11.
收稿日期:1999-08-06, 百拇医药
单位:毛宗福(湖北医科大学 武汉430071);宋业胜(湖北医科大学 武汉430071)
关键词:诊断试验评价;一致度;聚类分析
数理医药学杂志000308
摘 要 通过模拟实例对5种诊断试验评价指标的一致性进行了研究,结果表明,5种诊断试验评价指标结果间没有必然的一致性。通过指标聚类分析,Jouden指数、可用度、信息量指标聚为一类,符合率、比数积指标聚为一类。符合率、信息量指标因随验前概率改变而改变,不宜广泛应用。
中图分类号:R 195.1 文献标识码:A
文章编号:1004-4337(2000)03-0205-02
, http://www.100md.com
近年来,诊断试验综合评价方法的研究与应用发展较快[1,4],常用于比较两种或多种诊断试验优劣的综合统计指标有符合率(e)、比数积(φ)、Jouden指数(J)、可用度(u)、信息量(I)等[4]。关于这些指标的优缺点,已有大量研究[2,3,5]。本文拟对上述指标,就其评价结果的一致性进行初步探讨,以期更好地指导应用于实践。
1 5种综合统计指标简介
表1为一般诊断试验评价模式。基于此模式的5种常用综合统计指标算式为[3]:
符合率(e)=(a+d)/n (1)
比数积(φ)=ad/bc (2)
Jouden指数(J)=Se+Sp-1 (3) (4)
, 百拇医药
信息量(I)=P.Se.ln{Se/[P.Se+(1-Sp)(1-P)]}+(1+Sp).(1-P)ln{(1-Sp)/[P.Se+(1-Sp)(1-P)]}+(1-Se).P.ln{(1-Se)/[1-P.Se-(1-Sp)(1-P)]}+Sp(1-P)ln{Sp/[1-Sp-(1-Sp)(1-P)]} (5)
表1 某试验诊断某病的结果 诊断试验
金标准
合计
有病
无病
阳 性
, http://www.100md.com
a
b
a+b
阴 性
c
d
c+d
合 计
a+c
b+d
n
2 一致度分析
表2为4个诊断试验在就诊人群患病率分别为0.1、0.4时,8种组合情况的5种综合统计指标的评价结果。
, 百拇医药
2.1 由表2不难发现,比数积、Jouden指数、可用度指标不受验前概率的影响,具有较好的稳定性。符合率、信息量指标则随验前概率改变而改变,甚至出现相反的评价结果。例如,对Se=0.800,Sp=0.800与Se=0.610,Sp=0.930两个诊断试验,按信息量指标评价,P=0.1时,后者优于前者;P=0.4时,则前者优于后者。对Se=0.643,Sp=0.969和Se=0.571,Sp=0.994两个诊断试验,按符合率指标评价,P=0.1时,后者优于前者;P=0.4时,则前者优于后者。
表2 5种综合统计指标评价结果 诊断试验
验前概率
(P)
符合率
(e)
比数积
, http://www.100md.com
(φ)
Jouden指数
(J)
可用度
(u)
信息量
(I)
Se
Sp
0.800
0.800
0.1
0.800
, http://www.100md.com
10.0
0.600
-0.200
0.073
0.800
0.800
0.4
0.800
10.0
0.600
-0.200
0.193
0.610
, http://www.100md.com
0.930
0.1
0.898
20.8
0.540
-0.214
0.079
0.610
0.930
0.4
0.802
20.8
0.540
, 百拇医药
-0.214
0.174
0.643
0.969
0.1
0.936
56.3
0.612
-0.178
0.063
0.643
0.969
0.4
, http://www.100md.com
0.839
56.3
0.612
-0.178
0.240
0.571
0.994
0.1
0.952
220.5
0.565
-0.189
0.132
, 百拇医药
0.571
0.994
0.4
0.825
220.5
0.565
-0.189
0.241
2.2 根据表2,按5种综合指标评价结果的优劣顺序,计算其一致性系数,Kappa=0.243。进一步用Kendall和谐系数校正公式计算,W=0.403。经χ2检验,χ2=14.11(0.04, http://www.100md.com
2.3 用Kendall和谐系数校正公式,计算符合率、比数积、Jouden指数、可用度、信息量指标两两间和谐系数(见表3)。根据指标聚类法,采用最小相似系数作为类间相似系数作聚类分析。结果显示信息量、Jouden指数、可用度聚为一类,符合率、比数积聚为一类。表3 5种综合统计指标两两间Kendall和谐系数
符合率
(e)
比数积
(φ)
Jouden指数
(J)
可用度
(u)
, http://www.100md.com
比数积(φ)
0.86
Jouden指数(J)
0.50
0.49
可用度(u)
0.72
0.79
0.89
信息量(I)
0.37
0.64
0.45
, 百拇医药
0.55
3 讨论
上述分析表明,符合率(e)、比数积(φ)、Jouden指数(J)、可用度(u)、信息量(I)5种综合统计指标用于评价诊断试验优劣时,其结果间没有必然的一致性,即在实践应用中,采用不同评价方法会得到不同结果,甚至截然相反的结论。因此,有必要从理论和实践上进一步探讨综合评价诊断试验的最合适指标。
3.1 符合率、信息量两个指标因随验前概率改变而改变,而验前概率多为一种主观估计概率,往往难以正确估计,所以笔者认为,符合率、信息量两个指标不宜作为普遍应用的评价指标。
3.2 对某一诊断试验,其敏感性和特异性均优于另一诊断试验,则根据算式(2)、(3)、(4)可知,比数积、Jouden指数、可用度三个指标评价结果的优劣顺序必然一致;但若该诊断试验较另一诊断试验的敏感性高而特异性低,或敏感性低而特异性高时,这三个指标评价结果的优劣顺位往往不一致。如表2所示,对Se=0.800,Sp=0.800和Se=0.610,Sp=0.930两个诊断试验,若按Jouden指数和可用度指标评价,结果为前者优于后者;若按比数积指标评价,结果则刚好相反。
, 百拇医药
3.3 从算式(2)不难看出,比数积(φ)指标本身在应用时还存在一定的缺陷。例如Se=100%时,算式无意义;Sp=100%时,无论敏感性如何改变,算式恒为零。
3.4 无论是从前面模拟实例分析结果,还是从聚类分析结果,抑或是从Jouden指数、可用度、比数积指标算式结构分析来看,Jouden指数和可用度指标评价结果的一致性较好。至于究竟何者为诊断试验综合评价的最合适指标,尚有待于进一步探讨。
参考文献
1,Sox HC. Probabiuty theory in the Use of Diagnostic Tests. Annals of Internal Medicine. 1986,104:60~66.
2,Diamond GA, Hirsch M, Forrester JS, et al. Application of Information Theory to Clinical Diagnostic Testing. Circulation. 1981,63:915~921.
, 百拇医药
3,Diamond GA, Forrester JS, Hirsch M, et al. Application of Conditional Probability Analysis to the Clinical Diagnosis of Coronary Artery Disease. J. Clin Invest. 1980,88:1210~1221.
4,陈平雁.诊断试验的评价指标及其应用.中国卫生统计,1991,8(5):53~57.
5,陈平雁,王斌会,莫一心.几种诊断试验统计方法的比较.中国卫生统计,1995,12(5):8~11.
收稿日期:1999-08-06, 百拇医药