最大似然法和医疗辅助诊断方法
作者:史锡腾 周涛
单位:湖北省人民医院 武汉430060
关键词:
数理医药学杂志9902461 医疗辅助诊断方法
医生为病人诊断的过程实际上是一个复杂的过程。他要根据病人的病史、各种症状、各种检查结果来确定病人所患的病种。由于很多疾病都可能有共同的症状,而某一种疾病又可能有多种症状,疾病和症状之间有着非常复杂的相互关系。加上患者的个体差异、地区差异,同一疾病的症状和各种检查结果有很大的离散性。尽管如此,它们之间的关系还是有很多规律可循,并可以借助数学方法和计算机强大的数据处理能力进行判别和分析,从而得到有助于医生对某种病情进行诊断的辅助方法。辅助诊断方法建立在大量的实际经验之上,是对大量病例统计分析的结果。因此,找到一个恰 当的判别分析数学模型,是建立疾病辅助诊断方法的主要关键。
, 百拇医药
2 判别分析
判别分析是根据多种因素对事物的影响和属性进行判别分类的统计方法。这种方法适用于已经掌握了历史上分类的每一个类别的若干样品,从而希望根据这些总结出分类的规律性。
如果样本的原始资料是计数型的,其方法称为计数型的判别分析,若样本资料是计量型,其方法则称为计量型的判别分析。
在所收集的样本中,原始数据是以各种症状的分布频率数出现的,则称该资料是计数型的。例如,临床甲襞微循环观察的某一指标是红细胞聚集,按其程度分为无(正常)、轻、中、重四个等级,在总共被观察的若干对象中有多少个无红细胞聚集、多少个轻度红细胞聚集、多少个中度红细胞聚集、多少个重度红细胞聚集,这四个分布频率就是计数型原始的基本数据。这一类的资料分析用概率型的统计方法较多,本文介绍的最大似然法(也称优度法)则是平时较常用的判别分析方法。
3 判别方法的建立
, 百拇医药
3.1 确定病种
一般来说,我们假定病种有G种,分别为Y1、Y2、……、YG。
把它记为:
Yi(i=1,2,……,G)
3.2 确定症状指标
用于判别分类的症状指标有m个:X1、X2、……、Xm。
而每一症状指标的等级指标又分为s种,将它们全部列出来为:
X11、X12、……、X1s
, 百拇医药
X21、X22、……、X2s………
Xm1、Xm2、……、Xms
简写为:
Xjk j=1,2,…m;k=1,2,…s
例如:我们要判别某个病人所患的病是否属于Y1、Y2、Y3、Y4中的一种,可用X1、X2,X3,X4,X5五种症状指标去判别,且症状X1分别为X11、X12、X13三个等级,症状X2分别为X21、X22、X23、X24四个等级……症状X5分别为X51、X52两个等级。
, 百拇医药
从例中可以看出,在各个症状指标Xm中,它的等级数k是可以不相同的。因而,用sm代替s更为确切。
3.3 根据大量原始资料,算出每个症状指标的各个表现在某种疾病中的条件概率
我们已掌握了总数为N的样本,这些样本中每一例都已在过去的诊断中确定了是Y1~YG中的哪一类,有哪些症状,其程度如何。已知患得Y1病的有N1例,患得Y2病的有N2例,患得YG病的有NG例,在患有Yi病的Ni例中,具有症状X11等级指标的人数有n111,具有症状X11等级指标的人数有n112……具有症状X2中的X21指标的人数有n121……简而言之,对于Yi类病的Yjk指标,其例数有nijk。
, http://www.100md.com
算出样本中患疾病的各类症状指标Xjk的例数nijk和某疾病的例数Ni之比值nijk/Ni,当样品数足够大时,则该比例即为某症状指标在该疾病中表现的条件概率。记为:
P(Xjk/Yi)=nijk/Ni (1)
其中:i=1,2,…G;j=1,2,3…m;k=1,2,3…s
3.4 根据计算出的条件概率建立表格或数据库
作成如下条件概率表,该表格就是要进行判别分析的依据。 Xi
Xjk
, 百拇医药
Y1
Y2
……
例数
YG
例数
P(Xjk/Y1)
例数
P(Xjk/Y2)
P(Xjk/YG)
, 百拇医药
X11
n111
n111/N1
n211
n211/N2……
nG11
nG11/NG
X1
X12
n112
, 百拇医药
n112/N1
n212
n212/N2……
nG12
nG121/NG
X13
n113
n113/N1
n213
, http://www.100md.com
n213/N2……
nG13
nG131/NG
X21
n121
n121/N1
n221
n221/N2……
nG21
, http://www.100md.com
nG211/NG
X2
X22
n122
n122/N1
n222
n222/N2……
nG22
nG221/NG
, 百拇医药
X23
n123
n123/N1
n223
n223/N2……
nG23
nG231/NG
X24
n124
, 百拇医药 n124/N1
n224
n224/N2……
nG24
nG241/NG……………………………………………
Xm1
n1m1
n1m1/N1
n2m1
, 百拇医药
n2m1/N2……
nGm1
nGm1/NG
Xm
Xm2
n1m2
n1m2/N1
n2m2
n211/N2……
, 百拇医药
nGm2
nGm2/NG…………………………………………
Xms
n1ms
n1ms/N1
n2ms
n2ms/N2……
nGms
nGms/NG
, http://www.100md.com
将根据N例样本算出nijk和nijk/Ni即P(Xjk/Yi)实际值,并代入表中,该表即为用于辅助诊断的判别依据。假如因某项nijk值为零(即在患Yi类疾病的Ni例样本中连一例答合该症状Xjk的都没有)而导致P(Xjk/Yi)值也为零的话,应该用0.01这一最小值代替P(Xjk/Yi)值。因为当Ni很大时,条件概率不会为零,理论上规定0.01为最小。
3.5 判别法成立的必要条件
最大似然判别法要求这样两个条件成立:被判别的各类事物Yi要彼此互斥,即要么是Y1,要么是Y2,不可能既是Y1又是Y2。本例患者就只能患四种病中的一种,而不可能患两种或两种以上;用于判别的各指标彼此独立,即在各类Yi下出现各种症状的条件概率P(Xjk/Yi)彼此互不影响。只有满足上面两个条件,这一判别方法才成立。这是在建立这一判别方法时应该注意的问题。
, http://www.100md.com
4 辅助诊断过程
4.1 概率公式
首先根据以下公式计算某一病人所有症状指标(X1~Xm共m个)在各类疾病(P1~PG共G种)中出现的条件概率之积:
Pi=P(X1k/Yi)P(X2k/Yi)……P(Xmk/Yi)
=P(Xjk/Yi) i=1,2,……,G (2)
, 百拇医药 上式实际是G个公式,即包括了表达P1、P2、…、PG的G个等式。每个等式的右边则是m个条件概率P(Xjk/Yi)的连乘积。每一个症状Xm中有sm个程度指标(各个症状中的sm数不同),至于选哪一个程度指标Xmk的条件概率P(Xjk/Yi)(即确定k),就要看患者在这一症状中符合哪一个程度指标了。例如在前面谈到的红细胞聚集这一症状假设为X2,按其程度分为X21(正常)、X22(轻)、X23(中)、X24(重)四个等级,如患者症状为“中”(X23),则公式(2)中的第二个条件概率取P(X23/Yi)值。
4.2 辅助诊断过程
, 百拇医药
第一步:根据m个症状依次对患者进行问诊,从中选取出最符合该病人的症状程度Xjk。如症状X1中与X11相符,症状X2中与X23相符……症状Xm中与Xm2相符。
第二步:从条件概率表中查出与病人症状相对应的条件概率值,分别代入G个公式中计算出这G个Pi值。则:
P1=P(X11/Y1)P(X23/Y1)……P(Xm2/Y1)
P2=P(X11/Y2)P(X23/Y2)……P(Xm2/Y2)……
, 百拇医药
PG=P(X11/YG)P(X23/YG)……P(Xm2/YG)
第三步:比较P1、P2、……、PG等G个值,哪个P值最大(如P2),就可以判定该患者患有相对应的疾病(如Y2)。
5 讨论
在确定了数学方法以后,正确建立病种和症状的关系也是该辅助诊断方法重要的一步,只有这种关系设计得合理,辅助诊断的效果才会显著。这需要在有经验的医学专家的帮助下共同完成。另外,收集大量病人的样本,并对数据进行各种统计处理则是一件繁浩工作,只有样本足够大,数据足够可靠,处理结果足够精确,辅助诊断的结果才会有实际意义。
当然,本文所谈及的只是一个较简单的数学方法,离实用还有较大距离。要对它作进一步完善的和改进,还有大量的工作要做。
收稿日期:1998-12-02, 百拇医药
单位:湖北省人民医院 武汉430060
关键词:
数理医药学杂志9902461 医疗辅助诊断方法
医生为病人诊断的过程实际上是一个复杂的过程。他要根据病人的病史、各种症状、各种检查结果来确定病人所患的病种。由于很多疾病都可能有共同的症状,而某一种疾病又可能有多种症状,疾病和症状之间有着非常复杂的相互关系。加上患者的个体差异、地区差异,同一疾病的症状和各种检查结果有很大的离散性。尽管如此,它们之间的关系还是有很多规律可循,并可以借助数学方法和计算机强大的数据处理能力进行判别和分析,从而得到有助于医生对某种病情进行诊断的辅助方法。辅助诊断方法建立在大量的实际经验之上,是对大量病例统计分析的结果。因此,找到一个恰 当的判别分析数学模型,是建立疾病辅助诊断方法的主要关键。
, 百拇医药
2 判别分析
判别分析是根据多种因素对事物的影响和属性进行判别分类的统计方法。这种方法适用于已经掌握了历史上分类的每一个类别的若干样品,从而希望根据这些总结出分类的规律性。
如果样本的原始资料是计数型的,其方法称为计数型的判别分析,若样本资料是计量型,其方法则称为计量型的判别分析。
在所收集的样本中,原始数据是以各种症状的分布频率数出现的,则称该资料是计数型的。例如,临床甲襞微循环观察的某一指标是红细胞聚集,按其程度分为无(正常)、轻、中、重四个等级,在总共被观察的若干对象中有多少个无红细胞聚集、多少个轻度红细胞聚集、多少个中度红细胞聚集、多少个重度红细胞聚集,这四个分布频率就是计数型原始的基本数据。这一类的资料分析用概率型的统计方法较多,本文介绍的最大似然法(也称优度法)则是平时较常用的判别分析方法。
3 判别方法的建立
, 百拇医药
3.1 确定病种
一般来说,我们假定病种有G种,分别为Y1、Y2、……、YG。
把它记为:
Yi(i=1,2,……,G)
3.2 确定症状指标
用于判别分类的症状指标有m个:X1、X2、……、Xm。
而每一症状指标的等级指标又分为s种,将它们全部列出来为:
X11、X12、……、X1s
, 百拇医药
X21、X22、……、X2s………
Xm1、Xm2、……、Xms
简写为:
Xjk j=1,2,…m;k=1,2,…s
例如:我们要判别某个病人所患的病是否属于Y1、Y2、Y3、Y4中的一种,可用X1、X2,X3,X4,X5五种症状指标去判别,且症状X1分别为X11、X12、X13三个等级,症状X2分别为X21、X22、X23、X24四个等级……症状X5分别为X51、X52两个等级。
, 百拇医药
从例中可以看出,在各个症状指标Xm中,它的等级数k是可以不相同的。因而,用sm代替s更为确切。
3.3 根据大量原始资料,算出每个症状指标的各个表现在某种疾病中的条件概率
我们已掌握了总数为N的样本,这些样本中每一例都已在过去的诊断中确定了是Y1~YG中的哪一类,有哪些症状,其程度如何。已知患得Y1病的有N1例,患得Y2病的有N2例,患得YG病的有NG例,在患有Yi病的Ni例中,具有症状X11等级指标的人数有n111,具有症状X11等级指标的人数有n112……具有症状X2中的X21指标的人数有n121……简而言之,对于Yi类病的Yjk指标,其例数有nijk。
, http://www.100md.com
算出样本中患疾病的各类症状指标Xjk的例数nijk和某疾病的例数Ni之比值nijk/Ni,当样品数足够大时,则该比例即为某症状指标在该疾病中表现的条件概率。记为:
P(Xjk/Yi)=nijk/Ni (1)
其中:i=1,2,…G;j=1,2,3…m;k=1,2,3…s
3.4 根据计算出的条件概率建立表格或数据库
作成如下条件概率表,该表格就是要进行判别分析的依据。 Xi
Xjk
, 百拇医药
Y1
Y2
……
例数
YG
例数
P(Xjk/Y1)
例数
P(Xjk/Y2)
P(Xjk/YG)
, 百拇医药
X11
n111
n111/N1
n211
n211/N2……
nG11
nG11/NG
X1
X12
n112
, 百拇医药
n112/N1
n212
n212/N2……
nG12
nG121/NG
X13
n113
n113/N1
n213
, http://www.100md.com
n213/N2……
nG13
nG131/NG
X21
n121
n121/N1
n221
n221/N2……
nG21
, http://www.100md.com
nG211/NG
X2
X22
n122
n122/N1
n222
n222/N2……
nG22
nG221/NG
, 百拇医药
X23
n123
n123/N1
n223
n223/N2……
nG23
nG231/NG
X24
n124
, 百拇医药 n124/N1
n224
n224/N2……
nG24
nG241/NG……………………………………………
Xm1
n1m1
n1m1/N1
n2m1
, 百拇医药
n2m1/N2……
nGm1
nGm1/NG
Xm
Xm2
n1m2
n1m2/N1
n2m2
n211/N2……
, 百拇医药
nGm2
nGm2/NG…………………………………………
Xms
n1ms
n1ms/N1
n2ms
n2ms/N2……
nGms
nGms/NG
, http://www.100md.com
将根据N例样本算出nijk和nijk/Ni即P(Xjk/Yi)实际值,并代入表中,该表即为用于辅助诊断的判别依据。假如因某项nijk值为零(即在患Yi类疾病的Ni例样本中连一例答合该症状Xjk的都没有)而导致P(Xjk/Yi)值也为零的话,应该用0.01这一最小值代替P(Xjk/Yi)值。因为当Ni很大时,条件概率不会为零,理论上规定0.01为最小。
3.5 判别法成立的必要条件
最大似然判别法要求这样两个条件成立:被判别的各类事物Yi要彼此互斥,即要么是Y1,要么是Y2,不可能既是Y1又是Y2。本例患者就只能患四种病中的一种,而不可能患两种或两种以上;用于判别的各指标彼此独立,即在各类Yi下出现各种症状的条件概率P(Xjk/Yi)彼此互不影响。只有满足上面两个条件,这一判别方法才成立。这是在建立这一判别方法时应该注意的问题。
, http://www.100md.com
4 辅助诊断过程
4.1 概率公式
首先根据以下公式计算某一病人所有症状指标(X1~Xm共m个)在各类疾病(P1~PG共G种)中出现的条件概率之积:
Pi=P(X1k/Yi)P(X2k/Yi)……P(Xmk/Yi)
=P(Xjk/Yi) i=1,2,……,G (2)
, 百拇医药 上式实际是G个公式,即包括了表达P1、P2、…、PG的G个等式。每个等式的右边则是m个条件概率P(Xjk/Yi)的连乘积。每一个症状Xm中有sm个程度指标(各个症状中的sm数不同),至于选哪一个程度指标Xmk的条件概率P(Xjk/Yi)(即确定k),就要看患者在这一症状中符合哪一个程度指标了。例如在前面谈到的红细胞聚集这一症状假设为X2,按其程度分为X21(正常)、X22(轻)、X23(中)、X24(重)四个等级,如患者症状为“中”(X23),则公式(2)中的第二个条件概率取P(X23/Yi)值。
4.2 辅助诊断过程
, 百拇医药
第一步:根据m个症状依次对患者进行问诊,从中选取出最符合该病人的症状程度Xjk。如症状X1中与X11相符,症状X2中与X23相符……症状Xm中与Xm2相符。
第二步:从条件概率表中查出与病人症状相对应的条件概率值,分别代入G个公式中计算出这G个Pi值。则:
P1=P(X11/Y1)P(X23/Y1)……P(Xm2/Y1)
P2=P(X11/Y2)P(X23/Y2)……P(Xm2/Y2)……
, 百拇医药
PG=P(X11/YG)P(X23/YG)……P(Xm2/YG)
第三步:比较P1、P2、……、PG等G个值,哪个P值最大(如P2),就可以判定该患者患有相对应的疾病(如Y2)。
5 讨论
在确定了数学方法以后,正确建立病种和症状的关系也是该辅助诊断方法重要的一步,只有这种关系设计得合理,辅助诊断的效果才会显著。这需要在有经验的医学专家的帮助下共同完成。另外,收集大量病人的样本,并对数据进行各种统计处理则是一件繁浩工作,只有样本足够大,数据足够可靠,处理结果足够精确,辅助诊断的结果才会有实际意义。
当然,本文所谈及的只是一个较简单的数学方法,离实用还有较大距离。要对它作进一步完善的和改进,还有大量的工作要做。
收稿日期:1998-12-02, 百拇医药