医学资料的统计分析判别及在计算机中的实现
作者:褚仁华
单位:海军士官学校门诊部,蚌埠 233012
关键词:数据资料;专家经验;统计分析;最小二乘估计;经验关系式
海军医学杂志990140 摘要 作者根据收集的医学指标数据及专家诊断经验数据资料,提供了运用统计分析方法及计算机模拟实现专家诊断经验的思路或途径。这种思路或途径是:①收集医学资料及专家诊断经验数据资料;②对数据资料进行统计分析(可以由计算机完成);③找出经验关系式或某种结果规律;④将所得出的经验关系式或规律编制成程序输入计算机;⑤实现专家经验。
在医学研究中,经常需要根据观察到的资料对所研究的对象进行分类。例如需要根据就诊者的各项症状、体征及化验指标确定就诊者是否患有某种疾病。本文根据收集的心电图的三个指标来统计分析一个人是否患病。计量资料的常用判别分析方法有二值回归判别法。二值回归就是回归方程的因变量仅取两个不同的值。这里因变量的含义是待判别的属性,自变量表示为
, http://www.100md.com
xigk,i=1,2,…,m; g=1,2
k=1,2,…,ng(n1+n2=N)
因变量表示为
ygk,g=1,2; k=1,2,…,ng(n1+n2=N)
可令第一类数据的因变量取值1,第二类数据的因变量取值-1。
即 y1k=1, k=1,2,…,n1
y2k=-1,k=1,2,…,n2
, 百拇医药
于是,用多元线性回归分析方法,由两类共N例的观察数据xigk和ygk,求出回归系数i和。从而建立用以判别两类的经验关系式(或称多元回归方程)
y=0+1x1+…+mxm
这时判别临界值为y*=0。
, http://www.100md.com
1 资 料
13名健康人和10名病人的三个自变量和因变量数据见表1。
表1 13名健康人和10名病人的自变量和因变量数值 组别
编号
x1
x2
x3
y
健
康
组
, 百拇医药 1
436.70
49.59
2.32
1
2
290.69
30.02
2.46
1
3
352.53
36.23
, 百拇医药
2.36
1
4
340.91
38.28
2.44
1
5
332.83
41.92
2.28
1
6
, 百拇医药
319.97
31.42
2.49
1
7
361.31
37.99
2.02
1
8
366.50
39.87
2.42
, http://www.100md.com
1
9
292.25
26.07
2.16
1
10
276.84
16.60
2.41
1
11
345.35
, 百拇医药
39.68
2.39
1
12
328.19
33.28
2.46
1
13
323.31
32.78
2.43
1
, 百拇医药
患
者
组
1
510.47
67.64
1.73
-1
2
510.41
62.71
1.58
-1
, 百拇医药
3
470.30
54.40
1.68
-1
4
364.12
46.26
2.09
-1
5
416.07
45.37
, http://www.100md.com
1.90
-1
6
515.70
84.59
1.75
-1
7
430.72
45.20
1.89
-1
8
, http://www.100md.com
398.96
46.55
2.01
-1
9
492.33
49.14
1.91
-1
10
413.31
47.37
1.86
, 百拇医药
-1
2 统计分析
由经验知道,y与x1、x2、x3之间可用下面这一线性关系描述,即
y=β0+β1x1+β2x2+β3x3+e
式中e是服从N(0,62)分布的随机变量。
通过上表给出的实测记录,运用最小二乘法,正规方程是
其中 …(2)
, 百拇医药
由(1)式和(2)式,将上述计算出的值代入,可得…(3)…(4)
由(4)可解得=-0.00041,2=-0.00473,3=2.737868;
由(3)可得 0=-5.339,因此,i即为βi的最小二乘估计(i=0,1,2,3)。
, 百拇医药
所以,y关于x1,x2,x3的经验关系式(或称回归方程)是
y=-5.339-0.00041x1-0.00473x2+2.73787x3…(5)
将23人数据回代方程(5)验证得如下结果:
第一组
第二组
y1
0.60
y1
-1.13
, 百拇医药
y2
1.13
y2
-1.52
y3
0.81
y3
-1.20
y4
1.02
y4
0.015
, http://www.100md.com
y5
0.57
y5
-0.52
y6
1.20
y6
-1.16
y7
-0.1
y7
-0.56
, http://www.100md.com
y8
0.95
y8
-0.22
y9
0.33
y9
-0.54
y10
1.07
y10
-0.64
, 百拇医药
y11
0.88
y12
1.10
y13
1.03
平均值
0.81
平均值
-0.75
从上面回代验证所得到的数据可以看出,如果用两组数据回代后,各自的平均值0.81和-0.75作为判别点值,并以到两判别点距离近的作为一点归属的依据(如第一组里的点0.6到判别点0.81和-0.75的距离分别为0.21和1.35,点0.6距0.81近,所以0.6对应的人可判为健康人),则第一组13名健康人判别准确率为(12)/(13)≈92.3%;第二组10名病人判别准确率为100%。显然,这样判别的准确率是较高的。因此,判别某人是健康人还是病人时,只要提供被判别人的三个指标值x1,x2,x3,并将此三个指标值代入经验关系式,算出y的值,并分别求出此值对应的点到两判别点的距离,据此距离远近可判断此人为健康人还是病人。当然,收集的指标及样本数据越多,得到的经验关系式及作出的判别可能更加准确。
, 百拇医药
以上的统计分析及判别均可以编制程序,由计算机完成,这里仅给出实现判别的Visual Basic程序(已在VB4.0环境中验证通过)。
Private Sub command Click( )
MsgBox“请输入x1,x2,x3三个指标值”
x1=InputBox(“x1=”,Vbok)
x2=InputBox(“x2=”,Vbok)
x3=InputBox(“x3=”,Vbok)
, 百拇医药 Let k=-5.339-0.00041*x1-0.00473*x2+2.73787*x3
Let e=abs(k-0.81)
Let f=abs[k-(-0.75)]
If e
MsgBox“正常”
Else
MsgBox“异常”
End If
End sub
最后,需要说明的是,本文的目的是提供一种用计算机模拟实现专家经验的思路或途径,本文的分析判别不是真正意义上病症判别的依据。 (收稿:1998-10-13), http://www.100md.com
单位:海军士官学校门诊部,蚌埠 233012
关键词:数据资料;专家经验;统计分析;最小二乘估计;经验关系式
海军医学杂志990140 摘要 作者根据收集的医学指标数据及专家诊断经验数据资料,提供了运用统计分析方法及计算机模拟实现专家诊断经验的思路或途径。这种思路或途径是:①收集医学资料及专家诊断经验数据资料;②对数据资料进行统计分析(可以由计算机完成);③找出经验关系式或某种结果规律;④将所得出的经验关系式或规律编制成程序输入计算机;⑤实现专家经验。
在医学研究中,经常需要根据观察到的资料对所研究的对象进行分类。例如需要根据就诊者的各项症状、体征及化验指标确定就诊者是否患有某种疾病。本文根据收集的心电图的三个指标来统计分析一个人是否患病。计量资料的常用判别分析方法有二值回归判别法。二值回归就是回归方程的因变量仅取两个不同的值。这里因变量的含义是待判别的属性,自变量表示为
, http://www.100md.com
xigk,i=1,2,…,m; g=1,2
k=1,2,…,ng(n1+n2=N)
因变量表示为
ygk,g=1,2; k=1,2,…,ng(n1+n2=N)
可令第一类数据的因变量取值1,第二类数据的因变量取值-1。
即 y1k=1, k=1,2,…,n1
y2k=-1,k=1,2,…,n2
, 百拇医药
于是,用多元线性回归分析方法,由两类共N例的观察数据xigk和ygk,求出回归系数i和。从而建立用以判别两类的经验关系式(或称多元回归方程)
y=0+1x1+…+mxm
这时判别临界值为y*=0。
, http://www.100md.com
1 资 料
13名健康人和10名病人的三个自变量和因变量数据见表1。
表1 13名健康人和10名病人的自变量和因变量数值 组别
编号
x1
x2
x3
y
健
康
组
, 百拇医药 1
436.70
49.59
2.32
1
2
290.69
30.02
2.46
1
3
352.53
36.23
, 百拇医药
2.36
1
4
340.91
38.28
2.44
1
5
332.83
41.92
2.28
1
6
, 百拇医药
319.97
31.42
2.49
1
7
361.31
37.99
2.02
1
8
366.50
39.87
2.42
, http://www.100md.com
1
9
292.25
26.07
2.16
1
10
276.84
16.60
2.41
1
11
345.35
, 百拇医药
39.68
2.39
1
12
328.19
33.28
2.46
1
13
323.31
32.78
2.43
1
, 百拇医药
患
者
组
1
510.47
67.64
1.73
-1
2
510.41
62.71
1.58
-1
, 百拇医药
3
470.30
54.40
1.68
-1
4
364.12
46.26
2.09
-1
5
416.07
45.37
, http://www.100md.com
1.90
-1
6
515.70
84.59
1.75
-1
7
430.72
45.20
1.89
-1
8
, http://www.100md.com
398.96
46.55
2.01
-1
9
492.33
49.14
1.91
-1
10
413.31
47.37
1.86
, 百拇医药
-1
2 统计分析
由经验知道,y与x1、x2、x3之间可用下面这一线性关系描述,即
y=β0+β1x1+β2x2+β3x3+e
式中e是服从N(0,62)分布的随机变量。
通过上表给出的实测记录,运用最小二乘法,正规方程是
其中 …(2)
, 百拇医药
由(1)式和(2)式,将上述计算出的值代入,可得…(3)…(4)
由(4)可解得=-0.00041,2=-0.00473,3=2.737868;
由(3)可得 0=-5.339,因此,i即为βi的最小二乘估计(i=0,1,2,3)。
, 百拇医药
所以,y关于x1,x2,x3的经验关系式(或称回归方程)是
y=-5.339-0.00041x1-0.00473x2+2.73787x3…(5)
将23人数据回代方程(5)验证得如下结果:
第一组
第二组
y1
0.60
y1
-1.13
, 百拇医药
y2
1.13
y2
-1.52
y3
0.81
y3
-1.20
y4
1.02
y4
0.015
, http://www.100md.com
y5
0.57
y5
-0.52
y6
1.20
y6
-1.16
y7
-0.1
y7
-0.56
, http://www.100md.com
y8
0.95
y8
-0.22
y9
0.33
y9
-0.54
y10
1.07
y10
-0.64
, 百拇医药
y11
0.88
y12
1.10
y13
1.03
平均值
0.81
平均值
-0.75
从上面回代验证所得到的数据可以看出,如果用两组数据回代后,各自的平均值0.81和-0.75作为判别点值,并以到两判别点距离近的作为一点归属的依据(如第一组里的点0.6到判别点0.81和-0.75的距离分别为0.21和1.35,点0.6距0.81近,所以0.6对应的人可判为健康人),则第一组13名健康人判别准确率为(12)/(13)≈92.3%;第二组10名病人判别准确率为100%。显然,这样判别的准确率是较高的。因此,判别某人是健康人还是病人时,只要提供被判别人的三个指标值x1,x2,x3,并将此三个指标值代入经验关系式,算出y的值,并分别求出此值对应的点到两判别点的距离,据此距离远近可判断此人为健康人还是病人。当然,收集的指标及样本数据越多,得到的经验关系式及作出的判别可能更加准确。
, 百拇医药
以上的统计分析及判别均可以编制程序,由计算机完成,这里仅给出实现判别的Visual Basic程序(已在VB4.0环境中验证通过)。
Private Sub command Click( )
MsgBox“请输入x1,x2,x3三个指标值”
x1=InputBox(“x1=”,Vbok)
x2=InputBox(“x2=”,Vbok)
x3=InputBox(“x3=”,Vbok)
, 百拇医药 Let k=-5.339-0.00041*x1-0.00473*x2+2.73787*x3
Let e=abs(k-0.81)
Let f=abs[k-(-0.75)]
If e
MsgBox“正常”
Else
MsgBox“异常”
End If
End sub
最后,需要说明的是,本文的目的是提供一种用计算机模拟实现专家经验的思路或途径,本文的分析判别不是真正意义上病症判别的依据。 (收稿:1998-10-13), http://www.100md.com