列联表变量变化趋势分析
作者:何梓昌
单位:何 梓 昌(湖北医科大学数学教研室 武汉430071)
关键词:
990327
1 问题的提出
考虑一个由交叉分类资料构成的二维列联表。
表1 223名气管炎患者病程(X)和疗效(Y)的分类频数表 疗效
(Y)
病 程 (X)
∑
≤1年
, http://www.100md.com
2~5年
6~10年
11~20年
≥21年
有效
25
27
19
18
6
95
无效
19
, 百拇医药 32
31
31
15
128
∑
44
59
50
49
21
223
选用χ2拟合优度统计量,对分类变量X、Y进行独立性检验:,df=(2-1)(5-1)=4。查χ2分布表可知:临界值χ20.05(4)=9.488,χ20.01(4)=12.277,根据假设检验理论,应作出推断,不能否定病程与疗效无关的假设。再看问题的另一方面,表1中不同病程病人的有效人数与该类病人的总数之比分别为25/24、27/59、19/50、18/49、6/21,即:0.568、0.458、0.380、0.367、0.286,呈现出下降趋势。由于这些比值实为条件概率P的一种估计,所以比值数列的这种变化可能为条件概率的变化。一旦这种变化经假设检验,认为具有统计学意义,则表明对这一药物来说,病程的长短确实是影响药物疗效的重要因素。病程与疗效的“有效”类别,存在着相互的关联。可见,当一个列联表的χ2拟合优度检验不显著时,并不意味着分析的结束,只有针对列联表的特殊性,作出进一步的分析和讨论,才能得出具有实际指导意义的结论,这个结论更能反映问题的本质。
, http://www.100md.com
本文将结合资料表1,说明如何在独立性检验不显著后,对列联表进行分析,通过分析拟合优度χ2统计量,找到显著的χ2线性分量,实现对各类有效率的变化趋势的判断。
2 分析过程
设病程和疗效分别为变量X、变量Y,变量X为有序变量,变量Y为随机变量,两变量作如下数字化处理:
利用线性回归模型
yi=1,0在这个模型中,因变量Y的均值具有特殊意义。这是因为,通常E(εi)=0,所以,E(yi)=β0+β1xi,又yi是贝努里随机变量,yi的概率分布P(yi=1)=πi,P(yi=0)=1-πi,由随机变量期望值的定义,E(yi=1)=1×πi+0×(1-πi)=πi,从而有,E(yi)=β0+β1xi=πi。也就是说,πi=β0+β1xi是自变量水平为xi时,yi=1的概率。线性方程πi=β0+β1xi描述了给定病程条件下,有效人数比例的变化规律,于是,对各类有效率趋势的分析转化为讨论回归方程的问题。
, 百拇医药
2.1 估计回归系数β (1)
2.2 估计方差D() (2)
在表1结构时,lxy,lxx,lyy的表达式为: (3) (4) (5)
, http://www.100md.com
nij指(i,j)格的频数,
按照表2的计算过程,并将所需值代入(3),(4),(5)中,lxy=-201-95×(-350)/223=-51.897
lxx=2248-(-350)2/223=1698.673
lyy=95-952/223=54.53
最终得到回归系数:=-51.587/1698.673=-0.031,方差D()=54.54/223×1698.673=1.4396×10-4。
, http://www.100md.com
2.3 分解统计量
由文献[1]可知,统计量归于线性趋势的χ2分量χ2线性=β2/D(),所以χ2线性=(-0.031)2/1.4396×10-4=6.4827,df=1。
表2 病程和疗效的回归计算表 xj
x2j
n.j
, 百拇医药
n.jxj
n.jx2j
yi
y2i
ni.
ni.yi
ni.y2j
, 百拇医药
yixj
nij
nijyixj
-6
36
44
-264
1584
1
1
95
95
, 百拇医药
95
-6
25
-150
-3
9
59
-177
531
0
0
128
0
0
, 百拇医药
-3
27
-81
0
0
50
0
0
0
147
0
1
1
49
, http://www.100md.com
49
49
1
18
18
2
4
21
42
84
2
6
12
合计
, 百拇医药
-350
2248
-201
2.4 分析与结论
将分析结果整理成表3形式。表3 方差分析表 变差来源
df
χ2
P值
线性回归(χ2线性)
1
6.4827
<0.01
, 百拇医药
与回归的偏离(χ2剩余)
3
0.2083
不显著
χ2总(χ2)
4
6.691
不显著
从表3看到,χ2=χ2线性+χ2剩余
, 百拇医药
不显著 显著 不显著
一个不显著的χ2值,经过分解后得到一个显著的χ2线性分量,显著的χ2线性分量表明,随着有序变量X取值的增加,有效率在相应减少,即患病时间越长,有效的可能就越小。进一步对χ2剩余检验,χ2剩余因远小于自由度为3的χ20.05(3)=7.815,χ2剩余不显著,这说明变差主要是由线性因归带来的。因此,我们可以说,随着病人病程的延长,有效率不仅逐渐降低,并且降低的方式是以线性形式反映的。
3 讨论
通过分解拟合优度χ2统计量,能够找到具有显著意义的χ2线性分量,利用χ2线性分量,进而对有效率的变化趋势进行分析,这一分析过程,使我们得到对列联表作出独立性不显著的进一步讨论。需要指出的是:①这种分析方法不仅适合于资料表1,也适合于其它含一个有序变量的r×c列联表。若要对变量Y的某一类别进行分析时,可合并其它类别转化成表1的形式。②X赋值的合理性会增加分析结论的可靠性。例如,取X=-2,-1,0,1,2,χ2线性=6.1869,χ2剩余=0.502,χ20.01<χ2线性<χ20.025,按本文的赋值方法更好。
收稿日期:1999-06-14, 百拇医药
单位:何 梓 昌(湖北医科大学数学教研室 武汉430071)
关键词:
990327
1 问题的提出
考虑一个由交叉分类资料构成的二维列联表。
表1 223名气管炎患者病程(X)和疗效(Y)的分类频数表 疗效
(Y)
病 程 (X)
∑
≤1年
, http://www.100md.com
2~5年
6~10年
11~20年
≥21年
有效
25
27
19
18
6
95
无效
19
, 百拇医药 32
31
31
15
128
∑
44
59
50
49
21
223
选用χ2拟合优度统计量,对分类变量X、Y进行独立性检验:,df=(2-1)(5-1)=4。查χ2分布表可知:临界值χ20.05(4)=9.488,χ20.01(4)=12.277,根据假设检验理论,应作出推断,不能否定病程与疗效无关的假设。再看问题的另一方面,表1中不同病程病人的有效人数与该类病人的总数之比分别为25/24、27/59、19/50、18/49、6/21,即:0.568、0.458、0.380、0.367、0.286,呈现出下降趋势。由于这些比值实为条件概率P的一种估计,所以比值数列的这种变化可能为条件概率的变化。一旦这种变化经假设检验,认为具有统计学意义,则表明对这一药物来说,病程的长短确实是影响药物疗效的重要因素。病程与疗效的“有效”类别,存在着相互的关联。可见,当一个列联表的χ2拟合优度检验不显著时,并不意味着分析的结束,只有针对列联表的特殊性,作出进一步的分析和讨论,才能得出具有实际指导意义的结论,这个结论更能反映问题的本质。
, http://www.100md.com
本文将结合资料表1,说明如何在独立性检验不显著后,对列联表进行分析,通过分析拟合优度χ2统计量,找到显著的χ2线性分量,实现对各类有效率的变化趋势的判断。
2 分析过程
设病程和疗效分别为变量X、变量Y,变量X为有序变量,变量Y为随机变量,两变量作如下数字化处理:
利用线性回归模型
yi=1,0在这个模型中,因变量Y的均值具有特殊意义。这是因为,通常E(εi)=0,所以,E(yi)=β0+β1xi,又yi是贝努里随机变量,yi的概率分布P(yi=1)=πi,P(yi=0)=1-πi,由随机变量期望值的定义,E(yi=1)=1×πi+0×(1-πi)=πi,从而有,E(yi)=β0+β1xi=πi。也就是说,πi=β0+β1xi是自变量水平为xi时,yi=1的概率。线性方程πi=β0+β1xi描述了给定病程条件下,有效人数比例的变化规律,于是,对各类有效率趋势的分析转化为讨论回归方程的问题。
, 百拇医药
2.1 估计回归系数β (1)
2.2 估计方差D() (2)
在表1结构时,lxy,lxx,lyy的表达式为: (3) (4) (5)
, http://www.100md.com
nij指(i,j)格的频数,
按照表2的计算过程,并将所需值代入(3),(4),(5)中,lxy=-201-95×(-350)/223=-51.897
lxx=2248-(-350)2/223=1698.673
lyy=95-952/223=54.53
最终得到回归系数:=-51.587/1698.673=-0.031,方差D()=54.54/223×1698.673=1.4396×10-4。
, http://www.100md.com
2.3 分解统计量
由文献[1]可知,统计量归于线性趋势的χ2分量χ2线性=β2/D(),所以χ2线性=(-0.031)2/1.4396×10-4=6.4827,df=1。
表2 病程和疗效的回归计算表 xj
x2j
n.j
, 百拇医药
n.jxj
n.jx2j
yi
y2i
ni.
ni.yi
ni.y2j
, 百拇医药
yixj
nij
nijyixj
-6
36
44
-264
1584
1
1
95
95
, 百拇医药
95
-6
25
-150
-3
9
59
-177
531
0
0
128
0
0
, 百拇医药
-3
27
-81
0
0
50
0
0
0
147
0
1
1
49
, http://www.100md.com
49
49
1
18
18
2
4
21
42
84
2
6
12
合计
, 百拇医药
-350
2248
-201
2.4 分析与结论
将分析结果整理成表3形式。表3 方差分析表 变差来源
df
χ2
P值
线性回归(χ2线性)
1
6.4827
<0.01
, 百拇医药
与回归的偏离(χ2剩余)
3
0.2083
不显著
χ2总(χ2)
4
6.691
不显著
从表3看到,χ2=χ2线性+χ2剩余
, 百拇医药
不显著 显著 不显著
一个不显著的χ2值,经过分解后得到一个显著的χ2线性分量,显著的χ2线性分量表明,随着有序变量X取值的增加,有效率在相应减少,即患病时间越长,有效的可能就越小。进一步对χ2剩余检验,χ2剩余因远小于自由度为3的χ20.05(3)=7.815,χ2剩余不显著,这说明变差主要是由线性因归带来的。因此,我们可以说,随着病人病程的延长,有效率不仅逐渐降低,并且降低的方式是以线性形式反映的。
3 讨论
通过分解拟合优度χ2统计量,能够找到具有显著意义的χ2线性分量,利用χ2线性分量,进而对有效率的变化趋势进行分析,这一分析过程,使我们得到对列联表作出独立性不显著的进一步讨论。需要指出的是:①这种分析方法不仅适合于资料表1,也适合于其它含一个有序变量的r×c列联表。若要对变量Y的某一类别进行分析时,可合并其它类别转化成表1的形式。②X赋值的合理性会增加分析结论的可靠性。例如,取X=-2,-1,0,1,2,χ2线性=6.1869,χ2剩余=0.502,χ20.01<χ2线性<χ20.025,按本文的赋值方法更好。
收稿日期:1999-06-14, 百拇医药