相对残差法线性回归与相关的理论研究△回归分析、相关模型及其假设检验
作者:成军 孙关忠
单位:成军 孙关忠(解放军第117医院 杭州310013)
关键词:相对残差;绝对残差;标准估计误差;直线相关;假设检验
990304
摘 要 对相对残差法在回归分析中的误差传递问题进行了探讨,建立了相关模型,提出了回归与相关系数假设检验的计算公式,并结合实例进行了分析。
相对残差线性回归(以相对残差平方和为最小的线性回归,简称相对残差法)是一种新的线性回归方法[1],由于相对残差法与绝对残差线性回归法(以绝对残差平方和为最小的线性回归,简称绝对残差法)在处理数据时存在的差异,导致各自回归后总残差的大小不同,残差的分布情况也截然相反,故回归分析中的误差传递规律、相关系数的含义和数学模型以及回归与相关系数的假设检验等必然也存在着差异,因此作者在建立了回归模型[1]的基础上,继续对其回归分析中的误差传递问题进行探讨、相对模型的数学表达式进行推导以及回归、相关系数的假设检验进行讨论,并结合实例进行分析。
, 百拇医药
1 相对标准估计误差的计算公式及其离散度的计算方法
1.1 在回归分析过程中,无论是绝对残差法还是相对残差法,各实际检测值Yi与由回归方程计算出的估计值i之间都是有一定误差的(回归估计误差,分别称为绝对标准估计误差和相对标准估计误差),由绝对残差法回归分析中的标准估计误差的定义及公式,容易推导出相对标准估计误差的计算公式: (1)
式(1)的意义是:实测值、回归值之差与回归值之比值的离散度(相对残差的离散程度),它同样可以用类似求标准差的方法进行计算,因Yi决定于均数及回归系数,故自由度为n-2。
1.2 有了相对残差法的回归线及相对标准估计误差,就能估计出回归线加减若干标准估计误差范围内观测值Yi的个数占全部Y值个数的百分比。在相对残差法的回归分析中,虽然各检测点的相对残差分布相对均匀化,但各检测点绝对残差的离散度是随浓度增大而略有增大的,与绝对残差法95%观测值Yi在回归线上下的分布范围i±1.96×Sy*x相比,其不同之处就是相对残差法回归线的离散度是与各检测点的浓度密切相关并且是以相对量来衡量的。因而,利用正态分布原理要了解某一观测值与该点回归值的95%分布范围,其计算公式应为: (2)
, 百拇医药
2 相关模型的建立与直线相关
2.1 根据绝对残差法相关系数的定义[2,3],两个变量(X,Y)之间关系密切程度的统计指标r应为: (3)
经过数学推导和验证,(3)式的计算公式实际上就是: (4)
即绝对残差法的回归离均差平方和与总离均差平方和(回归平方和+剩余平方和)之比值的平方根。
2.2 同理我们可以推导出相对相关系数r的计算公式: (5)
, 百拇医药
即相对残差法的回归离均差平方和与总离均差平方和〔回归平方和
+剩余平方和之比值的平方根。
3 回归系数、相关系数的假设检验
3.1 回归系数的假设检验方差分析
回归系数是否有统计意义可以用方差分析来检验:观察值Yi是有变异的,其变异程度由两部分组成,即可以用由X与Y线性关系引起Yi变异的回归平方和l回归与线性影响因素以外引起Yi变异的剩余平方和l剩余来表示。方差分析的基本思想就是考察回归均方与剩余均方之间的差异有多大。其F值计算公式是: (6)
, 百拇医药
再按相应的自由度V回归、V剩余查F值表,如F≥F0.05(V1,V2)则P≤0.05,说明回归系数有统计意义,X与Y之间存在回归关系,如F0.05(V1,V2),则没有统计意义。
3.2 相关系数的假设检验t检验
采用相对残差法经样本求得的相关系数r是总体相关系数ρ的估计值,由于存在抽样误差,我们需要作r所来自的总体相关系数ρ是否为零的假设检验,即t检验,其计算公式为:
(7)
按相应的自由度查t值表,如tr≥0.05(V)则P≤0.05,相关系数有统计意义,说明X与Y之间存在相关关系,反之则无统计意义。
, http://www.100md.com
4 实例分析
例 已知一组标准系列溶液,浓度分别为12.5、25.0、50.0、75.0、100.0、150.0、200g/L,用日本岛津UV—2201型分光光度计平行测定20次(数据呈正态分布),其各项统计指标及两种回归方法处理的结果比较见附表。
附表 重复检测自变量(n=20)其应变量的统计学结
果与两种回归方法处理数据的结果比较 测
定
结
果
自变量Xi数据(g/L)
12.5
, http://www.100md.com
25.0
50.0
75.0
100.0
150.0
200.0
应变量i均值(Abs)
0.0348
0.0690
0.1361
0.2046
, 百拇医药
0.2738
0.4083
0.5482
标准差s(*10-4)
1.7153
2.9961
5.6332
8.3960
11.157
15.735
20.832
Yi围绕i的分布范围
, 百拇医药
(±1.96s、*10-4)
3.3620
5.8724
11.041
16.456
21.867
30.840
40.831
测定误差(%)a
0.97
0.85
0.81
, http://www.100md.com
0.80
0.76
0.74
回归
绝
对
残
差
回归方程、Sy*x
Y=0.0000616+0.0027337X Sy*x=0.0011598
Yi围绕i的估计范围
, 百拇医药
(±1.96s、*10-4)
22.731
22.731
22.731
22.731
22.731
22.731
22.731
回归估计误差(%)b
6.63
3.32
1.66
, 百拇医药
1.11
0.83
0.55
0.41
结
果
相
回归方程、Sy*x
Y=0.0007511+0.0027234X Sy*x=0.0040894
对
残
Yi围绕i的估计范围
, 百拇医药
(±1.96Sy*x*i、*10-4)
2.7888
5.5174
10.974
16.432
21.889
32.803
43.717
差
回归估计误差(%)c
, http://www.100md.com
0.80
0.80
0.80
0.80
0.80
0.80
0.80
相关结果
绝对残差法的相关系数r
相对残差法的相关系数r
r=0.9999838
r=0.9999984
, 百拇医药
假
设
绝对残差法回归系数
绝对残差法的相关系数
F=1.55*105
tr=392.8
P<0.01
P<0.01
检
验
绝对残差法回归系数
绝对残差法的相关系数
, 百拇医药
F=1.58*106
tr=1258.7
P<0.01
P<0.01
注:a:以实测值Yi围绕i均值的95%分布范围(±1.96S)来衡量,各检测点的实测值可能达到的最大测定误差*100%);b:以实测值Yi围绕绝对残差法的回归线i的离散度(±1.96Sy*x)来衡量,各检测点的实测值可能达到的最大回归估计误差;c:以实测值Yi围绕相对残差法的回归线i的离散度来衡量,各检测点的实测值可能达到的最大测定误差。
, http://www.100md.com
表中测定与回归结果表明,重复检测自变量(n=20,数据呈正态分布),各检测点的标准差是随浓度的增大而增加的,实测值围绕各检测点i均值的95%分布范围亦随之增大,而各检测点实测值可能达到的最大测定误差(以相对残差衡量)则在0.74~0.97%之间,这些检测结果和计算结果是与实际工作情况相符的。然而,当采用绝对残差法进行处理数据时,无论是实测值围绕回归线的估计范围(±1.96Sy*x)还是计算其回归估计误差,都与实测值的实际情况相差甚远,尤其是低浓度区,其估计误差分别高达6.63、3.32和1.66%;而相对残差法的回归结果与测定结果则比较吻合,从而使得该类型的数据经相对残差法处理后,其回归结果更符合实际工作情况。
从相关与假设检验结果看,两种相关系数的含 义是不同的,r是以绝对残差来衡量实测点对回归线的接近程度,r'是以相对残差来衡量实测点对回归线的接近程度,本例r'>r,这是因为经相对残差法处理后,大大降低了总相对残差并且使各检测点的相对残差值趋向均匀化,而两种回归方法的假设检验F≈tr2、F≈tr'2均说明了线性方程的有效性和回归数据(X,Y)良好的相关性,亦证明了相对残差法回归与相关理论的正确性。
, 百拇医药
5 讨论
以相对残差平方和为最小的新型线性回归方法,在国内外尚未见报道。我们对该方法的理论进行了初步的研究和探讨,先后建立了相对残差法的回归模型和相关模型,并与绝对残差法进行了比较,揭示了该方法在回归过程中的残差传递规律及回归后的残差分布特征。
关于回归数据的类型,R.考尔卡特等人对应变量的精密度与自变量的关系已有较为详尽的阐述[4]。在采用回归手段进行分析客观事物或现象间的数量关系时,我们应当对自变量和应变量的数据特征、误差结构加以详细的考察。如文献[2]中的大白鼠进食量(克)与增加体重(克)间的关系,无论重量大小如何,只要用同一天平进行称量,理论上其各检测点实测值的离散度始终是相同的;又如文献[3]中的IgG浓度与沉淀环直径的关系,只要测量工具的精度确定,则沉淀环直径的精密度与IgG浓度也是不相关的;对此种类型的资料采用绝对残差法进行处理数据则是非常适合的。然而,更多的相关资料数据(如浓度与吸光度等)其应变量实测值的精密度是与自变量的浓度密切相关的。在实际工作中,人们在对这些资料进行线性回归时,都是建立在各浓度点绝对残差平方和为最小的基础上的(绝对残差法),这样拟合的线性方程或标准曲线是明显与原始数据客观实际相违背的。本文的实例应用结果证明:如果重复检测自变量,其测定结果的误差随样品浓度(自变量)的增大而增加,则对此种类型的回归数据采用相对残差法则比较适合。
, 百拇医药
(致谢:本课题承蒙得到上海医科大学统计教研室詹绍康教授的指导,谨表谢意!)
△ 南京军区医学检验质控中心科研基金
参考文献
1 成军等.相对残差法线性回归与相关的理论研究回归模型的建立及实验分析.中国卫生统计杂志,1996,13(3):37~39.
2 金丕焕主编.医用统计方法.第一版.上海:上海医科大学出版社,1993,111~119.
3 杨树勤.卫生统计学.第二版.北京:人民卫生出版社,1988,37~52.
4 R.考尔卡特,R.鲍迪著(王克廉等译).分析化学工作者用统计学.第一版.科学出版社,1989,111~136.
收稿日期:1999-01-12, 百拇医药
单位:成军 孙关忠(解放军第117医院 杭州310013)
关键词:相对残差;绝对残差;标准估计误差;直线相关;假设检验
990304
摘 要 对相对残差法在回归分析中的误差传递问题进行了探讨,建立了相关模型,提出了回归与相关系数假设检验的计算公式,并结合实例进行了分析。
相对残差线性回归(以相对残差平方和为最小的线性回归,简称相对残差法)是一种新的线性回归方法[1],由于相对残差法与绝对残差线性回归法(以绝对残差平方和为最小的线性回归,简称绝对残差法)在处理数据时存在的差异,导致各自回归后总残差的大小不同,残差的分布情况也截然相反,故回归分析中的误差传递规律、相关系数的含义和数学模型以及回归与相关系数的假设检验等必然也存在着差异,因此作者在建立了回归模型[1]的基础上,继续对其回归分析中的误差传递问题进行探讨、相对模型的数学表达式进行推导以及回归、相关系数的假设检验进行讨论,并结合实例进行分析。
, 百拇医药
1 相对标准估计误差的计算公式及其离散度的计算方法
1.1 在回归分析过程中,无论是绝对残差法还是相对残差法,各实际检测值Yi与由回归方程计算出的估计值i之间都是有一定误差的(回归估计误差,分别称为绝对标准估计误差和相对标准估计误差),由绝对残差法回归分析中的标准估计误差的定义及公式,容易推导出相对标准估计误差的计算公式: (1)
式(1)的意义是:实测值、回归值之差与回归值之比值的离散度(相对残差的离散程度),它同样可以用类似求标准差的方法进行计算,因Yi决定于均数及回归系数,故自由度为n-2。
1.2 有了相对残差法的回归线及相对标准估计误差,就能估计出回归线加减若干标准估计误差范围内观测值Yi的个数占全部Y值个数的百分比。在相对残差法的回归分析中,虽然各检测点的相对残差分布相对均匀化,但各检测点绝对残差的离散度是随浓度增大而略有增大的,与绝对残差法95%观测值Yi在回归线上下的分布范围i±1.96×Sy*x相比,其不同之处就是相对残差法回归线的离散度是与各检测点的浓度密切相关并且是以相对量来衡量的。因而,利用正态分布原理要了解某一观测值与该点回归值的95%分布范围,其计算公式应为: (2)
, 百拇医药
2 相关模型的建立与直线相关
2.1 根据绝对残差法相关系数的定义[2,3],两个变量(X,Y)之间关系密切程度的统计指标r应为: (3)
经过数学推导和验证,(3)式的计算公式实际上就是: (4)
即绝对残差法的回归离均差平方和与总离均差平方和(回归平方和+剩余平方和)之比值的平方根。
2.2 同理我们可以推导出相对相关系数r的计算公式: (5)
, 百拇医药
即相对残差法的回归离均差平方和与总离均差平方和〔回归平方和
+剩余平方和之比值的平方根。
3 回归系数、相关系数的假设检验
3.1 回归系数的假设检验方差分析
回归系数是否有统计意义可以用方差分析来检验:观察值Yi是有变异的,其变异程度由两部分组成,即可以用由X与Y线性关系引起Yi变异的回归平方和l回归与线性影响因素以外引起Yi变异的剩余平方和l剩余来表示。方差分析的基本思想就是考察回归均方与剩余均方之间的差异有多大。其F值计算公式是: (6)
, 百拇医药
再按相应的自由度V回归、V剩余查F值表,如F≥F0.05(V1,V2)则P≤0.05,说明回归系数有统计意义,X与Y之间存在回归关系,如F
3.2 相关系数的假设检验t检验
采用相对残差法经样本求得的相关系数r是总体相关系数ρ的估计值,由于存在抽样误差,我们需要作r所来自的总体相关系数ρ是否为零的假设检验,即t检验,其计算公式为:
(7)
按相应的自由度查t值表,如tr≥0.05(V)则P≤0.05,相关系数有统计意义,说明X与Y之间存在相关关系,反之则无统计意义。
, http://www.100md.com
4 实例分析
例 已知一组标准系列溶液,浓度分别为12.5、25.0、50.0、75.0、100.0、150.0、200g/L,用日本岛津UV—2201型分光光度计平行测定20次(数据呈正态分布),其各项统计指标及两种回归方法处理的结果比较见附表。
附表 重复检测自变量(n=20)其应变量的统计学结
果与两种回归方法处理数据的结果比较 测
定
结
果
自变量Xi数据(g/L)
12.5
, http://www.100md.com
25.0
50.0
75.0
100.0
150.0
200.0
应变量i均值(Abs)
0.0348
0.0690
0.1361
0.2046
, 百拇医药
0.2738
0.4083
0.5482
标准差s(*10-4)
1.7153
2.9961
5.6332
8.3960
11.157
15.735
20.832
Yi围绕i的分布范围
, 百拇医药
(±1.96s、*10-4)
3.3620
5.8724
11.041
16.456
21.867
30.840
40.831
测定误差(%)a
0.97
0.85
0.81
, http://www.100md.com
0.80
0.76
0.74
回归
绝
对
残
差
回归方程、Sy*x
Y=0.0000616+0.0027337X Sy*x=0.0011598
Yi围绕i的估计范围
, 百拇医药
(±1.96s、*10-4)
22.731
22.731
22.731
22.731
22.731
22.731
22.731
回归估计误差(%)b
6.63
3.32
1.66
, 百拇医药
1.11
0.83
0.55
0.41
结
果
相
回归方程、Sy*x
Y=0.0007511+0.0027234X Sy*x=0.0040894
对
残
Yi围绕i的估计范围
, 百拇医药
(±1.96Sy*x*i、*10-4)
2.7888
5.5174
10.974
16.432
21.889
32.803
43.717
差
回归估计误差(%)c
, http://www.100md.com
0.80
0.80
0.80
0.80
0.80
0.80
0.80
相关结果
绝对残差法的相关系数r
相对残差法的相关系数r
r=0.9999838
r=0.9999984
, 百拇医药
假
设
绝对残差法回归系数
绝对残差法的相关系数
F=1.55*105
tr=392.8
P<0.01
P<0.01
检
验
绝对残差法回归系数
绝对残差法的相关系数
, 百拇医药
F=1.58*106
tr=1258.7
P<0.01
P<0.01
注:a:以实测值Yi围绕i均值的95%分布范围(±1.96S)来衡量,各检测点的实测值可能达到的最大测定误差*100%);b:以实测值Yi围绕绝对残差法的回归线i的离散度(±1.96Sy*x)来衡量,各检测点的实测值可能达到的最大回归估计误差;c:以实测值Yi围绕相对残差法的回归线i的离散度来衡量,各检测点的实测值可能达到的最大测定误差。
, http://www.100md.com
表中测定与回归结果表明,重复检测自变量(n=20,数据呈正态分布),各检测点的标准差是随浓度的增大而增加的,实测值围绕各检测点i均值的95%分布范围亦随之增大,而各检测点实测值可能达到的最大测定误差(以相对残差衡量)则在0.74~0.97%之间,这些检测结果和计算结果是与实际工作情况相符的。然而,当采用绝对残差法进行处理数据时,无论是实测值围绕回归线的估计范围(±1.96Sy*x)还是计算其回归估计误差,都与实测值的实际情况相差甚远,尤其是低浓度区,其估计误差分别高达6.63、3.32和1.66%;而相对残差法的回归结果与测定结果则比较吻合,从而使得该类型的数据经相对残差法处理后,其回归结果更符合实际工作情况。
从相关与假设检验结果看,两种相关系数的含 义是不同的,r是以绝对残差来衡量实测点对回归线的接近程度,r'是以相对残差来衡量实测点对回归线的接近程度,本例r'>r,这是因为经相对残差法处理后,大大降低了总相对残差并且使各检测点的相对残差值趋向均匀化,而两种回归方法的假设检验F≈tr2、F≈tr'2均说明了线性方程的有效性和回归数据(X,Y)良好的相关性,亦证明了相对残差法回归与相关理论的正确性。
, 百拇医药
5 讨论
以相对残差平方和为最小的新型线性回归方法,在国内外尚未见报道。我们对该方法的理论进行了初步的研究和探讨,先后建立了相对残差法的回归模型和相关模型,并与绝对残差法进行了比较,揭示了该方法在回归过程中的残差传递规律及回归后的残差分布特征。
关于回归数据的类型,R.考尔卡特等人对应变量的精密度与自变量的关系已有较为详尽的阐述[4]。在采用回归手段进行分析客观事物或现象间的数量关系时,我们应当对自变量和应变量的数据特征、误差结构加以详细的考察。如文献[2]中的大白鼠进食量(克)与增加体重(克)间的关系,无论重量大小如何,只要用同一天平进行称量,理论上其各检测点实测值的离散度始终是相同的;又如文献[3]中的IgG浓度与沉淀环直径的关系,只要测量工具的精度确定,则沉淀环直径的精密度与IgG浓度也是不相关的;对此种类型的资料采用绝对残差法进行处理数据则是非常适合的。然而,更多的相关资料数据(如浓度与吸光度等)其应变量实测值的精密度是与自变量的浓度密切相关的。在实际工作中,人们在对这些资料进行线性回归时,都是建立在各浓度点绝对残差平方和为最小的基础上的(绝对残差法),这样拟合的线性方程或标准曲线是明显与原始数据客观实际相违背的。本文的实例应用结果证明:如果重复检测自变量,其测定结果的误差随样品浓度(自变量)的增大而增加,则对此种类型的回归数据采用相对残差法则比较适合。
, 百拇医药
(致谢:本课题承蒙得到上海医科大学统计教研室詹绍康教授的指导,谨表谢意!)
△ 南京军区医学检验质控中心科研基金
参考文献
1 成军等.相对残差法线性回归与相关的理论研究回归模型的建立及实验分析.中国卫生统计杂志,1996,13(3):37~39.
2 金丕焕主编.医用统计方法.第一版.上海:上海医科大学出版社,1993,111~119.
3 杨树勤.卫生统计学.第二版.北京:人民卫生出版社,1988,37~52.
4 R.考尔卡特,R.鲍迪著(王克廉等译).分析化学工作者用统计学.第一版.科学出版社,1989,111~136.
收稿日期:1999-01-12, 百拇医药