盲目拟合直线回归方程实例分析
作者:郭秀花 赵连伟
单位:解放军北京医高专 北京100071
关键词:盲目拟合;直线回归;实例;释疑
数理医药学杂志990439
摘 要 针对盲目拟合直线方程的典型实例进行了分析,指出了正确处理资料的方法,并利用SAS软件给出分析结果。
在进行直线相关分析时,有无异常值要剔除、两变量有无内在联系、是否相关要看对r作假设检验的情况、两变量是否具有直线性密切相关要看相关系数绝对数的大小等问题,已有报道[1~3]。在进行直线回归分析时有的人盲目拟合直线方程,本文针对此现象分析如下:
1 实例资料
, 百拇医药 1.1 “S”型曲线拟合直线回归方程
实例1 资料原形见表1[4]。
表1 1992~1994年各月急性心肌梗塞发病率与气象因素 月份
发病数
(例)
平均气温
(℃)
平均气压
(毫巴)
平均湿度
(%)
1
, 百拇医药
22
-10.4
1021.5
68.0
2
25
-5.6
1017.3
57.0
3
26
1.5
1016.8
, 百拇医药
49.3
4
18
10.7
1007.2
49.7
5
20
17.3
1003.4
53.7
6
23
, http://www.100md.com
21.6
1000.5
69.0
7
26
24.7
999.3
80.3
8
34
23.5
1003.3
80.3
, 百拇医药
9
27
17.0
1007.2
74.3
10
29
8.8
1015.9
68.7
11
25
-0.1
, 百拇医药
1019.9
68.0
12
22
-8.7
1022.0
69.7
根据所测得的实际数据,作者发现发病日普遍气温高、气压低、湿度大,故进行温度、湿度、气压的分段处理,并按气象因素在全年所占天数求得理论发病数后,再进行相关分析。其中对急性心肌梗塞发病例数与气温之间,采用的直线相关与回归分析结果和结论是:本研究显示急性心肌梗塞与气温不呈直线而呈S曲线相关。相关系数非常显著,其回归方程为Y=8.9913+0.9178x,相关系数r=0.7463,P<0.01。即气温过高或过低时,急性发病人数增多。
, 百拇医药
实例2 某地进行核试验,在一定条件下,离爆心的距离x(km)与冲击伤发生率y(%)有如下试验数据[5]: x(km):
4.1
4.4
6.8
8.7
10.3
11.9
13.5
15.3
17.3
19.5
, 百拇医药 23.4
30.0
y(%):
100
99
90
80
70
60
50
40
30
20
10
, 百拇医药
1
原作者采用直线相关与回归分析,相关系数r=-0.9754,回归方程y=-4.2960x+113.3081,对相关系数及回归方程的假设检验均有P<0.0001,结论为:在离爆心4~30km时,离爆心的距离与冲击伤发生率间有良好的线性关系。
1.2 不作散点图任何资料都按直线趋势来处理
实例3 作者收集了本医院1984~1993年工作报表现有资料,按年份分别与日平均门诊量、病床使用率、病床周转次数和出院者平均住院日,用4张表给出原始资料,现将其合为一张表给出,结果见表2。表2 某院1984~1993年工作报表现有资料 年份
x
年次
日平均门
, 百拇医药
诊量(人次)
病床使用
率(%)
病床周转
次数(次)
出院者平均
住院日(天)
1984
1
1247.9
98.2
29.9
11.7
, http://www.100md.com
1985
2
1019.5
96.4
28.8
11.7
1986
3
1193.2
97.4
29.5
11.8
1987
, http://www.100md.com
4
1166.1
100.4
30.6
11.8
1988
5
1075.3
96.4
29.1
12.0
1989
6
, 百拇医药
985.7
90.0
21.7
14.6
1990
7
1028.4
92.4
22.8
14.2
1991
8
1044.1
, 百拇医药
95.9
22.5
15.3
1992
9
1106.8
91.4
20.4
15.4
1993
10
973.1
89.6
, 百拇医药
19.3
16.7
合 计
55
10840.1
948.1
254.6
135.2
作者用年次作为自变量,日平均门诊量、病床使用率、病床周转次数和出院者平均住院日分别作为因变量,进行直线回归分析,结果为:
由年次推测日平均门诊量的回归方程:y=1187.7-18.9x
由年次推测病床使用率的回归方程:y=99.8-0.9x
, 百拇医药
由年次推测病床周转次数的回归方程:y=32.8-1.3x
由年次推测出院者平均住院日的回归方程:y=10.2+0.6x
1.3 Ⅰ型回归不作相关分析
实例4 将KNO3标准贮存液稀释成不同浓度,观察测定体系吸光度的变化量与KNO3浓度的关系[7]。从作者给出的图中可知:x是KNO3的浓度,且人为地选定了10,20,50,100,150,200,250,在x值取这6个值的情况下,来测定体系吸光度y的变化量。原作者采用直线相关与回归分析,相关系数r=0.999,回归方程y=989.83x+4.22,结论为:在10~200umol/L KNO3浓度范围内,两者之间有良好的线性关系。2 错误分析及释疑
实例1各散点呈一条“S”型曲线时,即使作直线相关与回归假设检验显著(本例P<0.005),也不能进行直线相关与回归分析,应改用其它数学模型。根据资料特点,可选择Logistic曲线模型。因作者未给出理论发病数,故舍去计算过程。
, 百拇医药
实例2计算最后一点y的预测值是-15.6%,不符合实际。将资料绘制散点图(略)发现,各散点几乎呈一条反“S”型曲线,故不适合进行直线相关与回归分析。根据资料特点,选择Logistic曲线方程,利用SAS软件处理结果是:
y=101/[1+0.009449exp(0.316680x)],总残差平方和为497.681,仍不够理想,在此基础上再用NLIN过程进行非线性最小平方估计,得方程:
y=118.6210213/[1+0.0771415exp(0.2122328x)]
总的残差平方和为3.96853,是较好的拟合结果。
实例3作者未作散点图对所有资料均进行直线回归分析是不正确的,例如年次与日平均门诊量之间回归系数b=-18.9的假设检验为t=-2.219,P=0.0572>0.05,故年次与日平均门诊量之间的关系不是线性关系;由年次推测病床周转次数的直线回归方程,不是较优的曲线。
, http://www.100md.com
年次作为自变量,日平均门诊量、病床使用率、病床周转次数和出院者平均住院日分别作为因变量根据散点图分别拟合不同类型的曲线,结果是:
由年次推测日平均门诊量的曲线为6次多项式,模型F=10.804,P=0.0386,确定系数R2=0.9558,方程为:y=3147.276673-3520.343135x+2143.572521x2-605.450870x3+86.062257x4-5.980037x5+0.161507x6,截距及1至6次系数的假设检验结果依次为:P=0.0052,P=0.0219,P=0.0270,P=0.0340,P=0.0439,P=0.0572,P=0.0745。
由年次推测病床使用率的回归方程:y=99.8-0.9x;
由年次推测病床周转次数的回归方程:y=32.8-1.3x;
, http://www.100md.com
由年次推测出院者平均住院日的直线回归方程:y=10.246667+0.595152x,截距及回归系数的假设检验结果均为P<0.0001,确定系数R2=0.8776。
实例4将KNO3标准贮存液稀释成不同浓度作为自变量,是人为选定的,因此不能作直线相关分析。本资料只求回归方程,不作直线相关分析。
3 结论
两个变量之间的变化规律是否适合用直线相关与回归来描述,首要的前提条件是要看这两个变量在专业上是否有一定的联系;其次应该绘出反映两个变量变化趋势的散点图。若发现各散点在一条不太宽的带内随机地分布着,此时可考虑作直线相关或直线回归分析;若发现各散点呈一条较明显的曲线变化趋势时,则应拟合相应的曲线回归方程;若发现各散点的分布几乎呈一圆盘状时,则说明两变量之间无确定的变化规律,不必进行直线相关与回归。
, 百拇医药
对于实际资料若借助统计学软件(如本文采用的SAS软件),就可从多角度、多侧面进行分析,选取较优的曲线类型是十分方便的。
参考文献
1 刘天鹏,李双田,李得.正确处理医学科研中出现的可疑值.中国卫生统计,1992,9(4):63.
2 方积乾主编.医学统计学与电脑实验.上海科学技术出版社,1997,114.
3 詹绍康.相关回归分析中的注意点.中国卫生统计,1995,12(2):7.
4 李庆滨,盛丽,何燕等.气象因素对急性心肌梗塞发病的影响及因时护理措施.中华护理杂志,1997,32(11):621~624.
5 胡良平主编.现代统计学与SAS应用.军事医学科学院出版社,1996,243~246.
6 秦杰.最小平方法在医院统计预测中的应用.中国医院统计,1995,2(4):245~246.
7 王成彬,童红莉,沈文梅等.硝酸盐还原酶测定血清和尿中硝酸盐浓度.中华医学检验杂志,1997,20(3):156~157.
收稿日期:1999-01-09, http://www.100md.com
单位:解放军北京医高专 北京100071
关键词:盲目拟合;直线回归;实例;释疑
数理医药学杂志990439
摘 要 针对盲目拟合直线方程的典型实例进行了分析,指出了正确处理资料的方法,并利用SAS软件给出分析结果。
在进行直线相关分析时,有无异常值要剔除、两变量有无内在联系、是否相关要看对r作假设检验的情况、两变量是否具有直线性密切相关要看相关系数绝对数的大小等问题,已有报道[1~3]。在进行直线回归分析时有的人盲目拟合直线方程,本文针对此现象分析如下:
1 实例资料
, 百拇医药 1.1 “S”型曲线拟合直线回归方程
实例1 资料原形见表1[4]。
表1 1992~1994年各月急性心肌梗塞发病率与气象因素 月份
发病数
(例)
平均气温
(℃)
平均气压
(毫巴)
平均湿度
(%)
1
, 百拇医药
22
-10.4
1021.5
68.0
2
25
-5.6
1017.3
57.0
3
26
1.5
1016.8
, 百拇医药
49.3
4
18
10.7
1007.2
49.7
5
20
17.3
1003.4
53.7
6
23
, http://www.100md.com
21.6
1000.5
69.0
7
26
24.7
999.3
80.3
8
34
23.5
1003.3
80.3
, 百拇医药
9
27
17.0
1007.2
74.3
10
29
8.8
1015.9
68.7
11
25
-0.1
, 百拇医药
1019.9
68.0
12
22
-8.7
1022.0
69.7
根据所测得的实际数据,作者发现发病日普遍气温高、气压低、湿度大,故进行温度、湿度、气压的分段处理,并按气象因素在全年所占天数求得理论发病数后,再进行相关分析。其中对急性心肌梗塞发病例数与气温之间,采用的直线相关与回归分析结果和结论是:本研究显示急性心肌梗塞与气温不呈直线而呈S曲线相关。相关系数非常显著,其回归方程为Y=8.9913+0.9178x,相关系数r=0.7463,P<0.01。即气温过高或过低时,急性发病人数增多。
, 百拇医药
实例2 某地进行核试验,在一定条件下,离爆心的距离x(km)与冲击伤发生率y(%)有如下试验数据[5]: x(km):
4.1
4.4
6.8
8.7
10.3
11.9
13.5
15.3
17.3
19.5
, 百拇医药 23.4
30.0
y(%):
100
99
90
80
70
60
50
40
30
20
10
, 百拇医药
1
原作者采用直线相关与回归分析,相关系数r=-0.9754,回归方程y=-4.2960x+113.3081,对相关系数及回归方程的假设检验均有P<0.0001,结论为:在离爆心4~30km时,离爆心的距离与冲击伤发生率间有良好的线性关系。
1.2 不作散点图任何资料都按直线趋势来处理
实例3 作者收集了本医院1984~1993年工作报表现有资料,按年份分别与日平均门诊量、病床使用率、病床周转次数和出院者平均住院日,用4张表给出原始资料,现将其合为一张表给出,结果见表2。表2 某院1984~1993年工作报表现有资料 年份
x
年次
日平均门
, 百拇医药
诊量(人次)
病床使用
率(%)
病床周转
次数(次)
出院者平均
住院日(天)
1984
1
1247.9
98.2
29.9
11.7
, http://www.100md.com
1985
2
1019.5
96.4
28.8
11.7
1986
3
1193.2
97.4
29.5
11.8
1987
, http://www.100md.com
4
1166.1
100.4
30.6
11.8
1988
5
1075.3
96.4
29.1
12.0
1989
6
, 百拇医药
985.7
90.0
21.7
14.6
1990
7
1028.4
92.4
22.8
14.2
1991
8
1044.1
, 百拇医药
95.9
22.5
15.3
1992
9
1106.8
91.4
20.4
15.4
1993
10
973.1
89.6
, 百拇医药
19.3
16.7
合 计
55
10840.1
948.1
254.6
135.2
作者用年次作为自变量,日平均门诊量、病床使用率、病床周转次数和出院者平均住院日分别作为因变量,进行直线回归分析,结果为:
由年次推测日平均门诊量的回归方程:y=1187.7-18.9x
由年次推测病床使用率的回归方程:y=99.8-0.9x
, 百拇医药
由年次推测病床周转次数的回归方程:y=32.8-1.3x
由年次推测出院者平均住院日的回归方程:y=10.2+0.6x
1.3 Ⅰ型回归不作相关分析
实例4 将KNO3标准贮存液稀释成不同浓度,观察测定体系吸光度的变化量与KNO3浓度的关系[7]。从作者给出的图中可知:x是KNO3的浓度,且人为地选定了10,20,50,100,150,200,250,在x值取这6个值的情况下,来测定体系吸光度y的变化量。原作者采用直线相关与回归分析,相关系数r=0.999,回归方程y=989.83x+4.22,结论为:在10~200umol/L KNO3浓度范围内,两者之间有良好的线性关系。2 错误分析及释疑
实例1各散点呈一条“S”型曲线时,即使作直线相关与回归假设检验显著(本例P<0.005),也不能进行直线相关与回归分析,应改用其它数学模型。根据资料特点,可选择Logistic曲线模型。因作者未给出理论发病数,故舍去计算过程。
, 百拇医药
实例2计算最后一点y的预测值是-15.6%,不符合实际。将资料绘制散点图(略)发现,各散点几乎呈一条反“S”型曲线,故不适合进行直线相关与回归分析。根据资料特点,选择Logistic曲线方程,利用SAS软件处理结果是:
y=101/[1+0.009449exp(0.316680x)],总残差平方和为497.681,仍不够理想,在此基础上再用NLIN过程进行非线性最小平方估计,得方程:
y=118.6210213/[1+0.0771415exp(0.2122328x)]
总的残差平方和为3.96853,是较好的拟合结果。
实例3作者未作散点图对所有资料均进行直线回归分析是不正确的,例如年次与日平均门诊量之间回归系数b=-18.9的假设检验为t=-2.219,P=0.0572>0.05,故年次与日平均门诊量之间的关系不是线性关系;由年次推测病床周转次数的直线回归方程,不是较优的曲线。
, http://www.100md.com
年次作为自变量,日平均门诊量、病床使用率、病床周转次数和出院者平均住院日分别作为因变量根据散点图分别拟合不同类型的曲线,结果是:
由年次推测日平均门诊量的曲线为6次多项式,模型F=10.804,P=0.0386,确定系数R2=0.9558,方程为:y=3147.276673-3520.343135x+2143.572521x2-605.450870x3+86.062257x4-5.980037x5+0.161507x6,截距及1至6次系数的假设检验结果依次为:P=0.0052,P=0.0219,P=0.0270,P=0.0340,P=0.0439,P=0.0572,P=0.0745。
由年次推测病床使用率的回归方程:y=99.8-0.9x;
由年次推测病床周转次数的回归方程:y=32.8-1.3x;
, http://www.100md.com
由年次推测出院者平均住院日的直线回归方程:y=10.246667+0.595152x,截距及回归系数的假设检验结果均为P<0.0001,确定系数R2=0.8776。
实例4将KNO3标准贮存液稀释成不同浓度作为自变量,是人为选定的,因此不能作直线相关分析。本资料只求回归方程,不作直线相关分析。
3 结论
两个变量之间的变化规律是否适合用直线相关与回归来描述,首要的前提条件是要看这两个变量在专业上是否有一定的联系;其次应该绘出反映两个变量变化趋势的散点图。若发现各散点在一条不太宽的带内随机地分布着,此时可考虑作直线相关或直线回归分析;若发现各散点呈一条较明显的曲线变化趋势时,则应拟合相应的曲线回归方程;若发现各散点的分布几乎呈一圆盘状时,则说明两变量之间无确定的变化规律,不必进行直线相关与回归。
, 百拇医药
对于实际资料若借助统计学软件(如本文采用的SAS软件),就可从多角度、多侧面进行分析,选取较优的曲线类型是十分方便的。
参考文献
1 刘天鹏,李双田,李得.正确处理医学科研中出现的可疑值.中国卫生统计,1992,9(4):63.
2 方积乾主编.医学统计学与电脑实验.上海科学技术出版社,1997,114.
3 詹绍康.相关回归分析中的注意点.中国卫生统计,1995,12(2):7.
4 李庆滨,盛丽,何燕等.气象因素对急性心肌梗塞发病的影响及因时护理措施.中华护理杂志,1997,32(11):621~624.
5 胡良平主编.现代统计学与SAS应用.军事医学科学院出版社,1996,243~246.
6 秦杰.最小平方法在医院统计预测中的应用.中国医院统计,1995,2(4):245~246.
7 王成彬,童红莉,沈文梅等.硝酸盐还原酶测定血清和尿中硝酸盐浓度.中华医学检验杂志,1997,20(3):156~157.
收稿日期:1999-01-09, http://www.100md.com