临床研究中重复测量资料的统计分析方法
作者:黄高明 周颖川 梁秋萍
单位:黄高明 梁秋萍(广西医科大学卫生统计学教研室 南宁 530021);周颖川(广西医科大学病理学教研室)
关键词:重复测量资料;广义线性模型;混合效应模型
广西医科大学学报000241
摘要 目的:探讨重复测量资料的统计分析方法。方法:用实例说明各种统计模型的适用情况。结果:重复测量资料具有各时点之间有相关关系,且时点相邻较近 的数据之间的相关性较强,时点相邻较远的数据之间的相关性较弱的特点。传统的统计分析 方法、一般的线性模型、广义线性模型没有考虑到观察对象在不同观察时点的内部相关性, 检验效能较低和易犯Ⅰ型错误。混合效应模型同时克服了传统分析方法和广义线性模型的缺 陷。结论:混合效应模型是目前临床试验资料统计分析强有力的方法。
, 百拇医药
中国图书资料分类法分类号 R181.22
STATISTICAL METHODS FOR REPEATED MEASUREMENT DATA IN CLINIC TRIAL
Huang Gaoming,Zhou Yingcuan,Liang Qiuping
(Department of Statistics,Guan gxi Medical university,Nanning 530021 China)
Abstract Objective:To study the statistical methods for repea ted measurement data.Methods:Using the practical example to illustrate the conditio ns of various statistical models.Results:A characteristic of repeated measurement data is that there is intra-subject correlation,and the closer the time point,the hig her correlation.The common statistical methods,linear models and generalized l inear model do not consider the characteristics above,so that the power of them is poor and easy to cause type Ⅰ error.The mixed model overcomes their shortco mings.Conclusion:The mixed model is the most suitable for the repeat ed measurement data.
, 百拇医药
Key words repeated measurement data;generalized linear model ;mixed model
在临床试验中常要求动态观察观察对象的某项或多项指标的变化情况,以确定药物(或 疗法)的安全性和有效性。对每个观察对象的某项指标在试验的不同时期进行动态观察所获 得的资料称为重复测量资料。由于其本身的特殊性,需采用适当的统计方法才能获得正确的 结论。现就其特性和各种统计学模型的适应性作比较研究。
1 常见的重复测量资料的数据结构
1.1计量资料
表1 计量重复测量资料的数据结构 患者
编号
组
, 百拇医药
别
试验前后不同时期的测定结果
d0
d1
d2
d3
d4
d5………
1
1
22
90
, 百拇医药
19
16
15
12………
2
0
29
23
21
24
19
14……………………………………
n
, 百拇医药
1
15
14
12
11
10
10………
注:①组别:0为对照组,1为试验组;
②d0,d1,d2……:为不同观察时点的观察结果
1.2 计数资料
表2 计数重复测量资料的数据结构 患者编号
, 百拇医药
组别
时间
X1
X2
X3…
XP
Y
1
0
0………………
1
0
, http://www.100md.com 1………………
1
0
2………………
1
0
3………………………………………
n
1
0………………
n
1
1………………
, 百拇医药
n
1
2………………
n
1
3………………
注:组别:0为对照组,1为试验组;
时间:0为试验前,1~3分别为试验后不同时点;
X1-XP:为与观察指标有关的一些可疑因素;
Y:观察指标(发生的次数)
2 可用的统计分析方法及缺陷
, http://www.100md.com
2.1传统的t检验及方差分析
在疗效研究中,如果仅想知道治疗后各时点与治疗前是否有差异,则可用配对或配伍设 计的方差分析;或想了解各时点与对照组比较(用各组各时点的差值),可用t检验。由于各 时点之间一般说来都是有联系的, 例如原来基数高者经治疗后变化可能会比原基数低者大( 或小),传统的统计方法只是孤立地对待各时点的观察值,没有充分利用各观察对象在不同 时点的内在联系。因此,检验效能较低,即可能把原本有效的新药当做无效而放弃。
2.2 一般的线性模型
一般的线性模型表示如下:Y=a+βiXij+……+βPXij+e。它仅适 用于Y与X呈线性关系的情况,统计方法有一元或多元方差分析、协方差分析、 一元或多元 回归分析等。这些模型的优点是既可分析固定效应(处理因素的效应),还可分析随机效应以 及交互作用的影响。但是,这些模型虽然考虑到不同观察时点的内在联系,但仍忽略了观察 对象在不同时点间的内在相关性,而将其看作独立样本,会增大Ⅰ型错误的概率,即可能会 将无效的药物误认为有效。
, http://www.100md.com
2.3 广义线性模型
一般的线性模型要求资料符合以下两个条件:①误差服从正态分布;②X与Y呈线性关系 。但在实际工作的很多场合下,应变量不服从正态分布且其理论值往往有一定的限制。Neld er和Wedderburn于1972年提出了广义线性模型,即根据资料的性质,将Y做适当的变换,例 如当Y服从二项分布时,可取logit变换或Probit变换;当Y服从Poisson分布时,取对数变换 等。广义线性模型仍没有考虑到观察对象在不同观察时点的内部相关性,易犯Ⅰ型错误。
2.4 混合效应模型
混合效应模型可表示为:Y=ai+β1Xij+……+βPXij+e式中,a i为第i个观察对象的平均效应,ai=a+ui。这里a为总平均效应。ui为第i个体的随 机效应。当所有的ui均等于0时,混合效应模型就是广义线性模型。混合效应模型既考虑 了观察对象在不同观察时点间的内在联系,又考虑了重复观察值间的相关,是一种比较全面 的分析方法;另外,与广义线性模型一样,可以处理有缺失值的资料;对多时点随访试验, 允许每个观察对象的观察次数可以不同,观察时间也可以不同。总之,它同时克服了传统分 析方法和广义线性模型的缺陷,是目前临床试验资料统计分析强有力的方法。
, http://www.100md.com
3 实例分析
为了解某药对血液某因子的提升作用,对16名患者随机分为2组,一组用试验药,另一 组用传统药。分别于治疗前和治疗后1,2,3,4周测定结果,资料如表3。
本资料的特点是:各时点之间有相关关系,且时点相邻较近的数据之间的相关性较强, 时点相邻较远的数据之间的相关性较弱。表4为试验药不同时点间相关分析结果,对照药也 有同样的结论(略)。
3.1 传统统计分析结果
1.各组不同时点间比较:分别用配伍设计方差分析,结论:试验药和对照药不同时点间差异均有统计学意义。
2.各时点组间比较:以各患者治疗前后的差值作两组比较的t检验,结论:除治疗前试验药与对照药的差异无统计学意义外,治疗后各周两药比较均有统计学意义 (对照药高于试验药)。
, 百拇医药
表3 16名患者临床试验观察结果 患者编号
组别
疗前
1周
2周
3周
4周
1
1
9.73
54.61
55.91
46.81
, 百拇医药
47.56
2
1
5.50
50.87
79.90
82.37
82.84
3
1
7.96
33.43
46.10
, 百拇医药
56.21
65.15
4
1
2.37
18.65
33.12
56.05
60.80
5
1
4.37
25.85
, 百拇医药
51.26
68.23
79.15
6
1
6.30
48.23
65.18
78.36
86.21
7
1
8.34
, 百拇医药
52.13
65.32
69.51
72.15
8
1
2.98
23.45
46.87
56.21
68.78
9
0
, 百拇医药
5.64
25.32
31.56
45.69
52.33
10
0
2.56
15.24
23.26
33.27
41.67
11
, 百拇医药
0
3.69
18.75
21.30
35.69
45.62
12
0
7.52
22.32
32.56
42.12
45.23
, 百拇医药
13
0
8.33
32.21
41.56
55.12
61.23
14
0
5.68
41.12
53.45
62.54
, 百拇医药
78.94
15
0
3.66
38.56
45.16
56.33
59.54
16
0
4.87
31.25
42.65
, http://www.100md.com
45.77
51.32
3.2 拟合广义线性模型
即忽略观察值间的内部相关性,拟合广义线性模型:
Y=β1time+β2treat+β3treat*time+e
式中,time表示治疗时间;treat表示组别(treat=1为试验组,treat=0为传统药组)。 用SAS软件包GENMOD过程拟合的结果见表4。表4 试验药治疗前后相关系数矩阵
疗前
1周
2周
, 百拇医药
3周
4周
疗前
1.00000
0.41758
0.35 779
0.42482
0.30614
0.0
0.0073
0.0234
0.0063
0. 0547
, http://www.100md.com
1周
0.41758
1.00000
0.86248
0.84038
0.89936
0.0073
0.0
0.0001
0.0001
0.00 01
2周
0.357 79
, http://www.100md.com
0.862 48
1.000 00
0.943 92
0.877 60
0.023 4
0.000 1
0.0
0.000 1
0.00 0 1
3周
0.424 82
0.840 38
, 百拇医药
0.943 92
1.000 00
0.937 29
0.006 3
0.000 1
0.000 1
0.0
0.00 0 1
4周
0.306 14
0.899 36
0.877 60
, 百拇医药
0.937 29
1.000 00
0.054 7
0.000 1
0.000 1
0.000 1
0.0
注:各时点的上行为相关系数,下行为概率值(P值)。
由表4可知,组别(treat)之间差异有统计学意义,治疗组不如对照组(Xt=34.27,X c=46.87);不同治疗时间(time)之间差异有统计学意义,呈升高趋势;组别与时间之间的交 互作用(treat.time)有统计学意义。
, http://www.100md.com
3.3 拟合混合效应模型
既考虑了观察对象在不同观察时点间的内在联系,又考虑了重复观察值间的相关关系, 拟合混合效应模型:
Yij=ai+β1time+β2treat+β3treat.time+eij
式中的符合意义同上。用SAS软件包MIXED过程拟合的结果见表5。
由表5可知,组别(treat)之间差异无统计学意义;不同治疗时间(time)之间差异有统计 学意义,呈升高趋势;组别与时间之间的交互作用(treat.time)无统计学意义。
, 百拇医药 表5 广义线性模型估计结果 变 量
系数
标准误
χ2
P
treat
10.7752
3.2614
10.9158
0.0010
time
11.7453
, 百拇医药
1.3314
77.8173
0.0001
treat.time
3.7136
1.8830
3.8897
0.0486
表6 混合效应模型估计结果 变量
系数
标准误
t
, http://www.100md.com
P
treat
4.4220
0.6382
-0.05
0.9570
time
11.6025
0.9905
11.71
0.0001
treat.time
, http://www.100md.com
2.4599
1.4007
1.76
0.1009
综上所述,重复测量资料的特点是:各时点之间有相关关系,且时点相邻较近的数据之 间的相关性较强,时点相邻较远的数据之间的相关性较弱。传统统计分析和广义线性模型均 忽略了这一特点,容易犯Ⅰ型错误。混合效应模型既考虑了观察对象在不同观察时点间的内 在联系,又考虑了观察值间的内部相关性,结论较为可靠,是分析重复测量资料的强有力的 手段。 参 考 文 献
1,王静龙等译.应用线性回归.北京:中国统计出版社,1998.288-291.
2,高惠璇等编译.SAS系统*SAS/STAT软件使用手册.北京:中国统计出版社,1997 .309-376.
3,陈 峰,任士泉,陆守曾.非独立试验的组内相关与广义估计方程.南通医学院 学报,1999,19(6):359-362.
4,Littell RC,Milliken GA,Stroup WW,et al.SAS System for Mixed Models.N orth Carplina:SAS Institute Inc,1996.31-86,229-266,423-489.
收稿日期:1999-12-22, 百拇医药
单位:黄高明 梁秋萍(广西医科大学卫生统计学教研室 南宁 530021);周颖川(广西医科大学病理学教研室)
关键词:重复测量资料;广义线性模型;混合效应模型
广西医科大学学报000241
摘要 目的:探讨重复测量资料的统计分析方法。方法:用实例说明各种统计模型的适用情况。结果:重复测量资料具有各时点之间有相关关系,且时点相邻较近 的数据之间的相关性较强,时点相邻较远的数据之间的相关性较弱的特点。传统的统计分析 方法、一般的线性模型、广义线性模型没有考虑到观察对象在不同观察时点的内部相关性, 检验效能较低和易犯Ⅰ型错误。混合效应模型同时克服了传统分析方法和广义线性模型的缺 陷。结论:混合效应模型是目前临床试验资料统计分析强有力的方法。
, 百拇医药
中国图书资料分类法分类号 R181.22
STATISTICAL METHODS FOR REPEATED MEASUREMENT DATA IN CLINIC TRIAL
Huang Gaoming,Zhou Yingcuan,Liang Qiuping
(Department of Statistics,Guan gxi Medical university,Nanning 530021 China)
Abstract Objective:To study the statistical methods for repea ted measurement data.Methods:Using the practical example to illustrate the conditio ns of various statistical models.Results:A characteristic of repeated measurement data is that there is intra-subject correlation,and the closer the time point,the hig her correlation.The common statistical methods,linear models and generalized l inear model do not consider the characteristics above,so that the power of them is poor and easy to cause type Ⅰ error.The mixed model overcomes their shortco mings.Conclusion:The mixed model is the most suitable for the repeat ed measurement data.
, 百拇医药
Key words repeated measurement data;generalized linear model ;mixed model
在临床试验中常要求动态观察观察对象的某项或多项指标的变化情况,以确定药物(或 疗法)的安全性和有效性。对每个观察对象的某项指标在试验的不同时期进行动态观察所获 得的资料称为重复测量资料。由于其本身的特殊性,需采用适当的统计方法才能获得正确的 结论。现就其特性和各种统计学模型的适应性作比较研究。
1 常见的重复测量资料的数据结构
1.1计量资料
表1 计量重复测量资料的数据结构 患者
编号
组
, 百拇医药
别
试验前后不同时期的测定结果
d0
d1
d2
d3
d4
d5………
1
1
22
90
, 百拇医药
19
16
15
12………
2
0
29
23
21
24
19
14……………………………………
n
, 百拇医药
1
15
14
12
11
10
10………
注:①组别:0为对照组,1为试验组;
②d0,d1,d2……:为不同观察时点的观察结果
1.2 计数资料
表2 计数重复测量资料的数据结构 患者编号
, 百拇医药
组别
时间
X1
X2
X3…
XP
Y
1
0
0………………
1
0
, http://www.100md.com 1………………
1
0
2………………
1
0
3………………………………………
n
1
0………………
n
1
1………………
, 百拇医药
n
1
2………………
n
1
3………………
注:组别:0为对照组,1为试验组;
时间:0为试验前,1~3分别为试验后不同时点;
X1-XP:为与观察指标有关的一些可疑因素;
Y:观察指标(发生的次数)
2 可用的统计分析方法及缺陷
, http://www.100md.com
2.1传统的t检验及方差分析
在疗效研究中,如果仅想知道治疗后各时点与治疗前是否有差异,则可用配对或配伍设 计的方差分析;或想了解各时点与对照组比较(用各组各时点的差值),可用t检验。由于各 时点之间一般说来都是有联系的, 例如原来基数高者经治疗后变化可能会比原基数低者大( 或小),传统的统计方法只是孤立地对待各时点的观察值,没有充分利用各观察对象在不同 时点的内在联系。因此,检验效能较低,即可能把原本有效的新药当做无效而放弃。
2.2 一般的线性模型
一般的线性模型表示如下:Y=a+βiXij+……+βPXij+e。它仅适 用于Y与X呈线性关系的情况,统计方法有一元或多元方差分析、协方差分析、 一元或多元 回归分析等。这些模型的优点是既可分析固定效应(处理因素的效应),还可分析随机效应以 及交互作用的影响。但是,这些模型虽然考虑到不同观察时点的内在联系,但仍忽略了观察 对象在不同时点间的内在相关性,而将其看作独立样本,会增大Ⅰ型错误的概率,即可能会 将无效的药物误认为有效。
, http://www.100md.com
2.3 广义线性模型
一般的线性模型要求资料符合以下两个条件:①误差服从正态分布;②X与Y呈线性关系 。但在实际工作的很多场合下,应变量不服从正态分布且其理论值往往有一定的限制。Neld er和Wedderburn于1972年提出了广义线性模型,即根据资料的性质,将Y做适当的变换,例 如当Y服从二项分布时,可取logit变换或Probit变换;当Y服从Poisson分布时,取对数变换 等。广义线性模型仍没有考虑到观察对象在不同观察时点的内部相关性,易犯Ⅰ型错误。
2.4 混合效应模型
混合效应模型可表示为:Y=ai+β1Xij+……+βPXij+e式中,a i为第i个观察对象的平均效应,ai=a+ui。这里a为总平均效应。ui为第i个体的随 机效应。当所有的ui均等于0时,混合效应模型就是广义线性模型。混合效应模型既考虑 了观察对象在不同观察时点间的内在联系,又考虑了重复观察值间的相关,是一种比较全面 的分析方法;另外,与广义线性模型一样,可以处理有缺失值的资料;对多时点随访试验, 允许每个观察对象的观察次数可以不同,观察时间也可以不同。总之,它同时克服了传统分 析方法和广义线性模型的缺陷,是目前临床试验资料统计分析强有力的方法。
, http://www.100md.com
3 实例分析
为了解某药对血液某因子的提升作用,对16名患者随机分为2组,一组用试验药,另一 组用传统药。分别于治疗前和治疗后1,2,3,4周测定结果,资料如表3。
本资料的特点是:各时点之间有相关关系,且时点相邻较近的数据之间的相关性较强, 时点相邻较远的数据之间的相关性较弱。表4为试验药不同时点间相关分析结果,对照药也 有同样的结论(略)。
3.1 传统统计分析结果
1.各组不同时点间比较:分别用配伍设计方差分析,结论:试验药和对照药不同时点间差异均有统计学意义。
2.各时点组间比较:以各患者治疗前后的差值作两组比较的t检验,结论:除治疗前试验药与对照药的差异无统计学意义外,治疗后各周两药比较均有统计学意义 (对照药高于试验药)。
, 百拇医药
表3 16名患者临床试验观察结果 患者编号
组别
疗前
1周
2周
3周
4周
1
1
9.73
54.61
55.91
46.81
, 百拇医药
47.56
2
1
5.50
50.87
79.90
82.37
82.84
3
1
7.96
33.43
46.10
, 百拇医药
56.21
65.15
4
1
2.37
18.65
33.12
56.05
60.80
5
1
4.37
25.85
, 百拇医药
51.26
68.23
79.15
6
1
6.30
48.23
65.18
78.36
86.21
7
1
8.34
, 百拇医药
52.13
65.32
69.51
72.15
8
1
2.98
23.45
46.87
56.21
68.78
9
0
, 百拇医药
5.64
25.32
31.56
45.69
52.33
10
0
2.56
15.24
23.26
33.27
41.67
11
, 百拇医药
0
3.69
18.75
21.30
35.69
45.62
12
0
7.52
22.32
32.56
42.12
45.23
, 百拇医药
13
0
8.33
32.21
41.56
55.12
61.23
14
0
5.68
41.12
53.45
62.54
, 百拇医药
78.94
15
0
3.66
38.56
45.16
56.33
59.54
16
0
4.87
31.25
42.65
, http://www.100md.com
45.77
51.32
3.2 拟合广义线性模型
即忽略观察值间的内部相关性,拟合广义线性模型:
Y=β1time+β2treat+β3treat*time+e
式中,time表示治疗时间;treat表示组别(treat=1为试验组,treat=0为传统药组)。 用SAS软件包GENMOD过程拟合的结果见表4。表4 试验药治疗前后相关系数矩阵
疗前
1周
2周
, 百拇医药
3周
4周
疗前
1.00000
0.41758
0.35 779
0.42482
0.30614
0.0
0.0073
0.0234
0.0063
0. 0547
, http://www.100md.com
1周
0.41758
1.00000
0.86248
0.84038
0.89936
0.0073
0.0
0.0001
0.0001
0.00 01
2周
0.357 79
, http://www.100md.com
0.862 48
1.000 00
0.943 92
0.877 60
0.023 4
0.000 1
0.0
0.000 1
0.00 0 1
3周
0.424 82
0.840 38
, 百拇医药
0.943 92
1.000 00
0.937 29
0.006 3
0.000 1
0.000 1
0.0
0.00 0 1
4周
0.306 14
0.899 36
0.877 60
, 百拇医药
0.937 29
1.000 00
0.054 7
0.000 1
0.000 1
0.000 1
0.0
注:各时点的上行为相关系数,下行为概率值(P值)。
由表4可知,组别(treat)之间差异有统计学意义,治疗组不如对照组(Xt=34.27,X c=46.87);不同治疗时间(time)之间差异有统计学意义,呈升高趋势;组别与时间之间的交 互作用(treat.time)有统计学意义。
, http://www.100md.com
3.3 拟合混合效应模型
既考虑了观察对象在不同观察时点间的内在联系,又考虑了重复观察值间的相关关系, 拟合混合效应模型:
Yij=ai+β1time+β2treat+β3treat.time+eij
式中的符合意义同上。用SAS软件包MIXED过程拟合的结果见表5。
由表5可知,组别(treat)之间差异无统计学意义;不同治疗时间(time)之间差异有统计 学意义,呈升高趋势;组别与时间之间的交互作用(treat.time)无统计学意义。
, 百拇医药 表5 广义线性模型估计结果 变 量
系数
标准误
χ2
P
treat
10.7752
3.2614
10.9158
0.0010
time
11.7453
, 百拇医药
1.3314
77.8173
0.0001
treat.time
3.7136
1.8830
3.8897
0.0486
表6 混合效应模型估计结果 变量
系数
标准误
t
, http://www.100md.com
P
treat
4.4220
0.6382
-0.05
0.9570
time
11.6025
0.9905
11.71
0.0001
treat.time
, http://www.100md.com
2.4599
1.4007
1.76
0.1009
综上所述,重复测量资料的特点是:各时点之间有相关关系,且时点相邻较近的数据之 间的相关性较强,时点相邻较远的数据之间的相关性较弱。传统统计分析和广义线性模型均 忽略了这一特点,容易犯Ⅰ型错误。混合效应模型既考虑了观察对象在不同观察时点间的内 在联系,又考虑了观察值间的内部相关性,结论较为可靠,是分析重复测量资料的强有力的 手段。 参 考 文 献
1,王静龙等译.应用线性回归.北京:中国统计出版社,1998.288-291.
2,高惠璇等编译.SAS系统*SAS/STAT软件使用手册.北京:中国统计出版社,1997 .309-376.
3,陈 峰,任士泉,陆守曾.非独立试验的组内相关与广义估计方程.南通医学院 学报,1999,19(6):359-362.
4,Littell RC,Milliken GA,Stroup WW,et al.SAS System for Mixed Models.N orth Carplina:SAS Institute Inc,1996.31-86,229-266,423-489.
收稿日期:1999-12-22, 百拇医药