放射流行病学群组研究资料Poisson回归分析及其进展
作者:孙全富 邹剑明
单位:孙全富 (北京,卫生部工业卫生实验所 100088) 邹剑明 (广东省职业病防治院)
关键词:
中华放射医学与防护杂志980637 放射流行病学群组研究统计分析方法,在50~60年代,主要是研究人群与标准人群死亡率的比较(SMR的计算及其统计推断)。70年代,强调研究人群中不同亚组间的比较及对混杂因素的控制。因各组间SMR可能缺乏可比性,广泛采用Mantel-Haenszel分层分析。分层分析的主要缺点是,不能分层太多,因而不能对多个混杂因素进行控制。70年代末80年代初,随着对致癌机制的认识及计算机的普及,更加强调时间相关变量(如age at risk)和剂量-效应关系,开始广泛采用Poisson模型回归分析[1~3]。本文讨论群组研究分组资料的Poisson回归分析及其进展。
, http://www.100md.com
1 Poisson回归分析的基础
1.1 群组研究人年率分组资料的组织与相加、相乘模型。群组研究的人年率(发病率或死亡率)资料经分组可以整理成J×K表(J为协变量分层,如年龄分组,j=1,…,J。K为暴露水平分组,k=1,…,K),每个格子的数据包括相应的病例数,djk,与观察人年数,njk。利用多元回归技术,可以采用几种回归模型定量描述率与暴露的关系,并同时考虑多个混杂因素的作用,其中以Poisson回归模型最为常用[4,5]。格子(j,k)率的观察值为jk=djk/njk,它是对率真值λjk的一个估计。为了考虑抽样误差,假设djk服从Poisson分布,njk固定。
, 百拇医药
统计分析的目的在于发现率变化的基本结构,特别要鉴别出协变量(如年龄)与暴露的效应。这需要两套参数,一套描述协变量(如年龄)的影响,一套描述暴露变量的效应。如果协变量层别率(如年龄别率)保持一致,各暴露组的相对位置在J个年龄水平上保持不变,则暴露组k的效应为一个常量βk与非暴露组或基准组(k=1)年龄别率λj1之和,即:
αj,βk(β1=0)是要从资料估计的参数。如上述可加性在一般尺度上不成立,将率作适当变换后或可成立。作对数变换:
logλjk=αj+βk
则可有乘法模型:
, http://www.100md.com
λjk=θjφk
式中:αj=logθj=logλj1,βk=logφk,此时,φk代表在暴露水平为k时疾病相对于暴露水平1(φ1=1)的相对危险。
1.2 参数估计与统计推断。Poisson回归采用极大似然法进行参数估计和统计推断。似然(性)是衡量某一模型的参数被观察样本数据支持程度的一个统计量。似然数值很小,在对数尺度下使用更为方便,并称之为似然对数(log likelihood)。模型对观察资料的拟合优度(goodness-of-fit)可以用似然对数表示。似然对数越大,拟合越好。似然对数本身不具有明确的统计分布,但是两个嵌套模型(nested model)似然对数之差的-2倍近似于χ2分布,自由度是两个模型参数之差。借此可进行统计推断,并称之为对数似然比检验(LRT,log likelihood ratio test)。标准Poisson回归程序会给出拟合模型与饱和模型的对数似然比,表示为-2log likelihood或deviance。统计推断的其他方法尚有Wald检验和Score检验,相比而言,LRT统计性质稳定,推断可靠,特别是对于非指数模型更是如此[6]。
, 百拇医药
1.3 相加与相乘模型的鉴别。当从生物学上无法为资料分析指定相加或相乘模型时,需要从数学上比较两模型对资料的拟合效果。但因这两个模型不是嵌套的,不能用LRT给出结论。解决这一问题的方法是建立扩展模型,使其将相加或相乘模型作为特例予以包括。已提出了数个扩展模型[7,8],其中一个扩展模型可以表示为:
当ρ逼近1时,为相加模型:λjk-1.0=costant+age+dose。当ρ逼近0时,为相乘模型:lgo(λjk)=costant+age+dose。当0<ρ<1时,参数的解释较困难[9]。
1.4 变量进入模型的形式。二分变量(如性别男或女:sex=1或0)可以直接进入模型。分组数多于2的变量,应采用指示变量的形式进入模型。对于有K个分组的变量在模型中需要K-1个指示变量表示。一般应选择所占比例大的组作为基准组,这样回归参数的统计稳定性好。如果存在自然的基准组,即使其所占比例较小,也应选择这样的基准组,如暴露/非暴露的非暴露组。
, http://www.100md.com
连续变量若作为一个变量进入模型,暗示该变量与效应遵从线性关系。为避免这种假设,一般可将连续变量分组以指示变量的形式进入模型。分组数不宜多于5个,每组的人年数大致相近(具体实现可用分位数分组)。如果变量呈明显的偏态分布,应将数据截断,以避免极个别取值对拟合效果的过大影响[7]。连续变量分组后引入模型,模型的统计效能会有所降低,并有损模型的简洁性,好在流行病学模型分析的目的一般在于推断而非简洁[5]。
2 对交互及混杂作用的处理[10]
在考虑混杂作用之前,应首先考虑交互作用。剂量-效应关系分析时如果未能对交互作用进行适当的控制,会导致对剂量-效应关系的解释出现严重错误。判断一交互项是否具有交互作用,可采用嵌套模型的LRT检验。判定标准是引入该交互项后模型的拟合优度有显著提高。需要注意的是如果一个高阶交互项经统计检验被包含在模型中,则它的所有低阶项均应在模型中出现,而不论统计上显著与否。一般在模型中唯一必须包含的混杂因素间的交互项是年龄-性别交互项。
, http://www.100md.com
一个或几个变量是否起混杂作用,在回归模型分析时,或可采用LRT检验。但是对用统计检验评价混杂因素有不同意见,因为混杂是与流行病学研究的有效性(validity)而不是精密度(precision)有关的问题,严格地讲统计检验与此无关。“统计上不显著”不意味着“不存在混杂”,从模型中去掉统计上不显著的因素,可能会导致因不考虑这些因素而表现出强烈的综合混杂作用。因此,应引入全部可能的混杂因素,而不用过多地考虑统计检验的结果。但是如果这些因素间存在强相关,因共线性可使模型变得非常不稳定。此时,可能需要从模型中删除一些混杂因素[4]。
3 剂量-效应关系
群组研究得到的暴露资料通常记录为连续变量或分级变量。暴露变量最好以分组形式进入模型。暴露水平为零的组可能要特别处理。如研究妇女生产次数的效应,没有生产(birth=0)与有生产史(birth=1,2~3,≥4)的生物学经历是完全不同的。模型分析时最好单独引入一个参数表示零暴露组。
, 百拇医药
暴露因素的趋势检验(trend test)包括对暴露参数是否为null value的检验以及对剂量\|效应关系偏离线性的检验。假设有如下的模型:
①log(RR)=constant+age
②log(RR)=constant+age+[dose]
③log(RR)=constant+age+dose
④log(RR)=constant+age+[dose]
⑤log(RR)=constant+age+[dose]
⑥log(RR)=constant+age+[dose]+[dose]×[dose]
式中,[dose]为剂量的连续变量形式;dose为分组变量形式。模型1与2比较给出控制年龄效应后有关照射剂量效应的检验。当模型3的拟合效果显著地好于模型4时,说明剂量的效应明显偏离线性。模型5与6的比较也可说明同样的问题。
, 百拇医药
模型分析时,还要注意选择适当的时间变量[7,9,11]。癌症的发生是一个长期过程,暴露因素、人的易感性均可能随着时间而改变。时间变量包括与暴露有关的暴露持续时间、首次暴露后的时间、停止暴露后的时间及首次暴露时年龄,以及单纯的时间变量,如attained age,follow-up time(time-on-study),calendar period,birth cohort等。
4 进展
4.1 回归变量的测量误差及其影响。模型分析的条件是回归变量(如剂量)的测量没有误差,实际情况一般不支持这一假设。如果暴露量是二分的,测量误差一般使相对危险估计衰减(趋向于1),并人为地使置信区间变窄。但是P值一般是有效的。测量误差还可能降低统计检验把握度[7,12]。对剂量-效应曲线的影响是使每点的数值降低,曲线总体斜率降低,也有可能改变曲线的曲率[9]。当暴露量的个体变异或随时间变化很大时(如血压),采用一次测量值作为回归变量也会导致同样的误差[7]。
, 百拇医药
危险估计衰减的程度不仅取决于测量误差的大小(方差),还取决于误差的分布类型、是否为选择偏倚(Berkson氏偏倚)、危险因素真实水平的方差及分布、回归方程的形式(指数还是线性)以及模型中包括的混杂变量。对这类误差的校正,如果暴露量的个体变异或时间变化大,可以采用代表性样本的长期测量平均值作为回归变量。更一般的数学方法在文献中有讨论[13]。
4.2 癌症部位别专率的联合分析。为了研究危险修正因子的作用,一般将癌症分为白血病和实体癌,后者可再按部位细分。这样,部位别预期超额癌症数可能很小,统计把握度小,也无法进行部位别危险的统计比较,妨碍对危险修正因子的刻划。Pierce和Preston[14]提出了部位别癌症危险的联合分析。按照这一方法,首先在计算人年资料交叉列表时引入一个癌症部位分组变量,然后拟合一个包括部位分组的综合模型,模型中的参数有的是与部位无关(各个部位的取值相同),有的与部位有关。借此可进行部位别危险的比较,还可以更充分地了解性别、受照时年龄和照后经历时间等因素对不同部位癌症的修正作用。
, 百拇医药
近年来,放射流行病学着重关心的是小剂量低剂量率照射引起的危险,为了检出这种照射所带来的预期较小的危险及其他因素对危险估计的影响,应用了许多复杂的回归分析技术。本文讨论了与群组研究分组资料Poisson回归分析有关的几个问题,尤以对回归变量误差的处理应引起我们的注意。以往的作法是不考虑测量误差,并认为只要病例与对照的测量误差分布相同,误差就不会影响危险估计,事实上这样的认识是片面的。
本文在写作过程中,得到陶祖范教授的悉心指导,谨此致谢
参考文献
1 Preston DL,Koecky KJ,Kato H.Analysis of mortality and disease incidence among atomic bomb survivors.In:Blot WJ,Hirayama and Hoel DG eds.Statistical methods in cancer epidemiology.Hiroshima,Japan: RERF,1985,13-117.
, http://www.100md.com
2 陶祖范.辐射流行病学的基本概念与方法.中华放射医学与防护杂志,1986,6:206-213.
3 陶祖范,孙全富.放射流行病学的基本概念与统计分析方法.中华流行病学杂志,1996,17:373-379.
4 Checkoway H,Pearce NE,Craford\|Brown DJ.Research methods in occupational epidemiology.New York: Oxford University Press,1989,232-263.
5 Rothman KJ.Modern epidemiology.Boston: Little,Brown & Co,1986,285-310.
6 Preston DL,Lubin JH,Pierce DA.Epicure user's guide.HiroSoft International Corp,1992,43-49.
, 百拇医药
7 Clayton D,Hills M.Statistical models in epidemiology.Oxford: Oxford University Press,1993,284,254,317-318,277-280.
8 Moolgavkar SH,Venzon DJ.General relative risk regression models for epidemiologic studies.Am J Epidemiol,1987,126:949-961.
9 Breslow NE,Day NE.Statistical methods in cancer research. Vol Ⅱ. The design and analysis of cohort studies.Lyon: IARC,1987,142-146,160-167,232-270.
10 Kleibaum DG,Kupper LL,Morgenstern H.Epidemiological researh:principles and quantitative methods.New York: Van Nostrand Reinhold,1982,443-453.
, 百拇医药
11 Korn EL,Graubard BI,and Midthune D.Time-to-event analysis of longitudinal follow-up of a survey:choice of the time-scale.Am J Epidemiol,1997,145:72-80.
12 Armstrong BG.The effects of measurement errors on relative risk regressions.Am J Epidemiol,1990,132:1176-1184.
13 Pierce DA,Stram DO,Vaeth M,et al.The errors-in-variables problem:considerations provided by radiation dose-response analysis of the A-bomb survivors data.J Am Stat Assoc 1992,87:351-369.
14 Pierce DA and Preston DL.Joint analysis of site-specific cancer risks for the atomic bomb survivors.Radiat.Res,1993,134:134-142.
(收稿:1997-12-22 修回:1998-03-08), 百拇医药
单位:孙全富 (北京,卫生部工业卫生实验所 100088) 邹剑明 (广东省职业病防治院)
关键词:
中华放射医学与防护杂志980637 放射流行病学群组研究统计分析方法,在50~60年代,主要是研究人群与标准人群死亡率的比较(SMR的计算及其统计推断)。70年代,强调研究人群中不同亚组间的比较及对混杂因素的控制。因各组间SMR可能缺乏可比性,广泛采用Mantel-Haenszel分层分析。分层分析的主要缺点是,不能分层太多,因而不能对多个混杂因素进行控制。70年代末80年代初,随着对致癌机制的认识及计算机的普及,更加强调时间相关变量(如age at risk)和剂量-效应关系,开始广泛采用Poisson模型回归分析[1~3]。本文讨论群组研究分组资料的Poisson回归分析及其进展。
, http://www.100md.com
1 Poisson回归分析的基础
1.1 群组研究人年率分组资料的组织与相加、相乘模型。群组研究的人年率(发病率或死亡率)资料经分组可以整理成J×K表(J为协变量分层,如年龄分组,j=1,…,J。K为暴露水平分组,k=1,…,K),每个格子的数据包括相应的病例数,djk,与观察人年数,njk。利用多元回归技术,可以采用几种回归模型定量描述率与暴露的关系,并同时考虑多个混杂因素的作用,其中以Poisson回归模型最为常用[4,5]。格子(j,k)率的观察值为jk=djk/njk,它是对率真值λjk的一个估计。为了考虑抽样误差,假设djk服从Poisson分布,njk固定。
, 百拇医药
统计分析的目的在于发现率变化的基本结构,特别要鉴别出协变量(如年龄)与暴露的效应。这需要两套参数,一套描述协变量(如年龄)的影响,一套描述暴露变量的效应。如果协变量层别率(如年龄别率)保持一致,各暴露组的相对位置在J个年龄水平上保持不变,则暴露组k的效应为一个常量βk与非暴露组或基准组(k=1)年龄别率λj1之和,即:
αj,βk(β1=0)是要从资料估计的参数。如上述可加性在一般尺度上不成立,将率作适当变换后或可成立。作对数变换:
logλjk=αj+βk
则可有乘法模型:
, http://www.100md.com
λjk=θjφk
式中:αj=logθj=logλj1,βk=logφk,此时,φk代表在暴露水平为k时疾病相对于暴露水平1(φ1=1)的相对危险。
1.2 参数估计与统计推断。Poisson回归采用极大似然法进行参数估计和统计推断。似然(性)是衡量某一模型的参数被观察样本数据支持程度的一个统计量。似然数值很小,在对数尺度下使用更为方便,并称之为似然对数(log likelihood)。模型对观察资料的拟合优度(goodness-of-fit)可以用似然对数表示。似然对数越大,拟合越好。似然对数本身不具有明确的统计分布,但是两个嵌套模型(nested model)似然对数之差的-2倍近似于χ2分布,自由度是两个模型参数之差。借此可进行统计推断,并称之为对数似然比检验(LRT,log likelihood ratio test)。标准Poisson回归程序会给出拟合模型与饱和模型的对数似然比,表示为-2log likelihood或deviance。统计推断的其他方法尚有Wald检验和Score检验,相比而言,LRT统计性质稳定,推断可靠,特别是对于非指数模型更是如此[6]。
, 百拇医药
1.3 相加与相乘模型的鉴别。当从生物学上无法为资料分析指定相加或相乘模型时,需要从数学上比较两模型对资料的拟合效果。但因这两个模型不是嵌套的,不能用LRT给出结论。解决这一问题的方法是建立扩展模型,使其将相加或相乘模型作为特例予以包括。已提出了数个扩展模型[7,8],其中一个扩展模型可以表示为:
当ρ逼近1时,为相加模型:λjk-1.0=costant+age+dose。当ρ逼近0时,为相乘模型:lgo(λjk)=costant+age+dose。当0<ρ<1时,参数的解释较困难[9]。
1.4 变量进入模型的形式。二分变量(如性别男或女:sex=1或0)可以直接进入模型。分组数多于2的变量,应采用指示变量的形式进入模型。对于有K个分组的变量在模型中需要K-1个指示变量表示。一般应选择所占比例大的组作为基准组,这样回归参数的统计稳定性好。如果存在自然的基准组,即使其所占比例较小,也应选择这样的基准组,如暴露/非暴露的非暴露组。
, http://www.100md.com
连续变量若作为一个变量进入模型,暗示该变量与效应遵从线性关系。为避免这种假设,一般可将连续变量分组以指示变量的形式进入模型。分组数不宜多于5个,每组的人年数大致相近(具体实现可用分位数分组)。如果变量呈明显的偏态分布,应将数据截断,以避免极个别取值对拟合效果的过大影响[7]。连续变量分组后引入模型,模型的统计效能会有所降低,并有损模型的简洁性,好在流行病学模型分析的目的一般在于推断而非简洁[5]。
2 对交互及混杂作用的处理[10]
在考虑混杂作用之前,应首先考虑交互作用。剂量-效应关系分析时如果未能对交互作用进行适当的控制,会导致对剂量-效应关系的解释出现严重错误。判断一交互项是否具有交互作用,可采用嵌套模型的LRT检验。判定标准是引入该交互项后模型的拟合优度有显著提高。需要注意的是如果一个高阶交互项经统计检验被包含在模型中,则它的所有低阶项均应在模型中出现,而不论统计上显著与否。一般在模型中唯一必须包含的混杂因素间的交互项是年龄-性别交互项。
, http://www.100md.com
一个或几个变量是否起混杂作用,在回归模型分析时,或可采用LRT检验。但是对用统计检验评价混杂因素有不同意见,因为混杂是与流行病学研究的有效性(validity)而不是精密度(precision)有关的问题,严格地讲统计检验与此无关。“统计上不显著”不意味着“不存在混杂”,从模型中去掉统计上不显著的因素,可能会导致因不考虑这些因素而表现出强烈的综合混杂作用。因此,应引入全部可能的混杂因素,而不用过多地考虑统计检验的结果。但是如果这些因素间存在强相关,因共线性可使模型变得非常不稳定。此时,可能需要从模型中删除一些混杂因素[4]。
3 剂量-效应关系
群组研究得到的暴露资料通常记录为连续变量或分级变量。暴露变量最好以分组形式进入模型。暴露水平为零的组可能要特别处理。如研究妇女生产次数的效应,没有生产(birth=0)与有生产史(birth=1,2~3,≥4)的生物学经历是完全不同的。模型分析时最好单独引入一个参数表示零暴露组。
, 百拇医药
暴露因素的趋势检验(trend test)包括对暴露参数是否为null value的检验以及对剂量\|效应关系偏离线性的检验。假设有如下的模型:
①log(RR)=constant+age
②log(RR)=constant+age+[dose]
③log(RR)=constant+age+dose
④log(RR)=constant+age+[dose]
⑤log(RR)=constant+age+[dose]
⑥log(RR)=constant+age+[dose]+[dose]×[dose]
式中,[dose]为剂量的连续变量形式;dose为分组变量形式。模型1与2比较给出控制年龄效应后有关照射剂量效应的检验。当模型3的拟合效果显著地好于模型4时,说明剂量的效应明显偏离线性。模型5与6的比较也可说明同样的问题。
, 百拇医药
模型分析时,还要注意选择适当的时间变量[7,9,11]。癌症的发生是一个长期过程,暴露因素、人的易感性均可能随着时间而改变。时间变量包括与暴露有关的暴露持续时间、首次暴露后的时间、停止暴露后的时间及首次暴露时年龄,以及单纯的时间变量,如attained age,follow-up time(time-on-study),calendar period,birth cohort等。
4 进展
4.1 回归变量的测量误差及其影响。模型分析的条件是回归变量(如剂量)的测量没有误差,实际情况一般不支持这一假设。如果暴露量是二分的,测量误差一般使相对危险估计衰减(趋向于1),并人为地使置信区间变窄。但是P值一般是有效的。测量误差还可能降低统计检验把握度[7,12]。对剂量-效应曲线的影响是使每点的数值降低,曲线总体斜率降低,也有可能改变曲线的曲率[9]。当暴露量的个体变异或随时间变化很大时(如血压),采用一次测量值作为回归变量也会导致同样的误差[7]。
, 百拇医药
危险估计衰减的程度不仅取决于测量误差的大小(方差),还取决于误差的分布类型、是否为选择偏倚(Berkson氏偏倚)、危险因素真实水平的方差及分布、回归方程的形式(指数还是线性)以及模型中包括的混杂变量。对这类误差的校正,如果暴露量的个体变异或时间变化大,可以采用代表性样本的长期测量平均值作为回归变量。更一般的数学方法在文献中有讨论[13]。
4.2 癌症部位别专率的联合分析。为了研究危险修正因子的作用,一般将癌症分为白血病和实体癌,后者可再按部位细分。这样,部位别预期超额癌症数可能很小,统计把握度小,也无法进行部位别危险的统计比较,妨碍对危险修正因子的刻划。Pierce和Preston[14]提出了部位别癌症危险的联合分析。按照这一方法,首先在计算人年资料交叉列表时引入一个癌症部位分组变量,然后拟合一个包括部位分组的综合模型,模型中的参数有的是与部位无关(各个部位的取值相同),有的与部位有关。借此可进行部位别危险的比较,还可以更充分地了解性别、受照时年龄和照后经历时间等因素对不同部位癌症的修正作用。
, 百拇医药
近年来,放射流行病学着重关心的是小剂量低剂量率照射引起的危险,为了检出这种照射所带来的预期较小的危险及其他因素对危险估计的影响,应用了许多复杂的回归分析技术。本文讨论了与群组研究分组资料Poisson回归分析有关的几个问题,尤以对回归变量误差的处理应引起我们的注意。以往的作法是不考虑测量误差,并认为只要病例与对照的测量误差分布相同,误差就不会影响危险估计,事实上这样的认识是片面的。
本文在写作过程中,得到陶祖范教授的悉心指导,谨此致谢
参考文献
1 Preston DL,Koecky KJ,Kato H.Analysis of mortality and disease incidence among atomic bomb survivors.In:Blot WJ,Hirayama and Hoel DG eds.Statistical methods in cancer epidemiology.Hiroshima,Japan: RERF,1985,13-117.
, http://www.100md.com
2 陶祖范.辐射流行病学的基本概念与方法.中华放射医学与防护杂志,1986,6:206-213.
3 陶祖范,孙全富.放射流行病学的基本概念与统计分析方法.中华流行病学杂志,1996,17:373-379.
4 Checkoway H,Pearce NE,Craford\|Brown DJ.Research methods in occupational epidemiology.New York: Oxford University Press,1989,232-263.
5 Rothman KJ.Modern epidemiology.Boston: Little,Brown & Co,1986,285-310.
6 Preston DL,Lubin JH,Pierce DA.Epicure user's guide.HiroSoft International Corp,1992,43-49.
, 百拇医药
7 Clayton D,Hills M.Statistical models in epidemiology.Oxford: Oxford University Press,1993,284,254,317-318,277-280.
8 Moolgavkar SH,Venzon DJ.General relative risk regression models for epidemiologic studies.Am J Epidemiol,1987,126:949-961.
9 Breslow NE,Day NE.Statistical methods in cancer research. Vol Ⅱ. The design and analysis of cohort studies.Lyon: IARC,1987,142-146,160-167,232-270.
10 Kleibaum DG,Kupper LL,Morgenstern H.Epidemiological researh:principles and quantitative methods.New York: Van Nostrand Reinhold,1982,443-453.
, 百拇医药
11 Korn EL,Graubard BI,and Midthune D.Time-to-event analysis of longitudinal follow-up of a survey:choice of the time-scale.Am J Epidemiol,1997,145:72-80.
12 Armstrong BG.The effects of measurement errors on relative risk regressions.Am J Epidemiol,1990,132:1176-1184.
13 Pierce DA,Stram DO,Vaeth M,et al.The errors-in-variables problem:considerations provided by radiation dose-response analysis of the A-bomb survivors data.J Am Stat Assoc 1992,87:351-369.
14 Pierce DA and Preston DL.Joint analysis of site-specific cancer risks for the atomic bomb survivors.Radiat.Res,1993,134:134-142.
(收稿:1997-12-22 修回:1998-03-08), 百拇医药