当前位置: 首页 > 期刊 > 《第三军医大学学报》 > 1999年第12期
编号:10499334
重复观测数据的相关分析
http://www.100md.com 《第三军医大学学报》 1999年第12期
     作者:王文昌 张蔚 易东 冷怀明 许汝福

    单位:王文昌 张蔚 易东 许汝福:第三军医大学:高原医学系医学统计学教研室;冷怀明:学报编辑部;重庆 400038

    关键词:重复测量数据;相关分析;半参数回归

    提要 目的

    提要 目的:本研究将建立重复测量数据的相关分析技术。方法:利用半参数回归分析的原理与方法,结合重复观测数据的特点,建立重复观测数据的半参数回归模型,剔除重复因素的影响后,建立重复测量数据的相关系数公式,并讨论了相应的假设检验问题。结果:给出了一个具体的实例,计算得其相关系数为r=0.3645,P>0.05,与分别在各个重复点上计算得到的线性相关系数是吻合的。结论:结果表明对重复观测数据进行相关分析时,所建立的方法是有效的、实用的,并且效果优于普通的最小二乘法和广义最小二乘法。
, 百拇医药
    中图法分类号 R195.1 文献标识码 A

    文章编号:1000-5404(1999)12-0890-03

    Correlative analysis of repeatedly measured data

    WANG Wen-chang,ZHANG Wei,YI Dong,LENG Huai-ming,XU-Rufu

    (Department of Medical Statistics,Third Military Medical University,Chongqing 400038)

    Abstract Objective: To seek the method for correlative analysis of repeatedly measured data.Methods: Using the theories and methods of semiparametric regression,the semiparametric regression model of repeated measurements was established with consideration of characteristics of repeated measurements.By the means of this model,the factors affecting repeated measurements were eliminated and the formula of the correlative coefficient was obtained.Results: When a real example was given,the correlative coefficient was 0.3645.The coefficient was similar as that of each repeated measurement.Conclusion: This method is effective and practical for the correlative analysis of repeatedly measured data.Its effect is better than that of the ordinary least square and the generalized least square analyses.
, 百拇医药
    Key words repeated measurement; correlative analysis; semiparametric regression

    重复观测数据广泛存在于医学研究中,对重复测量数据进行相关分析无论在理论上还是实践上都有重要意义。假设在研究总体中随机地选出n个受试对象,分别对每个对象按一定的时间间隔重复测量p次,得观测值(Xij,Yij,i=1,2,…,n,j=1,2,…,p。这种观测数据称为纵向重复测量数据。由于对同一对象进行重复测量,因此其数据间存在自相关性,当对其进行相关回归分析时,通常的最小二乘法将失效[1]。前不久,我们运用统计学中才兴起的半参数回归方法[2,3,4]研究了此类数据的回归分析问题[5],建立了对其进行处理的半参数回归模型,讨论了模型的参数估计及假设检验等问题。本文将对重复测量数据的相关程度进行定量描述,并研究了相应的假设检验问题。
, 百拇医药
    1 原理与方法

    我们对纵向重复测量数据建立了如下半参数回归模型[5]g890-1.gif (535 字节) (1)

    其中b为模型参数,主要反应了X对Y的影响。x=g890-2.gif (330 字节)为X的平均数。g(j)为未知函数,主要反应了重复测量的效应。εij~N(0,σ2)为随机误差且相互独立。对模型中的参数及未知函数可作如下估计:g890-3.gif (1039 字节) (2)g890-4.gif (593 字节) (3)
, 百拇医药
    其中,g890-5.gif (1194 字节)

    最后,可用表1的方差分析表对模型进行假设检验。

    表1 模型(1)的方差分析表

    Tab 1 Table of ANOV about Model (1)

    Variant source

    SS

    v

    MS

    F
, 百拇医药
    Totalg890-6.gif (304 字节)

    np-1

    Regression

    g890-7.gif (327 字节)

    1

    SSreg/Vreg

    MSreg/MSerr
, 百拇医药
    Repeated

    g890-8.gif (290 字节)

    p

    SSrep/Vrep

    MSrep/MSerr

    Residual

    g890-9.gif (349 字节)
, 百拇医药
    np-p-2

    SSerr/Verr

    其中g890-10.gif (389 字节)事实上,g890-11.gif (238 字节)为原始数据消除了重复因素所导致的自相关性后所得的序列,因此g890-12.gif (124 字节)g890-13.gif (119 字节)间的相关性才能准确地反应原始数据消除重复因素的影响后的相关性。于是根据表1,我们可定义原始数据(Xij,Yij)的相关系数如下:g890-14.gif (1771 字节) (4)
, 百拇医药
    对相关系数r的假设检验方法与线性相关系数的假设检验相同。

    2 实例

    表2为某幼儿园9名幼儿连续3年的体重与身高数据。文献[6]曾分析得受试对象内残差相关是显著的,并且断言使用普通最小二乘法得到的体重与身高数据的回归系数/Images/2004/11/13/b8/20/13/92_15.GIF (88 字节)的标准误将高估真实的标准误,于是在文献[6]中对/Images/2004/11/13/b8/20/13/92_15.GIF (88 字节)的标准误进行调整后,得到对/Images/2004/11/13/b8/20/13/92_15.GIF (88 字节)的假设检验的t值为6.2667,同时采用广义最小二乘法也得到r=9.9808,进一步说明了对/Images/2004/11/13/b8/20/13/92_15.GIF (88 字节)的假设检验是显著的,即幼儿身高与体重有显著关系的结论。事实上,我们分别对1991年、1992年、1993年数据进行相关分析,则3个r值分别为:0.4891、0.2377、0.3878,其相应的P值均大于0.05。也就是说,对此资料而言,如果剔除年龄因素的影响,幼儿的身高与体重应该是无关的。
, http://www.100md.com
    表2 某幼儿园幼儿的体重与身高

    Tab 2 Height and weight of infants

    Number

    Observation date

    6/7/1991

    25/5/1992

    24/5/1993

    1

    X(cm)

    105.0

    113.7
, 百拇医药
    120.0

    Y(kg)

    16.3

    18.7

    19.7

    2

    X(cm)

    102.5

    110.3

    117.0

    Y(kg)

    16.2

    20.3
, 百拇医药
    23.5

    3

    X(cm)

    104.5

    110.4

    117.7

    Y(kg)

    15.81

    18.4

    20.4

    4

    X(cm)

    109.8
, 百拇医药
    117.1

    124.4

    Y(kg)

    16.1

    18.6

    21.0

    5

    X(cm)

    103.8

    110.0

    112.0

    Y(kg)

    17.0
, 百拇医药
    19.0

    18.55

    6

    X(cm)

    106.0

    113.7

    120.7

    Y(kg)

    16.1

    17.8

    19.3

    7

    X(cm)
, http://www.100md.com
    110.3

    115.8

    123.7

    Y(kg)

    20.3

    24.3

    27.9

    8

    X(cm)

    103.0

    110.5

    116.2

    Y(kg)
, 百拇医药
    17.3

    19.7

    21.6

    9

    X(cm)

    106.9

    113.1

    121.0

    Y(kg)

    17.0

    18.7

    19.1

    我们现用模型(1)来讨论表2中的数据,则有:/Images/2004/11/13/b8/20/13/92_15.GIF (88 字节)=0.25236,/Images/2004/11/13/b8/20/13/92_18.GIF (70 字节)(1)=18.6349,/Images/2004/11/13/b8/20/13/92_18.GIF (70 字节)(2)=19.4477,/Images/2004/11/13/b8/20/13/92_18.GIF (70 字节)(3)=19.5463。并对其半参数回归模型进行假设检验得到:对回归系数,P>0.05;对重复因素,P<0.01,即就此资料而言,如果排除年龄因素的影响后,由于幼儿的体重变异远远大于身高的变异而掩盖了身高对体重的影响,幼儿的身高与体重是无关的,而对体重影响的主要因素为年龄因素,这与分别在各时间点上对身高与体重的相关分析结果是吻合的。更进一步地,我们用本文方法计算在此3年中,剔除年龄因素后,幼儿身高与体重的线性相关系数为r=0.3645,与分别计算得到的相关系数较为接近,相应的P>0.05,也说明了对此资料而言身高与体重是无关的。
, 百拇医药
    3 讨论

    对重复测量数据进行回归分析时,由于数据间的自相关性,一般的最小二乘法将失效。事实上,在文献[6]中无论是采用对标准误进行调整还是采用广义最小二乘法均得到了与实际资料所显示的信息不相符的结果。此实例的结果显示,半参数回归分析用于处理重复测量数据时的效果优于普通的最小二乘法和广义最小二乘法。

    对重复测量数据作相关分析时,应考虑重复因素所导致的数据间的相关性。一般来说,重复因素所导致的相关性是比较显著的,如果不剔除重复因素的效应,将有可能夸大指标间的相关程度。

    对重复测量数据作相关分析在实际中有着重要的意义。一般的模型仅能解决指标间有无相关性问题,而不可能对相关程度作出定量的描述。虽然模型的P值从某个角度来说能反映指标间的相关程度,但不利于实际分析使用。我们这里所导出的重复测量数据间的相关系数能真实地反应重复测量指标间的相关程度,无论是在理论上还是直观上它都是与线性相关系数一致的。
, http://www.100md.com
    基金项目:国家自然科学基金资助项目(39870691)

    Foundation item: National Natural Science Foundation of China(39870691)

    作者简介:王文昌,男,1970.02.03生,贵州省大方县人,硕士,讲师,主要从事卫生统计方面的研究,发表论文6篇。电话:(023)68752343

    参考文献

    [1] 陈希儒,王松桂.近代回归分析——原理方法及应用[M].合肥:安徽教育出版社,1987.91-105.

    [2] 高集体,洪对岩,梁 华,等.半参数回归模型研究的若干进展[J].应用概率统计,1994,10(1):96-103.
, 百拇医药
    [3] 洪圣岩.一类半参数模型的估计理论[J].中国科学(A辑),1991,12(12):1258-1272.

    [4] 王文昌,易 东,许汝福,等.季节性时间序列资料预测的半参数回归模型[J].中国卫生统计,1997,14(6):4-7.

    [5] 王文昌,易 东,张 蔚,等.重复观测数据的半参数回归分析[J].中国卫生统计,1999,16(4):200-203.

    [6] 赵景波,李 康.重复观测值线性回归分析及其在医学中的应用[J].中国卫生统计,1995,12(2):18-19.

    收稿日期:1999-01-02;修回日期:1999-09-23, 百拇医药