流行病学研究中配对因素的筛选及差异容许区间配对法的应用

http://www.100md.com 《右江民族医学院学报》 1998年第3期

     作者：马迎教王国强

    单位：马迎教：右江民族医学院预防医学教研室 (百色 533000)；王国强：广东省江门市人民医院

    关键词：

    右江民族医学院学报9903124 流行病学研究常涉及配对的问题，而配对因素的确定及配对的实施，可以说是整个研究成败的关键。合理的配对，能有效地增加事物的可比性，控制混杂因素，揭示分析因素的实质^[1,2]。但值得注意的是，目前在配对的组织与实施上，仍存在着较大的盲目性，因而也就严重地影响着整个研究的实际成效。为此，笔者就合理配对问题，试作如下分析与讨论。

    1 配对因素的筛选

    选择配对因素的基本原则是：重要的因素尽可能不要遗漏，非重要的因素尽可能剔除掉。然而，要做到这一点决非易事。可行的途径之一，是采用初选与精选相结合的因素筛选步骤。一方面，要求研究者必须熟悉有关的专业知识及相关的背景知识，初选时不只是把着眼点放在常见的二、三个配对因素上，而是对欲分析因素的关联因素作出较为全面、充分的估计。另一方面，要求研究者在初选的基础上，对配对因素进行科学的筛选。配对因素过多，会造成配对过度的问题。不但会因难以满足众多配对因素一致性的要求而导致样本的无谓损失，而且也直接影响配对的实施，延长研究周期^[3,4]。此外，众多因素间错综复杂的关系也极易造成结果解释上的困难。因此，当各因素间存在较高相关性，数据间共线性问题较为突出，或各因素与欲分析指标间关联性可能不大时，更需考虑对配对因素作出科学的筛选，比较有效的形式是采用岭回归^[5]、主成分分析^[6]、逐步回归^[7～9]等分析手段，将与欲分析指标关系密切，但又具有独立作用的因素筛选出来。故然，筛选工作可在正式调查前完成，亦即通过准调查(试点调查)中获得的资料，或手头上有的因别的调查目的所获得的资料进行因素筛选。也可对本次正式调查资料先行因素筛选，尔后再实施配对分析。
, http://www.100md.com
    那么，应筛选出多少个配对因素呢?对此问题不应一概而论，应根据具体情况来确定配对因素的多寡。当筛选出来的配对因素过少或收集到的样本较大时，可适当放宽筛选的尺度(如减小逐步回归的选择水平F值)；当筛选出的配对因素过多，或收集到的样本较小时，则可适当加严筛选的尺度。一般而言，精选出4～6个配对因素就可满足研究的要求^[10～13]。

    2 配对的实施

    以上是确定配对因素的方法，是配对研究过程中的第一步。在配对的实施中，仍然还存在着对子间各配对因素差异限度的问题。例如，已筛选出年龄作为配对因素，从理论上说，各对子的年龄完全相同最为理想，但实际上办不到。尤其是当筛选出的配对因素相对较多，或收集到的样本相对较小时更是如此。因此，应考虑配对因素的配对差异限度问题。

    按以往的处理方法，往往是将对子间年龄差异限度人为地定为5岁。这无疑存在其不可取之处，是机械地以某个固定的范围去应付各种不同的研究课题。我们知道，同一个配对因素对不同的分析指标在关联程度上可有所不同；而不同的配对因素对同一个分析指标在关联程度上也会有所不同。我们最关心的，应是那些与分析指标关联程度较高的配对因素，力求在实施配对时，保证这些因素在对子间的差异尽可能小些。对那些与分析指标关联程度稍逊色的配对因素，对子间的差异则可适当放宽些。假如我们在确定配对差异时对所有已筛选出的配对因素一视同仁，在实施配对时，尤其是较严格的配对时，也同样会带来样本无谓损失的问题。因此，既要保证对子间科学的同一性，又要保证配对过程易于实施，就有必要对各个配对因素单独地考虑其配对差异问题。确定各配对因素差异限度的具体过程可用例子陈述如下：
, 百拇医药
    例：欲采用配对研究方法分析孕妇孕期哺乳与否与孕妇贫血的关系。孕期哺乳与否为欲分析因素，孕妇血红蛋白含量为分析指标(用X表示)。考虑孕妇初潮年龄、年龄、孕次、产次、Pelidisi营养指数、职业等为配对初选因素(用Y₁～Y_n表示)。先通过上述筛选手段，在适当的选择水准下进行因素筛选，设已筛选出初潮年龄(Y₁)、年龄(Y₂)、产次(Y₄)、Pelidisi营养指数(Y₅)作为配对因素。此后，将各配对因素分别与分析指标(X)作二元回归分析^[14,15]，求出对子间各配对因素的配对差异容许区间Y_i±t_α(n')*S_x(S_x为个体X值的标准差)。为了方便，同时考虑到通常样本不会太小，故也近似地用Y_i±t_α(n')*S_{x*Y_i}求出该区间(S_{x*Y_i}为剩余标准差)，即
, 百拇医药
    Y₁的配对差异容许区间为±t_α(n')*S_x*Y₁

    Y₂的配对差异容许区间为±t_α(n')*S_x*Y₂

    Y₄的配对差异容许区间为±t_α(n')*S_x*Y₄

    Y₅的配对差异容许区间为±t_α(n')*S_x*Y₅

    最后，可借助计算机(或手工)实施逐步配对过程。配对开始时，先按严格的配对要求(较大α值)作最佳配对选择。当配成对子数过少时，计算机自动按一定步长(比如说0.10)放宽配对差异容许区间，且每放宽一次区间，即重新实施一轮配对过程，如此周而复始，直至能配出所需的对子数时，计算机运行自行停止，并将配成的对子编号打印出来。值得指出的是，该法配对成效在一定程度上与各配对因素配对差异的变动是否一致有关。合理的方法是所有的配对因素在每轮配对中，都按相同的步长变动容许差异。例如，初潮年龄的配对α值已减至0.80时，筛选出来的其它配对因素(年龄、产次、Pelidisi营养指数)也应从0.90减至0.80，从而保证同步的调整过程。
, 百拇医药
    3 小结

    为了减少流行病学研究中配对的盲目性，提高研究效率，笔者就如何更科学地确定配对因素及配对的实施问题作了一定的探讨。认为采用初选与精选相结合的因素筛选步骤及以回归分析为基础的差异容许区间配对方法，能保证配对过程在合理前提下的实施，从而为流行病学研究设计中科学地配对提供了一条可行的途径。

    参考文献

    1 柳明.病因学研究中的混杂及其处理.中国卫生统计，1989；6(1)：57

    2 Rothman KJ. Moderm epidemiology. Boston: Little, Brown，1986：235

    3 耿贯一，主编.流行病学(第1卷).第2版.北京：人民卫生出版社，1995：256
, 百拇医药
    4 Miethinen OS. Matching and Design Efficiency in Retrospective studies. Am J Epidemiol，1970；91：111

    5 顾学箕，主编.中国医学百科全书.预防医学.上海：上海科学技术出版社，1991：321

    6 杨瑞璋，胡克震，主编.卫生管理统计学.哈尔滨：中国医院管理杂志社，1987：253

    7 Bailey MTJ. Statistical methods in biology. London: Richard Clay Ltd，1981：142～145

    8 杨树勤，郭祖超.中国医学百科全书.医学统计学.上海：上海科学技术出版社，1985：179

    9 丁道芳，谢启文，列述舜.医学科学研究基本方法.沈阳：辽宁科学技术出版社，1988：269
, 百拇医药
    10 Breslow NE, Day NE. Statistical methods in cancer research, Vol. 1, The analysis of case-control studies. Lyon: Intemational Agency for Research on Cancer，1980：248

    11 Hennekens CH, Buring JE. Epidemiology in medicine. Boston: Little, Brown，1987：295

    12 Kahn HA, Sempos CT. Statistical methods in epidemiology. New York: Oxford Uni. Press，1989：157

    13 Kelsey JL, Thompson WD, Evans AS. Methods in observational epidemiology. New York: Oxford Univ. Press，1986；194：280

    14 Walpole RE. Inreodution to statistics. New York: Macmillan Publishing Co，1982：369

    15 解宝鑫，陆守曾，周户恕，等.预防医学指南.卫生统计分册.西安：陕西科学技术出版社，1989：111

    (1998-01-10收稿，1998-04-11修回), 百拇医药

百拇医药网 http://www.100md.com/html/analecta/1998/03/01/12/356.htm