复杂抽样_Horvitz-Thompson估计量

复杂样本Horvitz-Thompson估计量的权数计算

http://www.100md.com 《卫生研究》 2000年第1期

     作者：薛禾生杨功焕

    单位：薛禾生(中国预防医学科学院信息中心，北京 100050)；杨功焕(中国预防医学科学院疾病监测中心)

    关键词：复杂抽样；Horvitz-Thompson估计量；后分层权重；偏性

    卫生研究000120 摘要：目前国内进行的调查大都采用复杂抽样方案，但在分析时却常常采用只适用于简单随机样本的一般方法。本文论述了这样做可能产生的问题，同时介绍了用于复杂样本情形的Horvitz-Thompson估计量及改进的权数，并通过实例说明了计算方法及其合理性。

    中图分类号：O212.2 文献标识码：B

    文章编号：1000-8020(2000)01-0061-03

    Weights in Horvitz-Thompson statistic for complex samples
, http://www.100md.com
    Xue Hesheng, Yang Gonghuan

    (Center of Information,Chinese Academy of Preventive Medicine, Beijing 100050, China)

    Abstract：The problem of using ordinary statistical methods basically for simple random samples in analyzing data from complex surveys for non-simple random samples was discussed. Horvitz-Thompson statistic and the poststratification weights were introduced. Illustrative examples were given to show the validity and superiority of Horvitz-Thompson statistic in comparison with statistic used for simple random samples.
, 百拇医药
    Key words：complex sampling, Horvitz-Thompson statistic, poststratification weights,bias

    1 问题的描述

    复杂抽样指由分层、整群、多阶段等抽样技术组合构成的抽样方案。在现场调查中，由于一般不易得到由个体(末级单位)名单组成的抽样框，加上实际调查中具体操作的可行性、费用等方面原因，广泛使用复杂抽样方案。按这样的抽样方案抽到的样本称复杂样本，它们不同于简单随机抽样(SRS)样本：首先，样本空间所包含的样本数一般比SRS的少；其次，样本中最终抽到的各个个体的被抽中概率也常常是不同的。对这种非SRS样本，再套用一般SRS样本中所用的方法分析是不适当的。

    例如，假定有一个含10个个体的总体，从中抽出含量为4个个体的样本，抽样的目的是为了估计总体均数。若用SRS，易知样本空间由210个可能的样本构成(从10个个体中抽取4个，有210种不同的抽法)，每个个体被抽中的概率是0.4。此时样本均数

是总均数μ的无偏估计。现在假定将总体分为两个层，第1层含4个个体，第2层含6个，分别从2个层中依SRS各抽2个个体构成样本，则样本空间所含样本的个数变为90(第1层有6种抽法，第2层有15种抽法，结合起来有90种抽法)，第1层中个体被抽中概率为0.5，第2层中个体被抽中概率为0.3。记第1层4个个体的均数为μ₁，第2层6个个体的均数为μ₂，则有：μ=0.4μ₁+0.6μ₂。再记第1层样本的样本均数为

₁，第2层样本的样本均数为

₂，若按一般SRS样本中所用的方法求普通样本均数

，则

=0.5

₁+0.5

₂，其期望为：E(

)=0.5μ₁+0.5μ₂，易知，当μ₁≠μ₂时，

的期望不等于μ。因此这种情况下样本均数

不一定再是总体均数μ的无偏估计。
, http://www.100md.com
一般，若记总体含量为N，总体分为k层，第i层含量为N_i，它们的均数为μ_i，从第i层抽的子样本其含量为n_i，全样本含量为n=n₁+n₂+…+n_k,第i层子样本均数为

_i，则有：

=(n₁

₁+n₂

₂+n_k

_k)/n，其期望为：E(

)=(n₁μ₁+n₂μ₂+…+n_kμ_k)/n，它与μ=(N₁μ₁+N₂μ₂+…+N_kμ_k)/N不一定相等。
, 百拇医药
上面假想的例子只考虑了最简单的分层抽样情形，当然，此情形下只要将计算

的式子改为

=N₁

₁/N+N₂

₂/N+…+N_k

_k/N即可得到对μ的无偏估计。但实际上我们遇到的常常是更复杂的抽样方案，情形当然更复杂，结论是同样的：对这种非SRS样本，再套用一般SRS样本中所用的方法分析是不适当的。

2 Horvitz-Thompson估计量
, 百拇医药
记复杂样本的含量为n，第i个个体观察值为X_i，第i个个体被抽中的概率为p_i,1/p_i=z_i,则对总体总值T的Horvitz-Thompson估计量为：tHT=∑x_iz_i；若我们对总体均数μ感兴趣，则μ的估计值为：mHT=∑x_iz_i/∑z_i，我们也称之为Horvitz-Thompson估计量：tHT和mHT都是无偏估计^[1]。tHT和mHT中的z_i称为概率权重，以区别于后面讲的后分层权重。Horvitz-Thompson估计量对观察值加权的目的是改善样本结构与总体结构的不一致问题，这种不一致是由抽样的不等概率造成的，故称之为概率权重。每一个个体的z_i可看为该个体所代表的人数，全样本的z_i加总，即为目标总体的人数。当所有z_i相等时，mHT的方差vHT最小。z_i的变化越大，VHT也越大，同样结论对tHT也成立。对含量为n的SRS样本，记总体含量为N，则所有的p_i都为n/N。此时μ的Horvitz-Thompson估计量为mHT=∑x_i(N/n)/∑(N/n)=N∑X_i/N²=

，可见，在SRS样本情形，对总体均数μ的Horvitz-Thompson估计量与普通样本均数一致。但在非SRS样本情形，它们就不一定相同了。此时

可能有偏，而mHT仍保持了无偏性，后者在现场调查中是很重要的。
, http://www.100md.com
    现在一般把具有∑X_iw_i/∑w_i形式的估计量都称为horvitz-Thompson型估计量，估计量中权数w_i的计算，也不只是个体i被抽中概率的倒数，而同时考虑了不应答、缺失及抽样时的随机波动等的影响，称为后分层权重。后分层权重能在概率权重的基础上进一步改善估计量的无偏性，因为它同时考虑了抽样概率和不应答等的影响。同时，因为它校正了后分层变量的影响，它实际上可以用于SRS样本。后分层权重的计算方法是：

    (1)根据每个个体的被抽中概率p_i计算概率权重z_i=1/p_i。

    (2)将总人群依后分层变量分组，得到各组人数STD。

    (3)将样本也同样分组，求出各组概率权重z_i总和SUMZ。
, 百拇医药
    (4)对各组计算校正系数C=STD/SUMZ。

    (5)对每个体计算后分层权重W_i=z_i×C。其中C为该个体所在组的校正系数。

    3 实例

    3.1 例1

    数据来源：中国行为危险因素监测系统^[2]。从某城市内所有2136个的居委会中随机抽出240个居委会，再在每个被抽中的居委会中随机抽出20户居民，最后在被抽中的每户居民中随机抽取1人组成样本。样本共含4800人，样本中前15人的数据见表1，表中NPOP指该个体所属居委会的人口数(下同)。现欲计算依年龄、性别分层的后分层权重。

    表1 样本中前15人数据序号

    年龄
, http://www.100md.com
    (岁)

    性别

    NPOP

    序号

    年龄

    (岁)

    性别

    NPOP

    1

    23

    女

    1 392

    9

, 百拇医药     37

    女

    1 392

    2

    24

    女

    1 392

    10

    38

    男

    1 392

    3

    23

    男
, 百拇医药
    1 392

    11

    37

    男

    1 392

    4

    23

    男

    1 392

    12

    37

    男

    1 392

, 百拇医药     5

    33

    女

    1 392

    13

    40

    女

    1 392

    6

    33

    女

    1 392

    14

    41
, http://www.100md.com
    男

    1 392

    7

    33

    男

    1 392

    15

    46

    女

    1 392

    8

    37

    女

    1 392
, 百拇医药
    3.1.1 计算概率加权重该市共有2136个居委会，假设每户人家的人数都是3.5人，则这15个人所在的居委会共有1392/3.5=397.71户。这15个人每人被抽中的概率为:P=(240/2136)×(20/397.71)×(1/3.5)=0.001614，由此得到这15个人的概率权重为：z_i=1/p=1/0.001614=619.58。仿此计算出全样本每人的概率权重。

    3.1.2 计算STDN 该市不同年龄性别组的人口数如下：表2 某市人口年龄性别构成(STDN) 年龄

    (岁)

    男

    女

    年龄

    (岁)
, 百拇医药
    男

    女

    15～

    12 764

    12 744

    45～

    6 984

    7 025

    20～

    15 060

    14 946

    50～

    6 906
, 百拇医药
    5 718

    25～

    14 675

    13 848

    55～

    4 896

    4 394

    30～

    13 094

    12 581

    60～

    3 188

    3 819
, 百拇医药
    35～

    12 096

    12 568

    65～

    2 564

    3 212

    40～

    08 315

    08 453

    3.1.3 计算SUMZ 将样本也同样分组，在各组内将概率权重加总得到SUMZ。例如样本中第1例性别女，年龄23，概率权重为619.58，第2例性别女，年龄24岁，概率权重为619.58，她们同属于“女，年龄20～”组，把她们的概率权重相加得到1239.16。继续再在样本中搜寻其他凡属于“女，年龄20～”组的人，把她们的概率权重在1239.16的基础上依次累加，最后得到146573.40，即为该组的SUMZ。其他各组仿此。结果见表3。
, 百拇医药
    3.1.4 计算校正系数C 例如15岁～男性组的STD=12764，其SUMZ=117006.26，则该组校正系数C=12764/117006.26=0.109088。各组结果见表4。

    3.1.5 按w_i=z_i×C计算W_i 例如第一例年龄23岁，性别女，她所属年龄性别组的校正系数为0.095 810，她的概率权重为z_i=619.58，故w₁=0.095 810×619.58=59.3 620。第二例年龄24岁，性别女，其所属年龄性别组及居委会与第一例相同，故W₂也等于5.362 0。照此方法计算这15例的W_i，得到结果如表5。表3 样本各组概率权重加总数据(SUMZ) 年龄

    (岁)

    男
, 百拇医药
    女

    年龄

    (岁)

    男

    女

    15～

    117 006.26

    146 573.40

    45～

    221 786.05

    252 455.70

    20～

    136 251.07
, 百拇医药
    155 996.61

    50～

    159 755.50

    175 102.12

    25～

    314 861.48

    370 862.25

    55～

    170 011.95

    171 283.16

    30～

    353 208.23
, 百拇医药
    421 844.96

    60～

    133 762.07

    103 114.22

    35～

    338 264.42

    437 553.00

    65～

    76 806.56

    67 438.97

    40～

    368 775.17
, http://www.100md.com
    400 431.17

    表4 各组校正系数C 年龄

    (岁)

    男

    女

    年龄

    (岁)

    男

    女

    15～

    0.109 088

    0.086 947

    45～
, http://www.100md.com
    0.031 490

    0.027 828

    20～

    0.110 533

    0.095 810

    50～

    0.073 229

    0.032 656

    25～

    0.046 608

    0.037 340

    55～
, http://www.100md.com
    0.028 798

    0.025 653

    30～

    0.037 073

    0.029 825

    60～

    0.023 833

    0.037 037

    35～

    0.035 758

    0.028 724

    65～
, 百拇医药
    0.033 384

    0.047 628

    40～

    0.022 548

    0.021 110

    从这15例的W_i来看，样本中20～25岁性所占比例比目标人群中的相应比例小，而40～45岁者占的比例相对较大。注意，真正的结论必须考虑全样本才能得出，此处只是示例。表5 样本中前15人的权重系数 (W₁) 序号

    年龄

    (岁)

    性别

    NPOP
, http://www.100md.com
    w_i

    序号

    年龄

    (岁)

    性别

    NPOP

    w_i

    1

    23

    女

    1 392

    59.362 0

    9
, 百拇医药
    37

    女

    1 392

    17.796 8

    2

    24

    女

    1 392

    59.362 0

    10

    38

    男

    1 392
, 百拇医药
    22.155 2

    3

    23

    男

    1 392

    68.483 9

    11

    37

    男

    1 392

    22.155 2

    4

    25
, 百拇医药
    男

    1 392

    28.877 2

    12

    37

    男

    1 392

    22.155 2

    5

    33

    女

    1 392

    18.478 9
, 百拇医药
    13

    40

    女

    1 392

    13.079 3

    6

    33

    女

    1 392

    18.478 9

    14

    41

    男
, 百拇医药
    1 392

    13.970 2

    7

    33

    男

    1 392

    22.969 5

    15

    46

    女

    1 392

    17.241 4

    8
, http://www.100md.com
    37

    女

    1 392

    17.796 8

    表6 某地区城乡失业人口数后分层权重计算tHT数据序号

    后分层

    失业人

    数(x_i)

    z_i

    校正

    系数

    后分层
, 百拇医药
    权重⁽¹⁾

    (w_i)

    x_i^。w_i

    1

    1

    4 123

    4

    0.583 3

    2.333 3

    9 620.195 9

    2

    1
, http://www.100md.com
    760

    4

    0.583 3

    2.333 3

    1 773.308 0

    3

    1

    721

    4

    0.583 3

    2.333 3

    1 682.309 3

    4
, 百拇医药
    2

    142

    4

    1.250 0

    5.000 0

    710.000 0

    5

    2

    187

    4

    1.250 0

    5.000 0

    935.000 0
, 百拇医药
    6

    2

    331

    4

    1.250 0

    5.000 0

    1 655.000 0

    7

    2

    127

    4

    1.250 0

    5.000 0
, http://www.100md.com
    635.000 0

    8

    2

    219

    4

    1.250 0

    5.000 0

    1 095.000 0

    合计

    18105.8132

    注：(1)由于是SRS样本，故w_i与概率权重相等，但在非SRS样本则不一定相等

    3.2 例2
, http://www.100md.com
    利用后分层权重计算Horvitz-Thompson估计量tHT改善无偏性的例子^[4]。某地区由32个行政单位构成，7个城市25个农村。从中依SRS法抽出了8个单位，其中前3个是城市，后5个是农村。调查各单位的失业人数，数据依次为：2123、760、721、142、187、331、127和219。欲估计该地区失业人数，由于是SRS样本，每个单位被抽中概率都为0.25，故每个单位的概率权重都为4。依此计算得tHT=4×4123+4×760+…+4×219=26440。由于此例是SRS样本，此处的tHT也就是一般样本总和。考虑到城市的人口数、失业人数都比农村的多，故依城市、农村作后分层，城市为第1层，农村为第2层，利用后分层权重计算Horvitz-Thompson估计量tHT，计算过程见表6。

    第1层的校正系数为7/12=0.5833，其中7为该层实际含的单位数，而12为依概率权重估计的层内单位数。同理得第2层的校正系数为25/20=1.25。表中合计18106即为估计量。该地区实际失业总人数为15098，可见利用后分层权重计算的估计值更接近真值。
, http://www.100md.com
    为什么会出现上述结果呢?因为按SRS抽样，抽到城市的概率应为8/32=0.25，这样，大致应抽到7×0.25=1.752个城市；同理，大致应抽到6个农村。由于城市人口及失业人口都较多，若抽到较多的城市，将导致对总失业人口的高估。相对于期望城市农村构成，本例恰好多抽了1个城市而少抽了1个农村，因而高估了总失业人口。利用后分层权重，在计算Horvitz-Thompson估计量时，部分地消减了这种因抽样时的随机波动造成的偏差。

    基金项目：世界银行贷款项目

    作者简介：薛禾生，男，博士，副研究员

    参考文献

    1，科克伦.抽样技术.张尧庭，等译.北京：中国统计出版社，1985，383

    2，薛禾生，数据分析方法。见：杨功焕主编.行为危险因素监测——方法与应用.北京：北京医科大学中国协和医科大学联合出版社，1998,54—84

    3，Lee ES, Forthofer RN, Lorimer RJ. Analyzing complex survey data. Newbury Park:Sage Publications,1989

    4，Lehtonen R, Pahkinen EJ. Practical methods for design and analysis of complex surveys. Chishester:John Wiley & Sons,1995：96

    (1999-06-18收稿), 百拇医药

百拇医药网 http://www.100md.com/html/analecta/2003/08/28/60/786.htm