当前位置: 首页 > 期刊 > 《数理医药学杂志》 > 2000年第1期
编号:10284587
随机化临床试验的期中分析名义检验水准及样本含量
http://www.100md.com 《数理医药学杂志》 2000年第1期
     作者:武俊青 高尔生 郭静 汤旦林

    单位:武俊青(上海市计划生育科学研究所 上海200032); 高尔生(上海市计划生育科学研究所 上海200032); 郭静(上海市计划生育科学研究所 上海200032 山西医科大学卫生统计教研室); 汤旦林(上海市计划生育科学研究所 上海200032 中日友好医院)

    关键词:序贯设计;成组序贯设计;名义检验水准;样本含量

    数理医药学杂志000117

    摘 要:介绍了在临床试验中固定设计、序贯设计及成组序贯设计的检验水准、名义检验水准、样本含量、最大样本含量及备择假设H1成立时试验结束时的平均样本含量。

    中图分类号:O 212.2

, 百拇医药     文章编号:1004-4337(2000)01-0033-03▲

    1 序贯设计、成组序贯设计与固定名义检验水准

    1975年,英国统计学专家P.Armitage系统地描述了临床试验中不同类型的序贯设计(包括开放型与闭锁性)[1]。该试验是基于对每一受试对象进入临床试验后的“累计数据”的分析和“组间差异具有显著性时立即停止试验”的原则。其主要优点是符合病人序贯进入临床试验。其缺点是:①对累计数据进行无规则的不断监测和不断分析在一些临床试验中是不可行的。因为临床试验的组织者不可能每进行一例受试对象的统计分析,就进行一次“实验进展的决策会”;②开放连续性序贯设计在H1假设为真时,只具有最小的样本含量估计而不具有最大样本含量估计数。为克服序贯设计之弊病,1977年Pocock教授提出了成组序贯设计[1,2〗,即在随机化临床试验中,当一组病人被随机分配到实验组与对照组后,需观察病人的受试效应指标若干时间,有时需长达几年。因此需要对积累数据不断进行有计划的统计学及临床学分析。一般而言,当病人进入或被跟踪研究时,数据的检测、有计划的阶段性期中分析(如每隔几周和几个月)及其期中分析结果的解释是在同步进行,旨在发现临床疗效差异,并有足够的把握停止该临床试验。在进行期中分析(Interim Analysis)时,若采用α=0.05或α=0.01进行重复显著性检验,则增加了第一类错误,即如果H1为真时,拒绝了H1假设。而且,重复显著性检验次数越多时,总α错误概率越大[5]。因此,Pocock教授提出了固定名义检验水准(Fixed Norminal Singnifcant Level)判定期中分析结果的显著性,从而保证总的α不变。在成组序贯设计中,尚需确定以下参数:期中分析的最大次数N;任何两两期中分析检验时,每组的样本含量(2n);最大样本含量(2nN);当H1为真时,试验结束时所需的平均样本含量(ASN,Average Sample Number)。
, 百拇医药
    根据数值积分法计算出α=0.05,1-β=0.95,n=1,2,3,4,5,10,20及∞时的固定名义检验水准α′(i)、N、2n、2nN及ASN(见表1)。

    表1 成组序贯设计的固定名义检验水准α及样本含量 最大期中分

    析次数 N

    名义检验

    水准 α

    每组样本

    含量 2n*

    最大样本

    含量 2nN*

, http://www.100md.com     试验结束

    时平均样

    本 ASN*

    1

    0.05

    51.98

    52.0

    52.0

    2

    0.0294

    28.39

    56.8

    37.2
, 百拇医药
    3

    0.0221

    19.73

    59.2

    33.7

    4

    0.0182

    15.19

    60.8

    32.2

    5

    0.0158

    12.38
, 百拇医药
    61.9

    31.3

    10

    0.0106

    6.50

    65.0

    29.8

    20

    0.0075

    3.38

    67.6

    29.5

    注:* 该数值乘以σ/δ
, 百拇医药
    表1显示的各种样本含量估计是小数值。在实际临床试验中,小数可被忽略,或者可对允许误差进行调节,而保持N、α、β值不变,而使样本含量变为整数。由表1可见,随着期中分析次数N的增加,每次期中分析各组所需的样本含量2n减少,最大样本含量2nN增加,而且备择假设为真时,ASN在随之减少。对于任何的α、β及δ/σ比值,情形也是如此。

    表1还体现了成组序贯设计的另一个重要特征,即与传统的固定一次期终分析(即N=1)相比较,当备择假设为真时,应用2次以上的期中分析(N≥2)时,可以大幅度地减少ASN,即两处理确实存在显著性差异时,可使试验较早停止,符合医学伦理准则。但是,当N≥5时,ASN虽较N=4减少,但减少的幅度较小。因此,作者建议采用N=2~4次期中分析。

    对于处理组为k的连续性序贯设计,要求k个条件相似的病人同时进入(或时间间隔很小)临床试验,随机分配到A、B…K处理组中。P.Armitage分析了α=0.05,β=0.05,备择假设为:δ=0.3(2)1/2σ时的固定设计、序贯设计及成组序贯设计时的最大病人数及H1为真时的平均病人数(见表2)。
, 百拇医药
    表2 固定设计、序贯设计及成组序贯设计的

    最大样本数及平均样本含量

    最大样本

    含量2nN

    试验结束时平均

    样本含量ASN

    固定设计

    289

    289

    序贯设计

    开放型设计

    ∞
, 百拇医药
    148

    闭锁性设计

    396

    162

    计划重复检验设计

    400

    170

    成组序贯设计

    N=2

    N=3

    316

    207

    N=5
, 百拇医药
    329

    187

    N=10

    344

    174

    N=20

    361

    166

    376

    164

    由表2可见,若备择假设为真时,与固定设计相比,当减少期望样本含量时序贯设计与组成序贯设计增加了最大的样本含量。众所周知,开放序贯设计在H1假设下具有最小ASN,但是由于开放性序贯设计不具有有限的最大样本含量数,而被认为该设计在临床实践中是不可行的。且开放性试验在每一对受试对象进入临床试验后,均需做统计学检验,在α=0.05的名义检验水准上,需做多次重复检验。和固定设计相比,序贯设计与成组序贯设计在备择假设下均可下降40%多的ASN,但同时增加了35%多的最大样本含量。连续性序贯设计(Continuous Sequential Design, CSD)的主要问题是:“连续性”时间间隔的长短及实验者“措施采取”的快慢速度。例如,以表2中所述的连续性序贯设计重复检验具有的最大样本含量数400。若假设:实验委员会每6个月开一次“实验进展研讨会”,则收集400例病人需2年左右。从委员会决策到措施的实施需要3个月。因此,在备择假设下,ASN平均样本含量将高于表2的170例。因此,若在“实验进展研讨会”后可立即采取措施,序贯设计是可取的,否则,成组序贯设计的期中分析较序贯设计的连续性检验更为可取。以5组成组序贯设计为例,ASN较固定设计降低了40%之多,而试验的最大样本含量仅增加了19%。当取不同的α、β、δ时,也可得出同样的结论。因此成组序贯设计是优于序贯设计的。
, http://www.100md.com
    2 变更名义检验水准值

    对于大多数的临床试验,对于不同的期中分析次数N,对于不同次数的期中分析(I)采用变更的检验水准,是否较采用固定名义检验水准更具有统计优势呢?还是以两个处理组效应比较的5次期中分析为例:假设资料服从正态分布,方差已知。总的检验水准α=0.05,H1AB=δ,把握度为1-β。在H1成立的条件下,对于任何选择的1-β,5次期中分析具有不同的名义检验水准,其ASN=174,较表1中的固定名义检验水准(α=0.0158)的ASN要小(N=31.3×σ22)。制订变更名义检验水准的原则是:保证总α=0.05,为了保证H1成立下的相等的1-β,需要改变其样本含量。事实上,利用数值积分迭代最小方法,可以决定最优的5次期中分析名义检验水准,即:在H1成立的条件下,根据N、β及σ/δ计算出最小的ASN。表3列出了N=5,α=0.05,1-β=0.5,1-β=0.75,1-β=0.9及1-β=0.95时的最佳结果(适应于任何的δ/σ)。
, 百拇医药
    表3 当期中分析次数N=5时不同把握度下的样本含量 把握度

    1-β

    期中分

    析次序i

    名义检

    验水准α

    U

    每组样

    本含量

    2n*

    最大样

    本数

, 百拇医药     2nN*

    平均样

    本含量

    ASN*

    0.50

    1

    0.0002

    3.663

    3.18

    15.9

    14.4

    2

    0.004
, 百拇医药
    2.884

    3

    0.010

    2.573

    4

    0.018

    2.375

    5

    0.042

    2.037

    0.75

    1

    0.003
, 百拇医药
    2.988

    6.05

    30.3

    22.6

    2

    0.011

    2.537

    3

    0.016

    2.407

    4

    0.019

    2.346
, http://www.100md.com
    5

    0.031

    2.156

    0.90

    1

    0.010

    2.598

    9.70

    48.5

    28.6

    2

    0.017

    2.390
, 百拇医药
    3

    0.017

    2.390

    4

    0.017

    2.390

    5

    0.021

    2.310

    0.95

    1

    0.015

    2.446
, 百拇医药
    12.30

    61.5

    31.3

    2

    0.016

    2.404

    3

    0.016

    2.404

    4

    0.016

    2.404

    5
, http://www.100md.com
    0.0165

    2.396

    注:* 应乘以σ/δ

    从表3可见,当β=0.50时,5次期中分析的名义检验水准值一次比一次显著增加,且ASN相应减少约11%。第1次期中分析的检验水准α′(1)=0.0002,第5次期中分析检验水准α′(51)=0.0042,很接近于总的检验水准α=0.05。而对于β=0.75,情形也是如此:α′(1)=0.003,α′(5)=0.0031,α′(i)间的变异较β=0.5时较小,而且ASN相应减少也占3%左右。然而对于较小的β错误设计而言,如1-β=0.95,ASN降低约1%,α′(i)间的变异也较小。可见1-β越小,α′(i)间的变异越大;1-β越大,α′(i)间的变异越小。
, 百拇医药
    采用固定的名义检验水准进行重复检验时,最常见的错误是:当最后一次检验P小于总α值、大于该次名义检验α′(i)值时,常得出的错误结论是“组间差异有显著性”,该结论过分夸张了效应的差别。由于这种固定检验水准的弊病,O′Brien和Fleming在1979年提出了期中分析时的变更名义检验水准[3]。他们提出了标准正态离差U应和1/(I)1/2成正比,在试验的早期,α′(i)较总α值要小得多,以后随着期中分析的次序增加,α′(i)名义检验水准逐渐增加,且保证最后一次的名义检验水准α′(i)和总α数值相近。以后又有PETO博士建议:当I(i)=0.0001,作为停止临床试验的界值,以利于α′N=α。这些界值不仅适用于计数资料,也适用于计量资料。表4给出了当N=5、1-β=0.05、0.75、0.90及0.95时的名义检验水准α′(i)、名义正态离差u′(i)、每组样本含量2n、ASN及与固定名义检验水准α′(i)=0.0158相比较时的变化幅度。
, 百拇医药
    表4 在不同把握度下α=0.05时α、u、2n、ASN及变化率 方法

    α

    u

    1-β

    每组

    样本含

    量2n*

    ASN*

    和固定检

    验水准比

    较化%

    O’BRIEN
, 百拇医药
    0.00001

    4.562

    0.50

    3.17

    14.33

    -10

    0.0013

    3.226

    0.75

    5.71

    23.39

    -0.3

    0.0084
, http://www.100md.com
    2.634

    0.90

    8.63

    31.53

    +10

    0.0025

    2.281

    0.95

    10.66

    36.19

    +16

    0.041

    2.040
, http://www.100md.com
    PETO

    0.001

    3.305

    0.50

    3.09

    14.95

    -6

    0.001

    3.305

    0.75

    5.58

    25.65

    +9
, http://www.100md.com
    0.001

    3.305

    0.90

    8.44

    35.71

    +24

    0.001

    3.305

    0.95

    10.43

    41.23

    +32

    0.049
, 百拇医药
    1.969

    注:* 乘以σ/δ

    与固定名义检验水准相比,O’Brien和Fleming的名义检验水准界值有以下的优点:即能以较小的把握度发现组间效应差别。例如:当H1为真时,当β=0.05时,ASN减少了10%。因此,当取较大把握度时,且又有条件做足够样本含量的临床试验时可以采用固定名义检验水准。若没有足够的人力、物力及财力,不可能做较大样本的临床试验,且两组间效应差别被检出的可能性也较小时(即较小的1-β),则可取O’Brien和Fleming界值。由于PETO界值规定:i
    3 讨论

    毫无疑问,一个理想的临床试验是:研究具有正态性且已知方差的两组间某个效应指标的比较,且该指标变化可以很快被分析检测出来,并不受其它协变量的影响。准确稳定的试验病人数、具有相等时间间隔的期中分析计划也是临床试验所必需的。每次期中分析结束后,可据其统计学及临床显著性意义立即决定试验是否停止,并采取“临床”决策措施,得出该试验的结论。在连续的几次期中分析时,若不改变临床试验停止的名义检验水准,则需要较大的样本含量以满足统计学及临床学科的条件要求。无论是在期中分析,还是期终分析,若均以0.05为界值时结论是不可信的。
, 百拇医药
    名义检验水准对很多资料类型是适宜的,如可用于t检验、非连续性校正的卡方检验、指数检验及非参数检验。该水准还适用于由协变量进行较正后的效应比较,而且很少受到不同期中分析次序的病人数变化的影响。■

    参考文献:

    [1] Pocock,SJ.Group sequential methods in the design and analysis of clinical trials. Biometrika 1977,64:191.

    [2] Pocock SJ.Interim analyses for randomized clinical trials: the group sequential approac. Biometrics 1982,38:16.3.

    [3] O’Brien PC and Fleming TR. A multiple testing procedure for clinical trials. Biometrics 1979,35:549.

    [4] Armitage, P McPherson K and Rowe BC. Repeated significance tests on accumulating data. Journal of the Royal Statistical Society, Series A 132:235.

    [5] 武俊青,杨雨田.两组计量资料的期中分析在临床实验中的应用.中国公共卫生杂志,1997,13(2):113.

    收稿日期:1999-04-22, 百拇医药