“病证结合”多主要终点评价法在中医药临床研究中的应用(2)
3 多主要终点评价法的介绍
3.1 检验水准校正法
检验水准校正法(Alpha-adjustment Procedures)是对多主要终点中每个终点的检验水准进行调整的一类方法[10],包括Bonferroni校正、Simes检验、Hochberg法等,其中Bonferroni法是最为经典也是最简单的方法[11],其公式为a*=a/K(K为终点个数)。Hochberg法的原理是先将各个终点检验的P(i)值进行排序,P(i)(K)≥P(K-1)≥…≥P(1)(K为终点个数),对应的检验水准a(i)分别为a,a/2,…a/k,随后按P(i)值由大到小的顺序逐步检验,直到出现第一个P(i)
检验水准校正法优势:1)可以对单个终点的疗效进行分析,控制试验总Ⅰ类错误率(Family-wise TypeⅠError Rate,FWER)膨胀。2)当干预措施对一个结局指标效应较强时具有较高统计检验效能[12]。
, 百拇医药
检验水准校正法不足:1)无法对多个终点疗效进行整体评价,另外当多终点间结果不一甚至相反时,无法得出确切结论[13]。2)当多终点间相关程度较高时结论过于保守。
3.2 多变量检验
多变量检验(Multivariate Test)是对多个终点的联合分布进行一次假设检验,对组间差别进行推断的方法。包括Hotelling′s T2检验、针对多组比较的多变量方差分析(MANOVA)等[14]。多变量检验的计算比较繁琐,但用SPSS或SAS软件计算则非常简单。在大多数情况下,多變量检验结论与对K个多终点进行K次单变量假设检验的结论是一致的,即多变量假设检验拒绝H0,K次单变量假设检验至少有一次拒绝H0。但单变量假设检验不能代替多变量假设检验,主要理由:1)K次单变量假设检验增加假阳性错误的概率。2)单变量假设检验只说明某一变量在数轴分布上的组间差别,不能反映多个变量在平面或空间上的差别。有可能会出现K个多终点在进行单变量假设检验时均无统计学意义,但多变量假设检验却检验出有差异。
, 百拇医药
多变量检验优势:1)避免多次单变量检验增加假阳性错误的概率;2)在校正过程中充分考虑了多终点间的相关结构。
多变量检验不足:1)缺乏对多个终点疗效整体评价的结果;2)对多终点联合概率分布的数学假设前提要求较高[15]。
3.3 多层统计分析模型
多层统计分析模型(Hierarchical Model)是同时对多个终点进行分析,包括多元混合效应模型、潜变量模型、贝叶斯模型等[16]。多层统计分析模型利用添加一个虚拟1水平进行分析,将几个终点作为1水平上的观察单位,将受试者作为2水平单位。HLM和MLwin是专门用于多层模型的分析软件。SAS软件的PROC MIXED程序也广泛地应用于连续型结局变量的多层模型分析,PROC GLIMMIX和PROC NLMIXED程序可用于分类结局变量和计数数据的多层模型分析。
多水平模型优势:1)能将不同类型的数据联合进行分析,包括连续变量和分类变量;2)考虑了多终点间相关性,同时可以有效处理缺失数据[17]。
, 百拇医药
多水平模型不足:1)无法证实模型所采用假设的准确性,尤其是关于多终点间相互关系的假设;2)潜变量或超参数等含义不易被临床医生所理解。
3.4 综合评价法
综合评价(Comprehensive Evaluation Method)是对一个复杂系统多个指标进行总评价的特殊方法。目前已经逐渐应用于中医药临床研究中,例如层次分析法[18]和TOPSIS法[19]等。综合评价法的实施过程类似,包括筛选评价指标、根据指标重要性赋予权重、采用相应方法建立综合评价模型并进行指标合并等。
综合评价法的优势:1)可以将西医常规指标、中医证候、患者报告结局等多个指标组合成一个综合指标进行分析,对综合指标进行检验,适应中医疗效多维度的特点;2)统计检验效能较高。
综合评价法的不足:1)指标权重的确定或过于依赖主观判断,或把指标重要性同等化,造成权重系数不合理,导致最终结果的不确定性[20];2)目前综合评价法虽多,但没有完美的方法,多方法间结论存在较大差异[21];3)对综合评价指标的解释存在一定困难。
, http://www.100md.com
3.5 全局检验法
全局检验法(Global Statistical Test,GST)是将多个终点综合为一个检验统计量进行分析的方法[22]。在GST中,O′Brien法是各方学者较为认可、应用较为广泛的一种方法[23],可采用一般最小二乘法、广义最小二乘法、非参数法进行分析。其中非参数法可以针对非正态分布的多终点,适用范围较广。全局治疗效应(Global Treatment Effect,GTE)是GST中定量反映试验组间疗效差异的指标[22]。GTE的数值固定,不随终点测量方法的改变而变化,取值范围为“-1~1”,“0”代表试验组和对照组间疗效无差异,“1”代表试验组完全优于对照组,“-1”代表对照组完全优于试验组。GTE可作为结局指标的效应值,采用Splus软件进行样本含量的估算。
全局检验法的优势:1)可以检验多个终点的全局治疗效应,将GST应用于中医药RCTs最大的优势是可以凸显中医药的整体治疗优势;2)在分析时充分考虑多终点间的相关结构;3)当多终点间结果不一致甚至相反时更利于结果的解释。
全局检验法的不足:只能发现试验组间整体疗效是否有差异,无法对单个终点的疗效得出结论[24]。
针对多主要终点指标的样本量计算问题,有学者建议在样本量计算时可对每个主要终点分别计算,然后取最大值作为临床试验所需的样本量[25]。Sozu等探讨了用SAS软件对同时包含连续变量和二分类变量的多主要终点进行样本含量估计[26]。杨卫娇对多终点指标的两阶段适应性设计的样本量再估计进行了探讨[27]。, 百拇医药(胡晶 刘卫红 张会娜)
3.1 检验水准校正法
检验水准校正法(Alpha-adjustment Procedures)是对多主要终点中每个终点的检验水准进行调整的一类方法[10],包括Bonferroni校正、Simes检验、Hochberg法等,其中Bonferroni法是最为经典也是最简单的方法[11],其公式为a*=a/K(K为终点个数)。Hochberg法的原理是先将各个终点检验的P(i)值进行排序,P(i)(K)≥P(K-1)≥…≥P(1)(K为终点个数),对应的检验水准a(i)分别为a,a/2,…a/k,随后按P(i)值由大到小的顺序逐步检验,直到出现第一个P(i)
检验水准校正法优势:1)可以对单个终点的疗效进行分析,控制试验总Ⅰ类错误率(Family-wise TypeⅠError Rate,FWER)膨胀。2)当干预措施对一个结局指标效应较强时具有较高统计检验效能[12]。
, 百拇医药
检验水准校正法不足:1)无法对多个终点疗效进行整体评价,另外当多终点间结果不一甚至相反时,无法得出确切结论[13]。2)当多终点间相关程度较高时结论过于保守。
3.2 多变量检验
多变量检验(Multivariate Test)是对多个终点的联合分布进行一次假设检验,对组间差别进行推断的方法。包括Hotelling′s T2检验、针对多组比较的多变量方差分析(MANOVA)等[14]。多变量检验的计算比较繁琐,但用SPSS或SAS软件计算则非常简单。在大多数情况下,多變量检验结论与对K个多终点进行K次单变量假设检验的结论是一致的,即多变量假设检验拒绝H0,K次单变量假设检验至少有一次拒绝H0。但单变量假设检验不能代替多变量假设检验,主要理由:1)K次单变量假设检验增加假阳性错误的概率。2)单变量假设检验只说明某一变量在数轴分布上的组间差别,不能反映多个变量在平面或空间上的差别。有可能会出现K个多终点在进行单变量假设检验时均无统计学意义,但多变量假设检验却检验出有差异。
, 百拇医药
多变量检验优势:1)避免多次单变量检验增加假阳性错误的概率;2)在校正过程中充分考虑了多终点间的相关结构。
多变量检验不足:1)缺乏对多个终点疗效整体评价的结果;2)对多终点联合概率分布的数学假设前提要求较高[15]。
3.3 多层统计分析模型
多层统计分析模型(Hierarchical Model)是同时对多个终点进行分析,包括多元混合效应模型、潜变量模型、贝叶斯模型等[16]。多层统计分析模型利用添加一个虚拟1水平进行分析,将几个终点作为1水平上的观察单位,将受试者作为2水平单位。HLM和MLwin是专门用于多层模型的分析软件。SAS软件的PROC MIXED程序也广泛地应用于连续型结局变量的多层模型分析,PROC GLIMMIX和PROC NLMIXED程序可用于分类结局变量和计数数据的多层模型分析。
多水平模型优势:1)能将不同类型的数据联合进行分析,包括连续变量和分类变量;2)考虑了多终点间相关性,同时可以有效处理缺失数据[17]。
, 百拇医药
多水平模型不足:1)无法证实模型所采用假设的准确性,尤其是关于多终点间相互关系的假设;2)潜变量或超参数等含义不易被临床医生所理解。
3.4 综合评价法
综合评价(Comprehensive Evaluation Method)是对一个复杂系统多个指标进行总评价的特殊方法。目前已经逐渐应用于中医药临床研究中,例如层次分析法[18]和TOPSIS法[19]等。综合评价法的实施过程类似,包括筛选评价指标、根据指标重要性赋予权重、采用相应方法建立综合评价模型并进行指标合并等。
综合评价法的优势:1)可以将西医常规指标、中医证候、患者报告结局等多个指标组合成一个综合指标进行分析,对综合指标进行检验,适应中医疗效多维度的特点;2)统计检验效能较高。
综合评价法的不足:1)指标权重的确定或过于依赖主观判断,或把指标重要性同等化,造成权重系数不合理,导致最终结果的不确定性[20];2)目前综合评价法虽多,但没有完美的方法,多方法间结论存在较大差异[21];3)对综合评价指标的解释存在一定困难。
, http://www.100md.com
3.5 全局检验法
全局检验法(Global Statistical Test,GST)是将多个终点综合为一个检验统计量进行分析的方法[22]。在GST中,O′Brien法是各方学者较为认可、应用较为广泛的一种方法[23],可采用一般最小二乘法、广义最小二乘法、非参数法进行分析。其中非参数法可以针对非正态分布的多终点,适用范围较广。全局治疗效应(Global Treatment Effect,GTE)是GST中定量反映试验组间疗效差异的指标[22]。GTE的数值固定,不随终点测量方法的改变而变化,取值范围为“-1~1”,“0”代表试验组和对照组间疗效无差异,“1”代表试验组完全优于对照组,“-1”代表对照组完全优于试验组。GTE可作为结局指标的效应值,采用Splus软件进行样本含量的估算。
全局检验法的优势:1)可以检验多个终点的全局治疗效应,将GST应用于中医药RCTs最大的优势是可以凸显中医药的整体治疗优势;2)在分析时充分考虑多终点间的相关结构;3)当多终点间结果不一致甚至相反时更利于结果的解释。
全局检验法的不足:只能发现试验组间整体疗效是否有差异,无法对单个终点的疗效得出结论[24]。
针对多主要终点指标的样本量计算问题,有学者建议在样本量计算时可对每个主要终点分别计算,然后取最大值作为临床试验所需的样本量[25]。Sozu等探讨了用SAS软件对同时包含连续变量和二分类变量的多主要终点进行样本含量估计[26]。杨卫娇对多终点指标的两阶段适应性设计的样本量再估计进行了探讨[27]。, 百拇医药(胡晶 刘卫红 张会娜)