临床治疗性研究的评价标准
作者:《实用医学杂志》编辑部
单位:510080 广州市,《实用医学杂志》编辑部
关键词:
实用医学杂志000804 临床治疗性研究是临床科研的主要内容之一。在临床医生所撰写的论文和所申报的科研课题中,有关治疗性研究占很大比例。近几年来,随着循证医学概念的引入和推广,临床医生开始对科研方法学越来越重视,越来越多的临床医学开始注意利用科学的方法来开展临床科研。但目前在我国,医学期刊所报道的有关临床治疗性研究论文在总体上还存在着许多不足或缺陷,许多临床医生对临床医学科研方法掌握得还不够,在开展临床科研、撰写论文时,还存在不少问题。部分医学期刊的审稿人在评审论文质量时,尚缺乏对论文中科研设计方法学的把关。早在1981年,加拿大McMaster大学就简要地提出了对医学文献的8条评价原则[1],这些原则已被国外许多著名医学杂志作为内部的方法学审稿标准。我们在综合有关文献的基础上,从不同侧面探讨如何对临床治疗性研究论文进行评审,供广大临床医生在开展临床研究、撰写临床论文,以及医学期刊审稿人在评审稿件时参考。
, http://www.100md.com
1 研究对象是否真正地随机地分配到试验组和对照组
在临床疗效研究的各种方案中,随机对照试验(RCT)最具说服力,论证强度最高,其结果最具有重复性和合理性。采用RCT方案时,对预后有重要影响的因素最好采取分层随机的方法。如果研究的设计方案不是RCT,则要看它的对照组是如何选择的,对照组与试验组可比性如何。一般来说,非随机对照试验和历史对照研究因其组间变异较大,难以保证组间均衡可比,易产生各种偏倚,有时甚至得出错误的结论。所以,在评价长期有争议的治疗措施时,一般不采用这两种设计方案。如果在研究设计时,采用限制配对的方法来选择和分配研究对象,在资料分析时,采用分层和标准化方法来保证试验和对照组间均衡可比,尽量消除各种偏倚,经过如此处理后非随机同期对照试验结论的正确性可能会有所提高。叙述性研究的应用限于对那些公认的预后极差,不治疗必死无疑的疾病的研究。目前,国内医学期刊所刊登的大量叙述性研究因没有对照,所以其论证强度最低,只能说明此疗法有效与否,不宜作疗效的比较。
, 百拇医药
2 研究对象是否有严格的入选标准和排除标准
所有的研究对象是否都按同样的诊断方法得到确诊。如果诊断标准不一,或诊断不准确可靠,疗效的评定就无从谈起。除诊断正确外,研究对象要有一定的入选标准,一般老人、儿童、妊娠期妇女等特殊人群应除外(以这类特殊人群为研究对象者除外),以免因这些特殊人群的特殊生理病理因素对疗效产生影响。在考虑入选标准及排除标准的设定时,不宜过于严格,否则,研究所得出来的结论很难推广。
3 对照组设置是否合理
影响疾病愈后的因素主要有以下几个方面:(1)干预措施,其所引起的病情改善是临床研究所要考核的核心内容。研究者要确定干预措施本身对疾病的治疗作用,必须了解干预措施本身所引起的效应到底有多大。(2)疾病的自行缓解,临床医生要评价干预措施的治疗效果,往往是根据疾病的自然病程或病人的预后来评价的。然而目前许多疾病的自然病程还不能完全预料。不同的疾病有不同的病理发生期、临床分期特征及临床结局,既使同一种疾病在不同的病人中表现的类型、病程、严重程度、试验前的治疗、并发症和预后也不一样。例如,许多急性自限性疾病,如上呼吸道感染、急性胃肠炎、急性脑血管病,病人在症状明显时前来就诊,接受干预措施后病情的改善,很可能就是病情自行缓解的结果,而不是干预措施的效应。还有一些慢性迁延性疾病病程较长,病情常有起伏,可自行缓解和活动,如果给予干预措施之后,恰好赶上疾病病情的缓解期,那么所表现出来的病情好转也同样不是干预措施的作用效果。(3)霍桑效应(Hawthorne effect),是指某些病人因喜欢、迷信、讨好或厌恶医生或医院而产生正反两方面的影响。在观察比较某些新药的疗效时,如果不采用盲法,患者知道自己用的是新药,从而对新药能治好他的病产生极大的期望,医生平时给予他的关照可能也较多,医生在询问患者病情改善情况时,患者可能会因此而向医生报告好的结果,而实际上药物本身的疗效并没有那么好。(4)安慰剂效应,安慰剂是指与所考核药物在外形、颜色和气味方面相同但不含已知有效成分的制剂,常用的有淀粉及生理盐水注射液。研究表明,在病人信任的情况下给予安慰剂,可以使30%患者的一些严重不适的症状得到减轻。(5)其它,包括研究对象的选择,观察测量的指标和方法,以及受试者的失访率等。
, http://www.100md.com
对临床治疗性研究来讲,最终目的是要考查干预措施对疾病愈后的影响,对多数临床治疗性研究来说,如果不设对照组,最终所得到的疗效其实是诸多方面因素综合作用的结果,单纯地把这些效应全部归于干预措施,显然是十分不合理的。
在具体的临床工作中,有些预后极差、目前尚无有效治疗方法、医学界公认的难治之症,如爱滋病,对这类疾病开展疗效研究时,可不设对照。
4 是否如实地报告了全部临床有关结果
临床疗效研究论文要求作者如实报告临床有关结果,包括患者用药后的疗效,以及患病率、伤残率、生存质量等的改善。同时还应如实报道用药后的副反应,以及因各种原因引起的死亡数,以便读者全部地了解药物在临床应用后的实际情况。
目前,国内部分医学期刊论文的作者在报道结果时,为了突出个人研究成绩,自觉或不自觉地只报道正面结果,这不仅背离了临床治疗性研究的根本目的,也是职业道德所不允许的。特别是目前一些药厂资助的新药临床疗效研究,根本不报道无效的阴性结果,只公布自认为无访大局的轻微副作用。
, 百拇医药
5 报道的病例构成情况是否与临床实际相符,是否详细介绍了研究对象的情况
为了确保研究结果能被别人重复,临床疗效研究的作者要对试验组、对照组中疾病的类型、症状、体征、病情、年龄、性别等重要临床特征作详细说明。如果研究中所涉及到的病例情况与我们临床所见到的病例情况相似,我们就可以具体地验证干预疗法,并会取得一致的治疗效果,如果情况不符或相去甚远,则不宜借鉴使用,更不能在临床上推广。
6 样本量是否够大,能否代表研究的目标人群
不同的患者间不可避免地存在着个体差异,无论多么高明的随机抽样技术,都不可能使样本完全反映总体的全貌。所以,在临床科研中,抽样误差总是存在的。根据统计学原理,样本量越小,抽样误差越大,样本也就越不能代表总体。目前,国内医学期刊论文普遍存在样本量偏小的问题,这样,就很难得出正确的结论。关于样本量的估算,统计学专业书有详尽的计算公式。但这些繁杂的公式对临床医生来说,应用起来可能有一定难度。我们推荐临床医生可参照有关文献[2],通过简单的查表,来估算样本量,详见表1,表2。
, http://www.100md.com
表1 两组呈现差别的均数差/标准差与受试
例数的关系(α=0.05,Power=95%) 均数差/标准差
每组例数
均数差/标准差
每组例数
0.16
1 000
0.23
500
0.36
200
0.52
, http://www.100md.com
100
0.66
60
0.85
40
0.95
30
1.02
26
1.11
22
1.32
16
, http://www.100md.com
1.71
10
表2 两组百分率呈现差别的每组受试者例数 原法有效率
新法提高的改善率
5%
10%
15%
25%
50%
5%
701
220
115
, 百拇医药
52
19
10%
1128
324
160
67
21
25%
2075
542
251
95
, http://www.100md.com 24
50%
2589
641
280
98
75%
1086
410
160
90%
701
7 对病人流失情况是否有所说明,有多少病人得到了完整的随访,依从性如何
, 百拇医药
作者在分析结果时,对被剔除的、自动退出者、缺乏依从性者,以及治疗中发生过组间交叉者,是否作了恰当处理。病人的流失情况直接影响到研究结果的真实性。一般临床疗效研究要求流失的人群不超过观察总数的10%,如果流失人数过多,或不依从的人数过多,超过观察总人数的20%,则难以取得真实可靠的研究结果。对不依从或丢失、退出的病例,在分析资料时,均需纳入统计处理。将试验组的丢失病例全部作无效计算,对照组的丢失病例全部作有效计算,然后,再将两组结果进行比较。如果结果仍有显著意义,则可下肯定阳性结论,否则要进一步探讨。目前,国外对随机后不依从者,较流行采用intention to treat分析。
8 统计学的显著性和临床意义的重要性是否都进行了分析和处理
统计学的意义是说明试验组与对照组间疗效的差异,是因治疗措施不同所致,还是因抽样误差所致。P<0.05时,只说明因抽样误差引起的可能性小于5%,95%的可能是由于治疗措施的不同所致。但这种统计学上的差异并不能说明两组疗效差异的程度,更不能说明这种疗效差异有无临床意义,只能告诉我们这种差异存在的可能性小于5%。
, 百拇医药
临床意义主要是考察两组疗效差异的大小。两组疗效差异愈大,说明临床意义愈大。此外,临床意义还考虑药品的价格及副作用。
在对一项临床疗效研究的结果进行评价时,要将疗效的统计学意义和临床意义联系起来。有时两组间的疗效差异虽然没有统计学意义,但却有着临床实际意义。这种情况要考虑是否为样本不够,不足以显示统计学差异的显著性。但如果无限制地扩大样本,有时已经没有临床实际意义的细小差异也会达到统计学的显著性。
9 有无对干预措施进行实用性评价
研究者要详细介绍药物的剂量、剂型、用法、适应证、禁忌证、疗程、有无毒副作用,是否安全、无害、简便、易行,是否经济,能否为人群所接受。
10 统计学处理是否恰当
统计学处理方法的选择至关重要,不同的统计学处理方法有不同的适用条件,应用不当,就会误导出与客观事实相反的结论。目前,医学期刊普遍存在统计学问题。在报道阴性结果时,一定要报道power值,一般要求power值至少在0.75以上。
, 百拇医药
11 反映结果的变量能否反映疗效
选择结果变量时,一定要考虑本专业的医学理论基础知识,要符合疾病的病理生理规律,即所选指标一定能直接反应疗效。在确定指标时,最好是既敏感,又特异,且获取方便。
12 是否使用盲法
在临床科研中,盲法的使用近年来在国内越来越多,特别是新药临床试验或大规模多中心临床试验,基本要求三盲(即医生、患者、数据分析者均用盲法)。在一般临床治疗性研究中,应提倡尽量使用盲法。如果结果变量是一个满意的终点指标时,如病死率、致残率或实验室指标,这时不使用盲法对结果不会产生太大的偏倚。如果结果变量是一些软指标,如症状的改善,此时不采用盲法,对结果的影响就较大,至少应该在评价疗效时要采用盲法。目前,国内医学期刊论文中,尽管是RCT试验,采用盲法的并不多见。
13 评价临床意义的指标是否应用得当
, 百拇医药
评价临床意义的指标主要包括相对危险度(RR)、相对危险度减少(RRR)、绝对危险度减少(ARR)及需要治疗的病人数(NNT)。这几个指标目前在国外医学期刊中经常出现,国内部分多中心临床试验也开始采用,但多数临床医生及医学杂志的编辑对此并不十分了解。有关这几个指标的详细计算方法及其临床意义可参阅有关文献[3]。
14 是否述及混杂、偏倚、干扰和沾染等其它问题
15 参考文献
1,Department of clinical Epidemiology and Biostatistic,McMaster University. How to read clinical journal:V. to distinguish useful from useless or even harmfull therapy. Can Med Assoc J,1981,124(765):1156~1159.
2,李 强. 如何开展临床疗效研究. 中华医学写作杂志,1999,6(2):1~3.
3,李 强. 评价疗效结果的几个新指标. 世界华人消化杂志,1999,8(6):702~703.
(收稿日期:2000-06-25), http://www.100md.com
单位:510080 广州市,《实用医学杂志》编辑部
关键词:
实用医学杂志000804 临床治疗性研究是临床科研的主要内容之一。在临床医生所撰写的论文和所申报的科研课题中,有关治疗性研究占很大比例。近几年来,随着循证医学概念的引入和推广,临床医生开始对科研方法学越来越重视,越来越多的临床医学开始注意利用科学的方法来开展临床科研。但目前在我国,医学期刊所报道的有关临床治疗性研究论文在总体上还存在着许多不足或缺陷,许多临床医生对临床医学科研方法掌握得还不够,在开展临床科研、撰写论文时,还存在不少问题。部分医学期刊的审稿人在评审论文质量时,尚缺乏对论文中科研设计方法学的把关。早在1981年,加拿大McMaster大学就简要地提出了对医学文献的8条评价原则[1],这些原则已被国外许多著名医学杂志作为内部的方法学审稿标准。我们在综合有关文献的基础上,从不同侧面探讨如何对临床治疗性研究论文进行评审,供广大临床医生在开展临床研究、撰写临床论文,以及医学期刊审稿人在评审稿件时参考。
, http://www.100md.com
1 研究对象是否真正地随机地分配到试验组和对照组
在临床疗效研究的各种方案中,随机对照试验(RCT)最具说服力,论证强度最高,其结果最具有重复性和合理性。采用RCT方案时,对预后有重要影响的因素最好采取分层随机的方法。如果研究的设计方案不是RCT,则要看它的对照组是如何选择的,对照组与试验组可比性如何。一般来说,非随机对照试验和历史对照研究因其组间变异较大,难以保证组间均衡可比,易产生各种偏倚,有时甚至得出错误的结论。所以,在评价长期有争议的治疗措施时,一般不采用这两种设计方案。如果在研究设计时,采用限制配对的方法来选择和分配研究对象,在资料分析时,采用分层和标准化方法来保证试验和对照组间均衡可比,尽量消除各种偏倚,经过如此处理后非随机同期对照试验结论的正确性可能会有所提高。叙述性研究的应用限于对那些公认的预后极差,不治疗必死无疑的疾病的研究。目前,国内医学期刊所刊登的大量叙述性研究因没有对照,所以其论证强度最低,只能说明此疗法有效与否,不宜作疗效的比较。
, 百拇医药
2 研究对象是否有严格的入选标准和排除标准
所有的研究对象是否都按同样的诊断方法得到确诊。如果诊断标准不一,或诊断不准确可靠,疗效的评定就无从谈起。除诊断正确外,研究对象要有一定的入选标准,一般老人、儿童、妊娠期妇女等特殊人群应除外(以这类特殊人群为研究对象者除外),以免因这些特殊人群的特殊生理病理因素对疗效产生影响。在考虑入选标准及排除标准的设定时,不宜过于严格,否则,研究所得出来的结论很难推广。
3 对照组设置是否合理
影响疾病愈后的因素主要有以下几个方面:(1)干预措施,其所引起的病情改善是临床研究所要考核的核心内容。研究者要确定干预措施本身对疾病的治疗作用,必须了解干预措施本身所引起的效应到底有多大。(2)疾病的自行缓解,临床医生要评价干预措施的治疗效果,往往是根据疾病的自然病程或病人的预后来评价的。然而目前许多疾病的自然病程还不能完全预料。不同的疾病有不同的病理发生期、临床分期特征及临床结局,既使同一种疾病在不同的病人中表现的类型、病程、严重程度、试验前的治疗、并发症和预后也不一样。例如,许多急性自限性疾病,如上呼吸道感染、急性胃肠炎、急性脑血管病,病人在症状明显时前来就诊,接受干预措施后病情的改善,很可能就是病情自行缓解的结果,而不是干预措施的效应。还有一些慢性迁延性疾病病程较长,病情常有起伏,可自行缓解和活动,如果给予干预措施之后,恰好赶上疾病病情的缓解期,那么所表现出来的病情好转也同样不是干预措施的作用效果。(3)霍桑效应(Hawthorne effect),是指某些病人因喜欢、迷信、讨好或厌恶医生或医院而产生正反两方面的影响。在观察比较某些新药的疗效时,如果不采用盲法,患者知道自己用的是新药,从而对新药能治好他的病产生极大的期望,医生平时给予他的关照可能也较多,医生在询问患者病情改善情况时,患者可能会因此而向医生报告好的结果,而实际上药物本身的疗效并没有那么好。(4)安慰剂效应,安慰剂是指与所考核药物在外形、颜色和气味方面相同但不含已知有效成分的制剂,常用的有淀粉及生理盐水注射液。研究表明,在病人信任的情况下给予安慰剂,可以使30%患者的一些严重不适的症状得到减轻。(5)其它,包括研究对象的选择,观察测量的指标和方法,以及受试者的失访率等。
, http://www.100md.com
对临床治疗性研究来讲,最终目的是要考查干预措施对疾病愈后的影响,对多数临床治疗性研究来说,如果不设对照组,最终所得到的疗效其实是诸多方面因素综合作用的结果,单纯地把这些效应全部归于干预措施,显然是十分不合理的。
在具体的临床工作中,有些预后极差、目前尚无有效治疗方法、医学界公认的难治之症,如爱滋病,对这类疾病开展疗效研究时,可不设对照。
4 是否如实地报告了全部临床有关结果
临床疗效研究论文要求作者如实报告临床有关结果,包括患者用药后的疗效,以及患病率、伤残率、生存质量等的改善。同时还应如实报道用药后的副反应,以及因各种原因引起的死亡数,以便读者全部地了解药物在临床应用后的实际情况。
目前,国内部分医学期刊论文的作者在报道结果时,为了突出个人研究成绩,自觉或不自觉地只报道正面结果,这不仅背离了临床治疗性研究的根本目的,也是职业道德所不允许的。特别是目前一些药厂资助的新药临床疗效研究,根本不报道无效的阴性结果,只公布自认为无访大局的轻微副作用。
, 百拇医药
5 报道的病例构成情况是否与临床实际相符,是否详细介绍了研究对象的情况
为了确保研究结果能被别人重复,临床疗效研究的作者要对试验组、对照组中疾病的类型、症状、体征、病情、年龄、性别等重要临床特征作详细说明。如果研究中所涉及到的病例情况与我们临床所见到的病例情况相似,我们就可以具体地验证干预疗法,并会取得一致的治疗效果,如果情况不符或相去甚远,则不宜借鉴使用,更不能在临床上推广。
6 样本量是否够大,能否代表研究的目标人群
不同的患者间不可避免地存在着个体差异,无论多么高明的随机抽样技术,都不可能使样本完全反映总体的全貌。所以,在临床科研中,抽样误差总是存在的。根据统计学原理,样本量越小,抽样误差越大,样本也就越不能代表总体。目前,国内医学期刊论文普遍存在样本量偏小的问题,这样,就很难得出正确的结论。关于样本量的估算,统计学专业书有详尽的计算公式。但这些繁杂的公式对临床医生来说,应用起来可能有一定难度。我们推荐临床医生可参照有关文献[2],通过简单的查表,来估算样本量,详见表1,表2。
, http://www.100md.com
表1 两组呈现差别的均数差/标准差与受试
例数的关系(α=0.05,Power=95%) 均数差/标准差
每组例数
均数差/标准差
每组例数
0.16
1 000
0.23
500
0.36
200
0.52
, http://www.100md.com
100
0.66
60
0.85
40
0.95
30
1.02
26
1.11
22
1.32
16
, http://www.100md.com
1.71
10
表2 两组百分率呈现差别的每组受试者例数 原法有效率
新法提高的改善率
5%
10%
15%
25%
50%
5%
701
220
115
, 百拇医药
52
19
10%
1128
324
160
67
21
25%
2075
542
251
95
, http://www.100md.com 24
50%
2589
641
280
98
75%
1086
410
160
90%
701
7 对病人流失情况是否有所说明,有多少病人得到了完整的随访,依从性如何
, 百拇医药
作者在分析结果时,对被剔除的、自动退出者、缺乏依从性者,以及治疗中发生过组间交叉者,是否作了恰当处理。病人的流失情况直接影响到研究结果的真实性。一般临床疗效研究要求流失的人群不超过观察总数的10%,如果流失人数过多,或不依从的人数过多,超过观察总人数的20%,则难以取得真实可靠的研究结果。对不依从或丢失、退出的病例,在分析资料时,均需纳入统计处理。将试验组的丢失病例全部作无效计算,对照组的丢失病例全部作有效计算,然后,再将两组结果进行比较。如果结果仍有显著意义,则可下肯定阳性结论,否则要进一步探讨。目前,国外对随机后不依从者,较流行采用intention to treat分析。
8 统计学的显著性和临床意义的重要性是否都进行了分析和处理
统计学的意义是说明试验组与对照组间疗效的差异,是因治疗措施不同所致,还是因抽样误差所致。P<0.05时,只说明因抽样误差引起的可能性小于5%,95%的可能是由于治疗措施的不同所致。但这种统计学上的差异并不能说明两组疗效差异的程度,更不能说明这种疗效差异有无临床意义,只能告诉我们这种差异存在的可能性小于5%。
, 百拇医药
临床意义主要是考察两组疗效差异的大小。两组疗效差异愈大,说明临床意义愈大。此外,临床意义还考虑药品的价格及副作用。
在对一项临床疗效研究的结果进行评价时,要将疗效的统计学意义和临床意义联系起来。有时两组间的疗效差异虽然没有统计学意义,但却有着临床实际意义。这种情况要考虑是否为样本不够,不足以显示统计学差异的显著性。但如果无限制地扩大样本,有时已经没有临床实际意义的细小差异也会达到统计学的显著性。
9 有无对干预措施进行实用性评价
研究者要详细介绍药物的剂量、剂型、用法、适应证、禁忌证、疗程、有无毒副作用,是否安全、无害、简便、易行,是否经济,能否为人群所接受。
10 统计学处理是否恰当
统计学处理方法的选择至关重要,不同的统计学处理方法有不同的适用条件,应用不当,就会误导出与客观事实相反的结论。目前,医学期刊普遍存在统计学问题。在报道阴性结果时,一定要报道power值,一般要求power值至少在0.75以上。
, 百拇医药
11 反映结果的变量能否反映疗效
选择结果变量时,一定要考虑本专业的医学理论基础知识,要符合疾病的病理生理规律,即所选指标一定能直接反应疗效。在确定指标时,最好是既敏感,又特异,且获取方便。
12 是否使用盲法
在临床科研中,盲法的使用近年来在国内越来越多,特别是新药临床试验或大规模多中心临床试验,基本要求三盲(即医生、患者、数据分析者均用盲法)。在一般临床治疗性研究中,应提倡尽量使用盲法。如果结果变量是一个满意的终点指标时,如病死率、致残率或实验室指标,这时不使用盲法对结果不会产生太大的偏倚。如果结果变量是一些软指标,如症状的改善,此时不采用盲法,对结果的影响就较大,至少应该在评价疗效时要采用盲法。目前,国内医学期刊论文中,尽管是RCT试验,采用盲法的并不多见。
13 评价临床意义的指标是否应用得当
, 百拇医药
评价临床意义的指标主要包括相对危险度(RR)、相对危险度减少(RRR)、绝对危险度减少(ARR)及需要治疗的病人数(NNT)。这几个指标目前在国外医学期刊中经常出现,国内部分多中心临床试验也开始采用,但多数临床医生及医学杂志的编辑对此并不十分了解。有关这几个指标的详细计算方法及其临床意义可参阅有关文献[3]。
14 是否述及混杂、偏倚、干扰和沾染等其它问题
15 参考文献
1,Department of clinical Epidemiology and Biostatistic,McMaster University. How to read clinical journal:V. to distinguish useful from useless or even harmfull therapy. Can Med Assoc J,1981,124(765):1156~1159.
2,李 强. 如何开展临床疗效研究. 中华医学写作杂志,1999,6(2):1~3.
3,李 强. 评价疗效结果的几个新指标. 世界华人消化杂志,1999,8(6):702~703.
(收稿日期:2000-06-25), http://www.100md.com