Chin J Evid-based Med 2011, 11(12): 1452-1458
• 1452 •
CJEBM © 2011 Editorial Board of Chin J Evid-based Med
www.cjebm.org.cn
Methodology
GRADE指南:Ⅷ.证据质量评价——间接性△
GRADE guidelines: 8. Rating the quality of evidence—
indirectness△
Gordon Guyatt*,Andrew D. Oxman,Regina Kunz,James Woodcock,Jan Brozek,
Mark Helfand,Pablo Alonso-Coello,Yngve Falck-Ytter,Roman Jaeschke,Gunn Vist,
Elie A. Akl,Piet N Post,Susan Norris,Joerg Meerpohl,Mona Nasser,代表GRADE
工作组#
摘要 直接证据来自直接比较我们关注的干预措施用于我们关注的患者人群,并测量患者重要结局的研究。
间接证据可由以下 4 种方式之一产生。第一,患者可能与我们关注的患者不同(适用性一词常用于这类间接性)。
第二,所检验的干预措施可能与我们关注的干预措施不同。有关患者和干预措施间接性的决策取决于对生物
或社会因素差异是否大到可能使效应尺度出现预期的较大差异的考虑。
第三,结果可能有别于最初设定的结局指标——如替代结果本身不重要,但测量之是基于替代结果的变化反
映患者重要结局变化这一假设。
第四类间接性在概念上与前三类不同,发生于临床医生必须在未经直接比较的两种干预措施间做出选择时。
这种情况下比较治疗
需要特定的统计方法,并根据患者人群、联合干预措施、结局测量指标及备选干预措施
试验方法的差异程度,将证据级别降低 1 或 2 级。
关键词 GRADE;证据质量;间接性;间接比较;适用性;外部有效性
1 引言
本系列前面的文章展示了用于系统评价和临床
指南的 GRADE 方法,讨论了构建问题、确定证据
质量,并描述了因偏倚、不精确性和不一致性问题
而降低证据质量的 GRADE 方法。本文将解决另一
潜在问题:间接性。
△ 原文见 J Clin Epidemiol, 2011, 64(12): 1303-1310.
# GRADE 系统由 GRADE 工作组开发。所列作者撰写并修订了该文
章。在 Journal of Clinical Epidemiology 杂志的网站上有该系列文章所
有贡献者的名录。
* 通讯作者,Email: guyatt@mcmaster.ca
2 间接性的四种类型
有直接证据时我们对结果更有把握。我们所说
的直接证据是指将我们关注的干预措施在我们关注
的患者人群中实施并测量患者重要结局的研究。但
当人群、干预措施或结局不同于我们所关注的对象
时,我们会考虑间接性(见表 1)。第四种不同类型
的间接性产生于可供选择的管理措施中没有直接比
较时(见表 1)。结果的间接性和间接比较对系统评
价和指南实施同等相关;与人群和干预措施有关的
间接性(有时指适用性)与指南关系更密切。
2.1 间接性:人群差异(适用性)
第一种类型的间接性包括所关注人群与参与相
关研究人群间的差异。系统评价将仅纳入符合其所
制定纳入
的人群;因此,在某种意义上,有关
患者的证据从定义上说是直接的。
但也可能有例外。如某系统评价可能有先验假
设,即根据所知的药物作用机理,某药对儿童和成
人效果可能不同。如果没有找到在儿童中试验该药
物的研究,则系统评价作者可能根据对儿童的这一
间接证据推论该药对儿童的效果不如对成人确定。
所关注人群与研究中人群的差异是要寻找有
关问题最佳证据的指南制定者常遇到的问题。如
要点
•• 当相关研究与指南或系统评价中所考虑的人群、
干预措施或测量结局存在较大差异时,证据质
量(我们对效应估计值的把握度)可能降低。
•• 如果得不到直接比较,应降低证据质量。这种
情况只能求其次采用间接比较,如我们不是基
于两种干预措施的相互比较推断其相对效应,
而是通过(二者分别)与第三种干预措施或对
照情况相比较来判断。
中国循证医学杂志 2011, 11(12): 1452~1458
• 1453 •
© 2011 中国循证医学杂志编辑部
www.cjebm.org.cn
CJEBM
论 著 • 方法学研究
世界卫生组织指南制定小组提出治疗禽流感病毒
A 感染,但需要使用季节性流感的证据(见表 1)
(框 1)[1]。
患者(或他们的患病状况)的极端差异较少可
导致证据级别仅降低 1 级或甚至不降低。因为随机
试验纳入标准通常排除有合并症的患者,当指南制
定者开始处理多种状况并存(如患者伴有心衰和哮
喘)的问题时,通常需考虑间接性问题。有些人群
差异可通过试验内或系统评价内的亚组
部分加
以解决,这种亚组分析用以检验不同人群因素(如
年龄、性别或疾病严重程度)情况下的结果稳定性。
如多种亚组人群中,他汀类药物大规模试验的合并
分析表明相对危险度(RR)降低高度一致。
通常不应因人群差异性而降低证据级别,除非
有强力理由认为所关注人群与受试人群的生物学差
异大到足以使效应尺度明显不同。多数情况下,情
况并非如此。注意我们这里特指的是 RR 的一致性:
很多情况下,亚组人群基线风险或对照组事件发生
率的差异将导致亚组间绝对效应的不同。
上述讨论涉及不同人群,但有时唯一的证据将
来自动物研究,如大鼠或灵长类动物。我们通常会
因间接性而将该证据降低 2 级。但动物研究可能提
供药物毒性的重要提示。尽管用来自动物研究的毒
性数据预示人体毒性不一定可靠,但推荐中应格外
警惕动物毒性证据。
其它类型的非人体研究可能产生高质量证据。
如有关细菌对抗菌剂(如耐甲氧西林金葡菌 -MRSA
的产生)耐药类型变化的实验室证据。这些实验室
结果会成为高质量证据,表明在 MRSA 高流行区
域,作为初治药物,MRSA 敏感抗生素比甲氧西林
对可疑葡萄球菌败血症更具优势。
2.2 间接性:干预措施的差异(适用性)
如界定人群那样,系统评价员将在纳入标准中
清楚地说明他们所关注的干预措施,以确保只有直
接相关的研究合符标准。但同样地,也有例外,如系
统评价可能有个预先假设,即同一手术过程由转诊
中心的专科医生施行与由社区普通外科医生施行效
果不同。如果他们没有找到检验在社区医院开展该
过程的研究,系统评价作者会推断社区普通外科医
生采用的过程其效果不确定。
指南制定者通常能从相关干预措施的试验中找
到解决他们问题的最佳证据。如有关直肠镜检筛查
直肠癌价值的指南,将发现大便隐血检查的随机对
照试验(RCTs)显示接受相关干预人群的直肠癌死
亡率降低。这种情况下证据级别是否要降低 1 或 2
级是一个判断的问题。
可能存在干预措施不同但系统评价作者可下不
需降低证据质量级别结论的情况。如较早的试验表
明肌肉注射青霉素治疗淋球菌感染效果好,但指南
可能有理由基于当前当地的体外耐药实验结果推荐
其他替代抗生素治疗,并认为此为高质量证据。
同样的干预措施在不同条件下可能以不同的
方式提供。如一个有关音乐疗法治疗孤独症的系统
评价发现检验结构化方法的试验在北美比欧洲更常
用。由于干预措施不同,结构化方法的结果更适用
于北美,较少结构化方法的结果更适用于欧洲。实
施环境对资源使用(成本)结果特别重要。特定干预
所需的(或至少需使用的)资源在不同条件下可能
差异很大,且机会成本(用同样多的钱可购买什么
替代干预措施)则差异更大。
如果干预措施不能在与提供数据的 RCT 同样
严格或技术复杂程度的条件下实施,指南制定者应
考虑降低证据质量级别。颈动脉内膜剥离术提供了
一个关于这种情况常被引用的例子 [2]。这种间接性
成为一个重大问题——特别是在低收入国家——
(实施)资源密集性干预(时如此)。我们已经注意到
(实施)“环境”对干预措施的间接性问题,因而考
虑音乐疗法治疗孤独症如何在不同管辖区域以不同
表 1 间接比较则证据质量更低
关注问题 间接性来源
奥塞米韦预防流感 A(H5N1)病毒引起的禽流感 人群差异:可得的奥塞米韦随机试验用于治疗季节性流感 , 而非治疗禽流感
结肠镜筛查预防结肠癌死亡 干预措施差异: 粪便隐血筛查提供结肠镜检查潜在效果相关的间接证据
司维拉姆与 钙离子通道阻滞剂治疗慢性肾功能衰竭 结局指标差异:减少磷酸钙负荷被假设为减少血管钙化;而血管钙化被假设为减少血
管事件
抗抑郁药选择 间接比较:某些抗抑郁药研究直接与其他药物比较,但其他很多抑郁药未进行比较
框 1 人群的间接性:禽流感
高质量随机试验研究表明抗病毒治疗季节性流
感的效果。专业小组认为季节性流感的生物学与禽
流感很不同(即,禽流感机体对可得抗病毒药物的反
应度远低于季节性流感),因间接性其证据质量需降
低 2 级。
Chin J Evid-based Med 2011, 11(12): 1452-1458
• 1454 •
CJEBM © 2011 Editorial Board of Chin J Evid-based Med
www.cjebm.org.cn
Methodology
的方式实施。其他复杂干预措施也如此,如康复项
目、公共卫生干预措施等。不同实施环境可能会有
重大差异,这种差异可能削弱结论的适用性。
与证据质量评价的所有其他方面一样,也需要
判断干预措施的相似度。目标人群、干预措施与研
究中的人群、干预措施完全一致的情况极少发生且
常常不必要;只有当我们认为差异足以能导致结果
不同时,我们才降低证据级别。例如,辛伐他汀试
验显示心血管病死亡率降低:提示晚上服药而非早
晨服药(因为胆固醇降低更显著)不需要因干预措
施的差异而降低证据级别。然而一种新的他汀类药
仅有血脂水平的可得证据,可能因间接性而需要降
低证据质量,一类新的降低胆固醇药物的试验因其
中的 RCT 未说明对心血管事件的影响,肯定需要
因间接性而降低证据质量。我们可将其概念化为因
干预措施的间接性或结果的间接性而降低证据级
别。
2.3 间接性:结果测量的差异(替代结果)
GRADE 明确指出进行系统评价和制定实践指
南都应该始于定义每一感兴趣的重要结果。可得研
究可能已测量所关注干预措施对相关结果的影响,
但该结果不同于那些最初(设定的)对患者重要的
结果。
预期结果和测量结果间的差异可能与时间范围
有关。如某项行为及认知行为干预的系统评价对学
习障碍者外向攻击性行为影响的结果表明, 3 周的
放松训练项目 3 月时明显降低了破坏性行为 [3]。遗
憾的是,没有符合标准的试验评估了系统评价作者
事先定义的关注结果,即 9 个月或更长期的效果。
考虑到其他类型的行为干预措施已显示能早期获益
但无法长期保持到 6 个月随访时,降低证据级别的
主张变得更加强有力 [3]。当测量的时间范围与关注
的时间范围不一致时,是否将证据级别降低 1 或 2
级取决于其不一致的程度。这种情况下,人们可以
支持任一种选择。
另一与结果测量有关的间接性的来源是使用替
补或替代终点指标来取代所关注的患者重要结果。
表 2 列出了许多在当前临床研究中常见的替代指
标。
表 3 显示患者重要结果和替代结果用于终末期
肾功衰竭患者的钙与磷酸盐代谢紊乱的逻辑关系。
高磷酸盐血症与下列情况有关:骨脆性和随之发生
的骨折;软组织钙化及相关疼痛;冠状动脉钙化及
相关心肌梗死;及可能的死亡增加。这些不良结局
是治疗钙 / 磷酸盐异常的重要终点。
然而迄今为止,备选治疗干预措施的 RCT 均
集中于测量钙 / 磷酸盐的代谢。通常,使用替代结
果需将证据质量降低 1 或甚至 2 级。考虑生物学、
机制和疾病自然史有助于做出有关间接性的决定。
例如,因在假定的因果关系中,钙和磷酸盐浓度远
离患者重要终点事件,我们将有关该结果的证据级
别降低 2 级(表 3)。在假定的因果关系中更接近负
面结果的替代结果是冠状动脉钙化(对心肌梗死而
言)、骨密度(对骨折而言)和软组织钙化(对疼痛
表 2 替代结果举例
疾病情况 患者重要结果 替代结果
糖尿病 糖尿病症状、住院、并发症(心血管、眼睛、肾、神经) 血糖、糖化血红蛋白
高血压 心血管疾病死亡、心肌梗死、中风 血压
痴呆 患者功能、护理负担 认知功能
骨质疏松 骨折 骨密度
成人呼吸窘迫综合征 病死率 氧化作用
终末期肾脏疾病 生命质量、发病率(如血栓形成或心衰)、病死率 血红蛋白
静脉血栓 有症状的静脉血栓形成 无症状静脉血栓形成
慢性呼吸道疾病 生命质量、恶化、病死率 肺部功能、运动能力
心血管疾病 / 风险 血管事件、病死率 血脂
表 3 磷酸盐药物治疗肾功能衰竭和高磷酸血症患者的替代结果和患者重要结果
患者重要结果
替代结果
间接(证据质量降低 1 级) 非常间接(证据质量降低 2 级)
心肌梗死 冠状动脉钙化 测量钙 / 磷酸盐代谢
骨折 骨密度
软组织钙化所致疼痛 软组织钙化
中国循证医学杂志 2011, 11(12): 1452~1458
• 1455 •
© 2011 中国循证医学杂志编辑部
www.cjebm.org.cn
CJEBM
论 著 • 方法学研究
而言),因存在间接性,应将这些结果的证据仅降
低 1 级。
一项系统评价表明低分子肝素与普通肝素相
比对癌症患者围手术期血栓预防有益,该系统评价
提供了一个例子表明因间接性仅降低 1 级证据级别
可能是恰当的。重要结果——有症状的深静脉血栓
形成(DVT)——降低的可信区间很宽[RR=0.73,
95%CI(0.23,2.28)]。当纳入替代指标(无症状的
DVT,其提供的事件最多)时,有利于低分子量
肝 素 的 差 异 更 有 说 服 力[RR=0.72,95%CI(0.55,
0.94)] [4]。我们认为无症状事件减少的可信证据为
有症状事件减少提供了中等质量的证据。
极少见地,替代指标足够好,以致于系统评价
作者或指南制定者应选择不因间接性而降低证据质
量级别。我们认为这应该限于以下情况,即在同类
药物的 RCT 中,试验重复证明同类药物(如 β- 阻
滞剂、钙拮抗剂、利尿剂、双膦酸盐)替代结果的变
化与患者重要结果的变化密切相关。如在评价来自
某个新他汀药物的 RCT 证据时,低密度脂蛋白作
为冠心病事件的替代指标,我们会用该原则去证明
不降低其证据级别的合理性。但如果降胆固醇的其
他类药物(如依替米贝)的 RCT 测量结果不是冠心
病事件,而是低密度脂蛋白,我们将因间接性而降
低该证据的级别。甚至这个不降低替代结果证据级
别(同一药物类别的多个随机试验表明在替代结果
与效果测量如 RR 降低之间有清楚且一致的关系)
的极严格标准也可能有问题(框 2)。
研究人员会使用复杂的统计学方法来研究某个
替代结果与患者重要结果之间的关系。例如,研究
人员探讨了用无进展生存时间作为蒽环霉素和紫杉
碱为基础的化疗治疗晚期乳腺癌患者总生存时间替
代结果的“有效性”[5]。他们发现所分析的随机试验
中,无进展生存时间与总生存时间的相关有统计学
意义,但用无进展生存时间来预测总生存时间仍充
满不确定性。这种情况下,将该替代结果证据级别
降低 1 级可能是恰当的。
若干团队已制定出评价某个替代结果“有效
性”的系统 [6,7,16]。每个系统均发现,只有当 RCT 中
替代结果与患者重要结果间的关联很强或多次出现
时,来自替代结果的证据才可信。当考虑是否因结
果的间接性而降低证据级别时,系统评价者和指南
制定者可参考这些系统。
2.4 间接性:间接比较
最后一类间接性见于我们没有直接比较(如头
对头比较)两个或多个所关注干预措施的证据时。
如考虑 A 和 B 两种活性药物的比较。尽管没有 A
药和 B 药直接比较的 RCT,但有 A 药与安慰剂比
较和 B 药与安慰剂比较的 RCT。这样的试验提供了
A 药和 B 药效应量的间接比较。其证据级别低于直
接比较 A 药和 B 药的证据。
预防性治疗骨质疏松性骨折的间接比较说明了
间接比较遇到的挑战。不同药物试验 RR 降低的差
异明显,诱使人们将这些差异归为所观察药物的不
同效果差异。但上述试验纳入了不同的患者人群;
一些患者可能比另一些患者对所观察的药物更加敏
感。此外,诊断脊椎骨折和非脊椎骨折的标准在不
同试验中有差异。可能正是这些差异而非干预措施
效果的差异,导致了 RR 的变化 [8]。一个服用不同
剂量阿司匹林的系统评价结果阐明了从间接比较中
作出推论的困难(框 3)。
间接比较的有效性取决于这样的假设:试验设
计的诸因素(患者、联合干预、结局测量指标)和方
法学质量本身的差异不是大到足以导致不同的效应
(换言之,干预措施效应的真正差异解释了所表现
出的全部差异)。一些作者称其为“相似性假设”[9]。
因为这种假设常值得怀疑,常需将间接比较证据质
量降低 1 级。是否降低 2 级取决于供选因素(人群、
干预措施、联合干预措施、结局和研究方法)解释
或掩盖效应差异的合理性。对评价证据质量所需的
许多挑战性判断而言,这是最困难的判断之一。
必须考虑研究者在做间接比较时所采用的统计
学方法,这使得该判断更加困难。仅使用 2 个或多
框 2 反对曾认为来自替代结果的证据
是高质量证据的争论
我们很可能想假定某个新的他汀类药以与上一
代他汀类药物同样的方式降低血脂,并有可能导致
心血管疾病的相似风险。但专家可能对有关假定某
个新他汀类药降低血脂而使期望的心血管风险降低
进行争论 [13,14]。 实际上,一个对血液透析患者的大
型试验提示:低密度脂蛋白大幅度降低未能有效降
低心血管事件 [15]。另外, 选择药物的系列组成(如所
有 - 受体阻滞剂;所有心脏选择性 - 受体阻滞剂;全
部伴有或未伴有阻滞特性的 - 受体阻滞剂)不够明
确 [16,17]。 最后,从临床看,即使我们承认替代结果
提供了有关获益的高质量证据,某个新药可能具有
不同的 ( 和问题很多的 ) 副作用。注意:西立伐他汀
与其他他汀类药物相比极大增加了危及生命的横纹
肌溶解的可能性。
Chin J Evid-based Med 2011, 11(12): 1452-1458
• 1456 •
CJEBM © 2011 Editorial Board of Chin J Evid-based Med
www.cjebm.org.cn
Methodology
个研究中的试验组的结果不恰当且可能有误导性。
一些考虑到试验组和对照组之间差异的更复杂的统
计学方法更为合适 [10,11]。
对低剂量与中等剂量阿司匹林(框 3)的比较
研究使用了一个有效的统计学方法来比较一部份
试验与另一部份试验的 RR。该系统评价作者提供
的数据提示:试验纳入的患者在平均年龄(56 ~ 60
岁)、性别分布(男性占 83% ~ 100%)、吸烟者比
例(在
了该指标的 2 个试验中占 65% ~ 68%)、
高血压患者比例(在报告了该指标的 4 个试验中占
31% ~ 53%)和胆固醇均值(5.7 ~ 7.2 mmol/L)方
面非常相似。作者没有提到这 2 部份研究在使用联
合干预措施上是否有差异,如抗高血压药物的积极
治疗,或使用降脂药。就研究方法而言,每一部份
研究的一个试验均设置了一套标准手术程序,均采
用盲法并均包括了安慰剂组,2 个中等剂量和 1 个
低剂量试验报告了通过研究协调中心或药房进行正
规的随机,各部份里的一个
了移植血管通
畅性的独立血管造影评估。2 部份试验的失访率都
很高(如无血管造影术)—— 5 个研究中有 3 个报
告了失访率大于 50%。
权衡后,我们会因间接性而把证据质量降低仅
1 级。这样的决定对临床决策作用不大,因其他要
考虑的因素(偏倚风险——失访严重,不精确——
中等剂量药物对低剂量药物试验 RR 的可信区间宽,
结果间接性——移植血管阻塞是心肌梗死、心血管
疾病死亡等事件的替代指标)已将其作为低质量证
据。该间接比较证据质量级别极低。
推荐必须同时考虑 2 个以上干预措施的情况越
来越多见。如用溶栓疗法治疗心肌梗死的可能办法
包括链激酶、阿替普酶、瑞替普酶和替奈普酶 [12]。
想解决多个干预措施相对有效性的问题,不可避免
地涉及间接比较。这些 Meta 分析已有不同名称,
当前常用术语包括“网状 Meta 分析”,“混合治疗比
较”和“多种治疗 Meta 分析”。
既有简单但不适合的方法,又有许多复杂而合
适的统计学方法可用于同时评价多个比较。最近研
发的一些贝叶斯统计方法可能有助于估计多个干预
措施的相对有效性,但这些方法可能产生不同的估
计结果。这可能产生偏倚,而最佳质量间接分析仍
是一个尚未解决的问题。除间接证据外,要可靠地
应用这些方法需要来自直接比较的大量证据——而
框 3 难于从间接比较作出推论:阿司匹林
低剂量与高剂量的比较
一个系统评价结果认为,在冠状动脉旁路移植
术后使用阿司匹林预防移植血管阻塞时,低剂量(50
~ 150 mg/d)阿司匹林效果相对优于中等剂量(300
~ 325 mg/d)[18]。该系统评价共纳入 5 个阿司匹林与
安慰剂比较的试验, 2 个测试中剂量阿司匹林,3 个
测试低剂量阿司匹林。移植物闭塞可能性的合并 RR
在低剂量组为 0.74(95%CI 0.60 ~ 0.91),中剂量组
为 0.55(95%CI 0.28 ~ 0.82)。中、低剂量阿司匹林
相比的 RR 是 0.74(95%CI 0.52 ~ 1.06,P=0.10),这
表明(但并不太可信)中剂量阿司匹林治疗效应可能
较大。
如果 RCT 已经直接比较了阿司匹林 2 个剂量
的治疗方案,则上述比较(证据质量)较差,因为其
他研究特征也许可解释发现的(或导致实际存在而
未被发现的)任何差异。与低剂量 vs. 安慰剂试验相
比,中等剂量 vs. 安慰剂试验中的受试者可能不同;
除了研究的治疗措施,患者也可能接受了其它不同
的有效或有害的干预措施;且结果测量也可能不同
(如对事件的标准不同或随访时间不同)。研究方法
的差异也可以解释结果:有高偏倚风险的试验可能
导致更小或更大的治疗效应。该结果提供了低、中
剂量阿司匹林效果的低质量证据。
框 4 网状 Meta 分析挑战的实例
研究者开展了一项 12 种新一代抗抑郁药并行
治疗的比较 [19]。Meta 分析评价了纳入的 117 个随机
试验,共 25 000 多例患者;文中未提供患者相似性
(除都具有严重的单极型抑郁症)、或共同干预措施
(如行为疗法)的相关信息。与原作者联系,他们表
示排除了难治性抑郁症试验,他们认为不同类型抑
郁症具有相似的治疗反应,且病人很可能未接受重
要的共同干预措施。关于偏倚风险,作者告诉我们,
按 Cochrane 协作网的标准评估偏倚风险 [20],大多数
纳入研究的偏倚风险是“不清楚”,12 个为低偏倚风
险;可能少量为高偏倚风险。虽然偏倚风险以“不清
楚”者居多,但这也有价值。
所有试验都至少包含 12 种药物中 2 种药物的
直接比较;117 个试验包含 70 个单个比较(如 2 个
氟西汀和氟伏沙明之间的比较)。(Meta 分析)作者
报告这 70 个药物反应比较中,只有 3 个直接比较和
间接比较有统计学差异。但这种检验的效能不可能
高。总之,我们会倾向于对这一网状 Meta 分析采取
谨慎的态度,并因其间接性而将证据级别降低 2 级。
中国循证医学杂志 2011, 11(12): 1452~1458
• 1457 •
© 2011 中国循证医学杂志编辑部
www.cjebm.org.cn
CJEBM
论 著 • 方法学研究
常常得不到这样的证据 [12]。弄清多个干预措施的研
究中患者、联合干预措施、结局测量指标和偏倚风
险的相似程度是另一重大挑战。当直接和间接证据
不一致时所做的解释不确定,且需因不一致性而降
低直接证据的级别。最近一项并行治疗比较阐释了
评价这种研究的挑战(框 4)。实施并评价这种网状
Meta 分析的方法仍在发展中,包括 GRADE 方法。
未来几年将看到用于判断网状 Meta 分析证据质量
的标准不断改进。
最后一点是间接比较结果有可能,至少在理论
上可能比直接比较结果准确。这将在直接比较存在
偏倚风险,而间接比较不存在此风险时成为现实。
若直接比较由投资研究结果的单位(如药厂)进行
时,也会出现这种情况。
3 机理
我们未讨论的另一类间接证据与作用机理有
关。GRADE 系统没有基于治疗的机理或其病理生
理学基础来升高或降低证据级别。从某种程度上
说,RCT 通常始于在一定程度上基于生物学原理的
对成功的合理预期,但准确判断这种生物学合理性
的强度容易引起争论,GRADE 没有建议直接基于
这些判断来升高或降低证据质量。
然而,机理确实对评价证据有多种作用:如为
系统评价选择需纳入的研究,将证据用于不同干预
措施或人群,判断是否相信亚组分析,以及决定降
低基于替代结果的证据级别的程度。尽管根据治疗
成本和药片颜色的相似性进行合并分析没有意义,
具有相似机理的治疗措施则通常被进行 Meta 分析。
由于没有两个研究会有完全相同的纳入标准和干预
措施,产生单一合并效应估计时有必要基于我们生
物学理解所做的判断来决定哪些研究该纳入。
我们同样需要根据机理作出应用治疗证据
的判断。例如,若某项研究结论是某干预措施对
50 ~ 70 岁的患者有效,我们则肯定乐意将此结果
应用于 49 岁或 71 岁患者(并可能用于 49 岁以下或
71 岁以上患者)但不会用于儿童。如果一项研究表
明抗生素使用 5 天有效,我们则会乐意使用抗生素
达 7 天,但不会使用 3 天。
有关替代结果的判断则可能更复杂。如思考一
个降低目标疾病发生的 3 剂疫苗。若研究显示标准
治疗方案和加速给予的 3 剂治疗方案血清学反应相
同,则我们会乐意认为加速给予 3 剂疫苗将得到与
原用法相同的结果(即,我们不会因血清学反应为
替代结果而降低证据级别)。然而,如果一类新的
抗高血压药物(如肾素抑制药阿利吉仑,最近在美
国获得批准)显示与已有药物类似的降压效果,但
没有患者重要结果的获益证据,我们会因其使用替
代结果而降低证据级别。
4 同时考虑所有类型的间接性
指南制定者通常需要考虑 4 类间接性的联合
效应,存在 1 类以上的间接性问题可能意味着需要
将证据质量降低 2 级。这一考虑不是简单的加法过
程,而是确保判断某个证据是否降级及降几级的合
理性。通常,基于替代结果的证据应降低证据级别,
而其他类型的间接性将需要进行更仔细的判断。
参 考 文 献
1 Schunemann HJ, Hill SR, Kakad M, et al. WHO Rapid Advice
Guidelines for pharmacological management of sporadic human in-
fection with avian infl uenza A (H5N1) virus. Lancet Infect Dis, 2007,
7(1): 21-31.
2 Rothwell PM. External validity of randomised controlled trials: ‘‘to
whom do the results of this trial apply?’’. Lancet, 2005, 365(9453):
82-93.
3 Hassiotis A, Hall I. Behavioural and cognitive-behavioural inter-
ventions for outwardly-directed aggressive behaviour in people
with learning disabilities. Cochrane Database Syst Rev, 2004, 1:
CD003406. DOI:10.1002/14651858.CD003406.pub2.
4 Akl EA, Terrenato I, Barba M, et al. Low-molecular-weight heparin
vs unfractionated heparin for perioperative thromboprophylaxis in
patients with cancer: a systematic review and meta-analysis. Arch
Intern Med, 2008, 168: 1261-1269.
5 Miksad RA, Zietemann V, Gothe R, et al. Progression-free survival
as a surrogate endpoint in advanced breast cancer. Int J Technol As-
sess Health Care, 2008, 24(4): 371-383.
6 Lassere MN, Johnson KR, Boers M, et al. Defi nitions and validation
criteria for biomarkers and surrogate endpoints: development and
testing of a quantitative hierarchical levels of evidence schema. J
Rheumatol, 2007, 34: 607-615.
7 Australian Government Department of Health and Ageing. Report
of the Surrogate to Final Outcome Working Group to the Pharma-
ceutical Benefi ts Advisory Committee: a framework for evaluating
proposed surrogate measures and their use in submissions to PBAC.
2009.
8 Sebba A. Comparing non-vertebral fracture risk reduction with
osteoporosis therapies: looking beneath the surface. Osteoporos Int,
2009, 20: 675-686.
9 Song F, Loke YK, Walsh T, et al. Methodological problems in the
use of indirect comparisons for evaluating healthcare interventions:
survey of published systematic reviews. BMJ, 2009, 338: b1147.
10 Bucher HC, Guyatt GH, Griffi th LE, et al. Th e results of direct and
indirect treatment comparisons in meta-analysis of randomized
controlled trials. J Clin Epidemiol, 1997, 50: 683-691.
11 Glenny AM, Altman DG, Song F, et al. Indirect comparisons of
competing interventions. Health Technol Assess, 2005, 9(26): 1-134,
Ⅲ-Ⅳ.
12 Caldwell DM, Ades AE, Higgins JP. Simultaneous comparison of
multiple treatments: combining direct and indirect evidence. BMJ,
Chin J Evid-based Med 2011, 11(12): 1452-1458
• 1458 •
CJEBM © 2011 Editorial Board of Chin J Evid-based Med
www.cjebm.org.cn
Methodology
2005, 331(7521): 897-900.
13 de Lorenzo F, Feher M, Martin J, et al. Statin therapy-evidence
beyond lipid lowering contributing to plaque stability. Curr Med
Chem, 2006, 13: 3385-3393.
14 Fisman EZ, Adler Y, Tenenbaum A. Statins research unfinished
saga:desirability versus feasibility. Cardiovasc Diabetol, 2005, 4(1): 8.
15 Wanner C, Krane V, M€arz W, et al. Atorvastatin in patients with
type 2 diabetes mellitus undergoing hemodialysis. N Engl J Med,
2005, 353(3): 238-248.
16 Bucher H, Kunz R, Cook D, et al. Surrogate outcomes.In: Guyatt G,
Rennie D, Meade M, Cook D, editors. Th e users’ guides to the medi-
cal literature: a manual for evidence-based clinical practice. New
York, NY: McGraw-Hill; 2008.
17 Kunz R, Bucher H, McAlister F, et al. Drug class eff ects. In: Guyatt G,
Rennie D, Meade M, Cook D, editors. Th e users’ guides to the medi-
cal literature: a manual for evidence-based clinical practice. New
York, NY: McGraw-Hill; 2008.
18 Lim E, Ali Z, Ali A, et al. Indirect comparison meta-analysis of aspi-
rin therapy aft er coronary surgery. BMJ, 2003, 327(7427): 1309.
19 Cipriani A, Furukawa TA, Salanti G, et al. Comparative efficacy
and acceptability of 12 new-generation antidepressants: a multiple-
treatments meta-analysis. Lancet, 2009, 373(9665): 746-758.
20 Higgins JP, Altman D. Assessing the risk of bias in included studies.
In:Higgins J, Green S, editors. Cochrane handbook for systematic
reviews of interventions 5.0.1. Chichester, UK: John Wiley & Sons;
2008.
李幼平 总审校
杨晓妍 审校
李鸿浩 译
收稿日期:2011–06–20 修回日期:2011–09–20
本文编辑:蔡羽嘉