首页 > 文章详情

臻知拙见（2）如何正确解读低级别临床证据？

2017年10月30日

作者：郑于臻博士广州医科大学附属肿瘤医院胸外科（微信号：zhengyuzhendyl）

来源：微信公众号“郑正有词”

微信图片_20171030093132.jpg

臻知

最近，<Chest>发表了一项研究，其中就低级别临床证据的分级进行了详细的论述，郑医生就此进行简要的翻译说明如下。

循证医学的发展，使得仅仅凭借个人判断来决策临床治疗不再可行；而与临床证据积累同步高速发展的是，临床统计学的发展。临床治疗指南基于不断推进的高水平临床证据，精简提炼指导临床工作进行。

GRADE系统(grading ofrecommendations assessment, development, and evaluation)广泛应用于指南制定过程中，并用来为指南建议的证据级别进行强弱分层。

良好制定的随机对照临床研究（RCTs）多是高水平证据，而观察性研究多是低水平证据。但是凡事总有例外，带有瑕疵、不一致性的、不直接性数据、或不精确数据的RCT也可能是中级别甚至低级别的证据，而一些观察性研究也有可能是中级别甚至是高级别证据。GRADE评价系统的初衷就是用来评价各研究的内在证据级别，并基于此知道指南制定。

既然临床指南的制定是一个高度严谨的过程，因此指南制定的过程中，其指导意见多集中于那些已有了高级临床证据的临床事实，而会选择性忽略那些缺乏高级版临床证据的争议性问题。但是，作为临床医生，却无法进行选择性忽略，尤其是目前大部分临床工作碰到的问题都缺乏高级别临床证据的前提下。

此外，指南与临床实践不同的另一个问题是，指南多源于高级临床证据，也就是RCT研究，但是RCT研究往往设计了严谨甚至苛刻的入组要求，并在达到一定的人数的前提下才达到统计学上的临床意义；但是在临床工作中，并不存在这么一种情况，临床医生的临床决策往往是为个体服务的，且个体条件往往与RCT设计相悖。这其实也反映了目前一个流行趋势，即在前瞻性随机对照临床研究广泛开展的前提下，仍有学者不断就同一问题提出进行真实世界的研究来证实猜想。

作为临床医生，有能力进行复杂问题的临床决策是一项很高明的能力。但事与愿违的是，尽管我们都想通过不断积累临床证据来提高我们的判断力，我们却缺乏衡量临床证据的能力，换句话说，面对一大堆散乱无序的低级别临床证据，缺乏自我评价系统及判断能力。而对于研究结果的正确解读，包括证据级别的正确理解与定位，明确其局限性，并紧密结合临床实际，毫无疑问是十分有价值的。

文中集中精力讨论低级别临床证据，也就是非随机临床证据，并根据证据级别将其分为以下4类：1.非随机性比较（Nonrandomized comparison），2.来自间接证据的推断（extrapolationfrom indirect evidence），3.合理性（rationale），4.临床经验（clinical experience）。

微信图片_20171030093135.jpg

一、非随机性对照研究（Nonrandomized comparison）

这个系列的研究中，要求将入组患者分组，分组信息往往与研究终点相关，包括治疗模式、病理类型、干预方式等。基于其不同的证据级别，可以分为以下4个级别：

1. 可能性较大的无明显偏倚的对照研究（Porbably not confounded comparison）：

非随机性研究无法避免偏倚，但是该层级的研究其关键点是，确保不同组间患者具有相似的可比的潜在混杂因素。理想状态下，它应该与其他相似的研究得出一致的研究结果。关于治疗组中潜在混杂因素的缺乏、混杂因素匹配及校正方法的模糊，都不能将其定义为此类高层次非随机性对照研究。此外，如果某种干预与结果之间的关系十分明确，那么我们最好能针对观测到的结果进行合理地解释。

2. 有可能存在偏倚的比较（possibly confounded comparison）：

一项经过良好的倾向性评分匹配的或多因素校正的研究应该被认定为该层级的临床证据。其与“可能性较大的无明显偏倚的对照研究”的区别在于，其是否对论点进行了深入探讨（比如机制等），以及是否所有已知的或怀疑的混杂因素都被考虑在内？在某些条件下，没有纳入某项假定的潜在混杂因素并不意味着一定会弱化证据级别，只要作者能够证实纳入该因素只能进一步加大观测结果的显著性。但在实际情况下，大部分未纳入假定混杂因素的研究，都可能会对结果造成无法预料的影响，因此使得判断评估变得困难。

可列为该层级的研究，举例来说有以下两个研究：

Falcoz PE, Puyraveau M, Thomas PA, DecaluweH, Hurtgen M, Petersen RH, Hansen H, Brunelli A, Committee ED, Group EMII:Video-assisted thoracoscopic surgery versus open lobectomy for primarynon-small-cell lung cancer: a propensity-matched analysis of outcome from the European Society of Thoracic Surgeondatabase. Eur J Cardiothorac Surg 2016, 49:602-609.”

Rosen JE, Salazar MC, Wang Z, Yu JB, DeckerRH, Kim AW, Detterbeck FC, Boffa DJ: Lobectomy versus stereotactic bodyradiotherapy in healthy patients with stage I lung cancer. J Thorac CardiovascSurg 2016, 152:44-54 e49.”

3. 可能性较大的有偏倚的研究（probably confounded comparison）:

这包括大部分研究因为数据缺乏潜在混杂因素的情况，包括了患者基本信息的缺乏、入组方法的不明、或未能采取倾向性评分匹配或多因素校正的方式来减少偏倚。遗憾的是，即便是给予了倾向性评分匹配这种严谨的方法，但是如果有重要的已知的混杂因素遗漏，我们仍应将此类研究列为“可能性较大的有偏倚的研究”。

此类研究的例子包括了众多针对III期胸腺瘤开展辅助放疗的回顾性研究，如

Omasa M, Date H, Sozu T, Sato T, Nagai K,Yokoi K, Okamoto T, Ikeda N, Tanaka F, Maniwa Y et al: Postoperativeradiotherapy is effective for thymic carcinoma but not for thymoma in stage IIand III thymic epithelial tumors: the Japanese Association for Research on theThymus Database Study. Cancer 2015, 121:1008-1016.

Liu Q, Gu Z, Yang F, Fu J, Shen Y, Wei Y,Tan L, Zhang P, Han Y, Chen C et al: The role of postoperative radiotherapy forstage I/II/III thymic tumor-results of the ChART retrospective database. JThorac Dis 2016, 8:687-695.

Boothe D, Orton A, Thorpe C, Kokeny K,Hitchcock YJ: Postoperative Radiotherapy in Locally Invasive Malignancies ofthe Thymus: Patterns of Care and Survival. J Thorac Oncol 2016, 11:2218-2226.

这些研究中并未对患者如何选择进行报道，我们无法判断其效果是来自选择偏倚还是来自治疗。

另一个例子则是

Zheng X, Schipper M, Kidwell K, Lin J,Reddy R, Ren Y, Chang A, Lv F, Orringer M, Spring Kong FM: Survival outcomeafter stereotactic body radiation therapy and surgery for stage I non-smallcell lung cancer: a meta-analysis. Int J Radiat Oncol Biol Phys 2014,90:603-611.

该研究尽管对超过50项研究进行了系统性的综述与数据荟萃，但是在多因素分析中，仅仅对两个因素进行了校正。

4. 有明确偏倚的比较研究（clearly confounded comparison）

关于此类研究往往包括了不可控的可能影响研究结果的偏倚。这并不意味着观察结果与干预手段无关，只是无法将干预带来的效果与可能偏倚分开。比如将接受新辅助治疗后反应良好而接受手术的患者，与接受新辅助治疗后反应不佳而未能接受手术的患者，治疗效果的差异无法避免收到了治疗选择的差异、患者的选择偏倚的影响。

如果一系列类似的研究均产生了矛盾的研究结果，那么此类研究必须视为“有明确偏倚的比较研究”。然而，基于小样本的矛盾结果则应该区别看待。

二、来自间接证据的推断（extrapolationfrom indirect evidence）

面对大部分临床工作时，往往缺乏直接证据的支持，临床医生往往需要从非直接证据进行推测。最常见的证据是将某种癌肿应用十分成熟的治疗方案应用在另一种非常见肿瘤上。

另一项间接推测的模式是，某种干预手段/目标人群的临床证据可获得，但是并不是所感兴趣的研究方向（比如你讲手术，但是文献讲化疗）。根据其强弱可分为以下几种：

1. 受支持的推测（supported extrapolation）

比如将某个人群的研究结果外推到另一个人群中，而如果这两个人群中存在已证实的联系。

又比如将某类同种原理的药品已证实疗效外推到尚未应用的具有同种生物学结构的新药上。

2. 投机推测（speculative extrapolation）

对日常工作的大部分问题，往往都有其他方面的相关研究，但并没有数据证实其可推测的合理性。此外经常碰到的情况是，源数据中的患者因为缺乏细节数据（包括基本及治疗数据），其是否适用于推测给自己管理的患者也有待商榷。

因此该层级的证据其本质就是在缺乏足够证据下的猜测，当然这并不意味着这些推测是不正确的，只是因为缺乏足够的证据，我们无法了解其正确与否。

其应用例子是，寡转移IV期肺癌手术治疗后的辅助化疗的问题，但是我们知道对II/III期肺癌患者开展辅助化疗可以延长生存。

3. 可疑推测（questionable extrapolation）

如果有直接证据表明源数据与现有情况存在不匹配、无法直接推测的情况，即可适于此类别。比如将老年患者的治疗资料外推至年轻患者上，或将健康人群的肺癌筛查结果外推到患有COPD的人群中。

4. 关联（linked association）

这个情况指的是，如果某个人群或某种干预手段证实达到某种中间效果，而其余的证据又指出这种中间效果可能引起进一步的终末效果。这就意味着，某个人群或某种干预手段可能与该种终末效果之间存在某种关联。这种揣测在总体上是合理的，但是仍然是一种假设，并不是一种已证实的直接因果关系。

其中一个例子就是IIIA期肺癌的新辅助治疗。以前有不少研究证实新辅助治疗通过纵隔淋巴结减瘤作用可以有助于预后，此外也有证据证实新辅助放化疗相比新辅助化疗能够实现更好的减瘤作用。但是在RCT实验中，并未能证实新辅助放化疗比新辅助化疗具有更好的生存（p=0.6），尽管其仍表现出更优秀的降期效果（p=0.02）。

Thomas M, Rube C, Hoffknecht P, Macha HN,Freitag L, Linder A, Willich N, Hamm M, Sybrecht GW, Ukena D et al: Effect ofpreoperative chemoradiation in addition to preoperative chemotherapy: arandomised trial in stage III non-small-cell lung cancer. Lancet Oncol 2008, 9:636-648.

5. 替代终点（surrogate end point）

替代终点指的是那些相比真正终点而言更容易获取的、与真正终点有某种联系的、可以起到部分替代作用的终点。比较常见的是临床上的ORR与生存之间的关系。

三、合理性（rationale）

合理性强调的是一种逻辑上的辩证，是在缺乏临床证据的前提下的应用。其逻辑关系源自基础学科、临床前学科、基础生物学、病理学等学科的证据。可分为以下3类：

1. 受支持的逻辑（supported rationale）

指的是来自基础学科等临床前学科的数据支持其合理性，但即便如此仍需在临床应用时审慎对待，最好的例子莫过于化疗药物的实验室证实疗效在临床应用中却不再出现。

2. 孤儿逻辑（unopposed rationale）

孤儿逻辑指的是那些缺乏合理替代解释的逻辑，但是这是在审慎思考的前提下定义的。这种逻辑受个体信念的影响极大，往往来自未经思考就否定其他可能性的情况下。比如生活常识就是这种孤儿逻辑。

3. 争议逻辑（controversial rationale）

经常碰到的关于某种情况有多种不同的解释，即争议逻辑。在争议逻辑范围内，我们只能说某种解释可能强过其他解释方式，但不能否决其他解释方式，即这是一种争议的状态。

四、临床经验（clinical experience）

这是基于既往患者资料的非系统性临床观测或轶事件的耳闻目染而逐渐形成的一种总体印象。其往往具有以下几个特点：个体户、主观化；含糊的、不明确的数据；人性的特点使得该种经验容易收到各种各样偏倚的干扰。其往往表现为一种“临床直觉”，但是人性的一个重要陷阱是，人们会不断地重复重复同一件事情却不会去尝试新的东西，因此这种源自不断重复的直觉并不就是最佳的解释或处理方案。

为此，在临床工作中，应该尽量避免那种依赖“临床直觉”进行处理的方式，尤其在确定总体治疗方针时。

拙见

在循证医学不断发展的今天，在临床证据不断更新进展的时代，不会良好地、科学地评估临床证据，不啻为瞎子摸象，将会极大地影响个人知识体系的构建与患者治疗决策的选择。

正因如此，郑医生初见这篇文章时，确实眼前闪了一下，所以才迫不及待地全文看完。就个人而言，觉得全文框架十分明显，从非随机对照研究、来自间接证据的推断、逻辑合理、以及临床经验，其证据级别不断下降。而在不同的分类中，又有不同的亚分类与之相对应。总体上，这个分级制度十分实用，对于临床工作指导十分有效，能让我们对接触到的大部分证据进行一个个体化的分层，也进一步引导我们的独立思考。

在实际生活中，那些层出不穷的RCTs，看似层层叠叠，但是往往围绕一个小问题开展。而那些牛人辈出的肿瘤学年会，往往也只能集中就一两个治疗热点进行报道。因此，在实际情况下的实际问题是，临床医生在临床工作中遇到的大部分临床问题，都没有高层级证据可借鉴。没有高层级证据借鉴就意味着指南方面往往也不会有明确规定，这时候如何评估可获取的低级别临床证据，并加以取舍就十分重要了。希望郑医生这次分享的GRADE分层方法，能为大家提供一个可供借鉴的评判方式。

专家介绍：

微信图片_20170912104030.jpg

责任编辑：肿瘤资讯-Ruby

臻知拙见（2） 如何正确解读低级别临床证据？