首页 > 文章详情

中国循证医学杂志 | 如何整合随机与非随机干预研究

2022年10月18日

作者：赖鸿皓、田晨、朱鸿飞

来源：中国循证医学杂志

高质量随机对照试验是解释医疗卫生干预措施与结局之间关系的最佳证据来源，但在其不充足、不直接、不适合等情况下，研究者可能需要纳入非随机干预试验以扩充证据数量和增强证据确信度（质量）。 GRADE工作组的最新研究为指导研究人员正确整合随机与非随机干预研究证据提供了方法。本文将基于最新和既往研究，介绍相关方法学，旨在为系统评价制作者、卫生技术评估人员、指南制订者和使用 GRADE 进行证据综合的其他研究人员提供指引。

背景

在系统评价中，高质量的随机对照试验（randomized controlled trial，RCT）是比较干预措施相对效果最为可靠的证据来源。与之相对地，非随机干预研究（non-randomized studies of interventions， NRSI）也能够提供相应证据。但由于其存在混杂因素的可能性更高，使得 NRSI 在证据支撑上的应用受到很大制约。

NRSI 在 Cochrane Handbook中被定义为任何不使用随机化方式将单位（个体或个体集群）分配到不同研究组中的评估干预（有益或有害）有效性的定量研究，非随机的研究设计是导致怀疑其结果远离真实值的重要原因。队列研究、病例-对照研究、自身前后对照研究、研究设计不当的“准随机对照研究”和特殊类型的非随机数据分析等，都属于 NRSI 的范畴。

在进行证据整合和系统评价时，当 RCT 无法回答目标 PICO （population， intervention， comparison，and outcome）问题时，我们仍需要纳入 NRSI 以补充、递补或替代 RCT 证据（图1）。常见情况包括随机设计不切实际或难以实现、可用的 RCT 数量稀少、RCT 样本量不足等。尤其在中医药循证医学研究领域，研究人员常受制于薄弱的证据基础，难以甚至无法形成证据。真实世界研究（real-world study，RWS）认为，RCT 纳入人群可能无法与现实世界人群一致，仅使用 RCT 的证据可能无法真实地反映在日常卫生健康活动中目标干预措施的相对效果，而 NRSI 有时相较于 RCT 更接近目标 PICO。对证据直接性的强调与追求，也是纳入 NRSI 作为证据来源的重要出发点。在这类情况下，将 NRSI 纳入证据合成，是可取的、合理的。然而证据合成过程仍需要严谨的方法，以尽可能减小偏倚的产生，避免信息误用或滥用。

微信图片_20221018113849.png

图 1 NRSI 在证据合成中的作用

基于上述考虑，本文将结合发表于 Journal of Clinical Epidemiology 的随机与非随机研究证据合成优化方法学文章，重点阐释在系统评价的过程中检索和纳入 NRSI 的时机和关键点。旨在帮助系统评价作者、卫生技术评估人员、指南制订者和使用 GRADE 进行证据综合的其他人员尽可能地获得高确信度（质量）的证据。

纳入 NRSI 的选择

在证据合成研究中，是否需要纳入 NRSI 是首先需要考虑的问题，其次是纳入时机。不合实际或不合时宜地纳入 NRSI，都不能优化证据合成。对于该问题的考虑应当从证据合成研究的计划阶段开始，以研究的单个结局为单位分别进行，详见图 2。

微信图片_20221018113952.png

图 2 证据合成研究中考虑纳入 NRSI 的流程图

计划阶段的选择

对于计划纳入 NRSI 的证据合成研究而言，过程中会涉及繁多且关键的选择点，不同选择对结果影响重大，因此计划阶段的研究方案制定比正式开展研究更为重要。在计划阶段最初，研究人员应当以目标干预措施为主要切入点进行考虑，明确可用证据的范围，确定解决 PICO 问题的最佳研究设计，说明研究将会纳入 RCT 还是 NRSI，亦或是二者兼有，并报告文献类型的选择理由，然后进行文献检索（图 2，节点①和②）。此时研究人员只需要考虑 RCT 对评估干预措施相对效果的作用，而无需考虑 RCT 是否可及。

因 RCT 无法很好地评估干预措施的相对效果，不能为解决目标问题提供合适的证据而纳入 NRSI 的常见情况有：① 目标结局发生率低或发生时间漫长，证据需要在大样本人群中经过长期观察才能获得，RCT 难以实施；② 研究问题涉及罕见、突发、重大的疾病或事件时，随机分组设计过程可能有违伦理、危害患者健康、造成严重后果，RCT 不应实施；③ RCT 严苛的纳入排除标准等可能导致证据与目标人群或实际情况之间存在严重间接性时，RCT 证据无法很好地回答研究问题。此类情况下，NRSI 可能提供用以补充、递补或替代 RCT 证据的信息，从而对总体证据的确信度作出重要贡献。

在进行初步的考虑之后，研究者可通过范围综述对研究进行初步探索，以估计研究范围和大致工作量等，对研究相关知识进行综合。研究人员也需要借助范围综述的结果来判断 RCT 的可及性（图 2，节点③），RCT 可及与否将决定正式系统评价的走向。

系统评价阶段的选择

若在计划阶段判断 RCT 不可及，则直接对 NRSI 进行文献检索和筛选，在此过程中同样需要判断 NRSI 的可及性。若 NRSI 可及，则对其进行分析；若 NRSI 不可及，则终止该研究。

若判断 RCT 可及或不确定其可及性，则需先对 RCT 和 NRSI 同时进行文献检索和筛选，并按 RCT 优先，NRSI 在后的顺序进行分类（图 2，节点 ④）。如果存在 RCT，则对其进行数据提取、偏倚风险评价和 GRADE 分级（图 2，节点⑤）；若未发现 RCT，再将视线转向 NRSI（图 2，节点⑧）。

在这一阶段，有 2 个问题是值得我们注意的：一是，对 RCT 证据是否有足够的判断。当文献检索和筛选的结果趋于极端时，即没有 RCT 纳入和 RCT 数量非常充足、证据高度契合研究问题的情况，研究者很容易判断单靠 RCT 是否足以提供证据支撑。但当研究者对纳入的 RCT 证据回答问题的能力存疑时，则需要与专家小组进行探讨，以作出二选一的抉择：① 纳入的 RCT 证据能够回答研究问题，当前仅考虑 RCT 证据；② 没有 RCT 证据能够回答研究问题，仅使用 NRS I 证据。二是 NRSI 的文献检索问题。由于研究类型多样，且研究设计标签名称、使用不统一，数据库也缺乏 NRSI 的可靠索引，其检索难度相较于 RCT 的检索要大很多。宽泛的检索策略能够减少漏检，但同时也大大增加了系统评价员的工作量。因此，在对 NRSI 进行检索之前，需要与专家展开充分讨论，以优化检索策略。

在节点⑤，研究者应使用 GRADE 的方法对每一个 RCT 进行评估，并始终考虑每一个结局，从而评估证据体的确信度（图 2，节点⑥）。若结果认为来自 RCT 的证据确信度很高，则研究者无需再考虑纳入 NRSI，且只能使用来自 RCT 的证据；若没有来自 R CT 的高质量证据，则需要考虑纳入 NRSI（图 2，节点⑦）。纳入 NRSI 的决定还需要依据范围综述对其证据确信度贡献的判断，若不能发挥作用，则不应再纳入 NRSI；若能发挥作用，则返回到文献检索和筛选阶段（图 2，节点⑧），将 NRSI 纳入系统评价。此时可能出现 2 种情形：① 来自 RCT 的证据确信度为“低”或“极低”，则 NRSI 可能对其具有补充、递补甚至替代的作用； ② 来自 RCT 的证据确信度为“中等”，则 NRSI 可能具有进一步补充作用（图 2，节点⑨）。

在证据综合中整合 RCT 和 NRSI

合理评价纳入研究的偏倚风险

纳入研究的偏倚风险结果是研究者对证据进行 GRADE 分级的重要依据。对 RCT 的偏倚风险评价方法是相对成熟的，但对于 NRSI 而言，偏倚风险评价更具有难度和挑战。

与 RCT 评价相似，NRSI 的评价考虑的应是发生偏倚的领域和程度。一些 RCT 产生偏倚的因素同样常见于 NRSI，且通常程度更为严重。例如， NRSI 的研究对象失访、脱落现象往往比 RCT 更严重，且缺乏相关信息的详细报告；研究没有或很少根据计划书开展；缺乏洗脱选择性报告嫌疑的手段等。在实际应用中，部分证据使用者可能会认为 NRSI 的观测时长通常数倍于 RCT 的实施时间，从而产生 NRSI 证据质量更高的误判。或是过度强调证据直接性，而忽略其偏倚风险。

目前使用的几种 NRSI 偏倚风险评估工具有 NOS（Newcastle-Ottawa scale）、Downs-Black、 CASP（critical appraisal skill program）和 ROBINS-I （risk of bias in non-randomised studies of interventions）等。其中，ROBINS-I 工具涵盖了所有重要的偏倚风险领域，使用范围更广，尤其在同时纳入 RCT 和 NRSI 的系统评价中，ROBINS-I 能够先将 NRSI 视为 RCT 进行评价，降级原因不是 NRSI 缺乏随机化，而是其随机化不好。而对于具有相似偏倚的 RCT 和 NRSI，它能够对二者的合并证据体进行证据确信度分级。ROBINS-I 对不同研究相似性的理解更好，可能是最适合用于纳入了 NRSI 的系统评价的偏倚风险评价工具。

可能出现的证据情况

若研究者在系统评价中同时纳入 RCT 和 NRSI 2 种类型研究，回答同一问题则有可能出现16 种不同的证据确信度组合（图 3）。

微信图片_20221018114102.png

图 3 两种研究证据可能出现的 16 种情况

在图 3 呈现出的 16 种可能中，并不是所有情况都需要考虑纳入 NRSI。在 A、B、C、D 这 4 种情况下，来自 RCT 的证据已能够近乎完美地回答问题，此时即使纳入高质量 NRSI 也不会再提升证据的确信度，因此研究者无需再考虑纳入 NRSI。若关注结局为有利结局，E、I、M 这 3 种情况则极不可能发生。即使存在微小的可能性，研究者也应当先对 RCT 的证据确信度较低的原因进行个案评估，再考虑是否需要纳入 NRSI 证据。M、N 的发生概率也是极低的，但这 2 种情况下纳入 NRSI 可能是有用的，研究者仍需要在评估 RCT 证据确信度较低的原因后再进行考虑。当 P 发生时，研究者进行证据补充也不会改变证据确信度的情况，此时纳入 NRSI 是没有必要的。而对于其他的7 种情况（F、G、H、J、K、L、O）而言，研究者可考虑纳入NRSI，因为补充的证据可能增加当前证据的确信度。但当 RCT 的证据确信度相对较低时（J、O），研究者仍需要对其原因进行评估。

整合 RCT 和 NRSI 的具体形式

Cuello-Garcia 等认为，“整合”一词泛指将 RCT 和 NRSI 一起使用的任何形式（定性分析、定量分析、定性与定量分析），可以是在证据总结表中分别展示 2 种研究的证据，亦或分别进行 Meta 分析，甚至是可以分析计算 2 种研究的合并结果。Reeves 等认为不同研究设计间的结果差异是系统性的，即 R CT 和 NRS I 不应放到同一 Meta 分析中进行数据合并，并且 2 个及以上研究设计迥异的 NRSI 同样不应进行 Meta 分析。而当排除了极高偏倚风险的研究后，将 PICO 相似的队列研究和病例-对照研究进行 Meta 分析才具有一定合理性。

在Cuello-Garcia 等的调查中，138 位来自 Cochrane 协作网、世界卫生组织等研究机构的系统评价和临床指南专家受邀回答了他们关于使用随机和非随机证据的态度与偏好。大多数研究者（66.3%）会在合适的情境下纳入 NRSI 以最大限度地利用证据，但很少有研究者（17.5%）会在一个 Meta 分析中计算 RCT 和 NRSI 的合并值。大多数研究者还是更愿意将不同的研究类型分开分析，如进行单独的 Meta 分析和亚组分析等。

当进行此类 Meta 分析时，逆方差法（inversevariance）可能是最为适用的。如果 Meta 分析合并了多种类型的研究，那么合并结果的异质性大概率会很高。因此，研究者应当默认选择随机效应模型进行数据合并；若选择使用固定效应模型，则应阐明理由。

讨论

本文介绍的方法来自于 GRADE 工作组的最新研究成果，但对于该问题的探讨还远没有结束。系统评价制作的部分方法仍需要更多解释、调整和优化，以有效控制研究者主观因素对结果产生影响的偏倚风险。GRADE 工作组未来需要重点解决的问题包括但不限于纳入 RCT 和 NRSI 的系统评价中的 GRADE 分级方法、证据合成具体形式和采取该形式的适用条件等。

在是否纳入非随机研究设计的考虑过程中， NRSI 的范围问题是基础且关键的。目前没有一个具有普适性的标准能够明确告诉研究者回答 PICO 问题应当使用哪一种特定类型的 NRSI。因此，预先进行范围综述是提高研究者后续判断准确性的重要步骤。由于 NRSI 的范围通常较大，也很少会有准确的标签、索引，文献检索前也需要进行充分讨论和预调查。在 GRADE 分级中，患者重要结局证据确信度为高，并不意味着其他结局也拥有同等证据确信度，因此，研究者应当对每一个结局都独立地评估证据等级。不同研究设计的 NRSI 在偏倚风险评价、证据确信度评级上的侧重点不同，用于研究干预措施的 NRSI 也通常比较复杂，可能不适合用现有的证据层次结构套用。因此，研究团队中应至少有一名了解该主题和 NRSI 方法的专家，以帮助解决这些复杂问题。

在一个系统评价或指南中同时纳入 RCT 和 NRSI 具有一定复杂性和争议性，但对该方法进行讨论和实践，却是必要而充满意义的。在证据制作过程中纳入 NRSI 这一构想，是研究者在漫长的循证医学实践过程中以实际问题为导向反复思索的产物。当然，RCT 具有严谨的研究设计，能够有效平衡基线预后因素，从而使结果最大限度地接近真实值。然而当我们需要解决 RCT 无法回答或无法完美回答的问题时，来自 NRSI 的证据有可能成为决策的有力支撑。有研究验证，来自 RCT 和观察性研究的大多数证据之间并不存在显著异质性，这也增强了我们使用 NRSI 的信心。不止如此，现实情况的复杂性还催生出一种“反常的”特殊情况，即对于特定的问题，NRSI 能够提供比 RCT 更直接、更具确信度的证据。总而言之，考虑纳入 NRSI 的过程，其实就是综合权衡 RCT 与 NRSI 在解决目标 PICO 上的优势与缺陷，而后做出最有利于证据的选择。其关键点在于预先对复杂过程、复杂方法的把握程度，以及每一个判断节点的谨慎、合理。

讨论在证据合成中纳入 NRSI 的意义不仅在于对最佳证据的不懈追求，某种程度上也是对传统观念里“次等”研究的运用探索，而这样的证据优化方式也越来越受到重视。随着学科发展，未来基础研究与证据的关系会呈现怎样的走向？是以证据制作为出发点来调整基础研究的发展方向，还是在如何利用好现有资料上去动脑筋？至少对于我国中医药事业的发展而言，如何利用好现有的资料，如何将名家经验、古典古籍、特色研究等转化为具有说服力的证据，寻找和发挥其在完善证据中的优势，是值得期待的。方法学对具体研究的开展具有指导意义，具体研究反作用于方法学。只有当愈来愈多的学者制作纳入 NRSI 的系统评价，方法学家才有可能从足够的实例中取得突破进展，而在某种程度上，无论方法学对其持支持还是否定态度，该类型系统评价的大量出现也势必推进方法学的创新和发展。

参考文献

赖鸿皓，田晨，朱鸿飞, 等. 如何整合随机与非随机干预研究. 中国循证医学杂志. 2022, 22(7): 836-841. DOI: 10.7507/1672-2531.202201089.

排版编辑：Mathilda

研值圈Sci Value Hub—为医疗创新贡献价值