中国抗癌协会肿瘤大数据与真实世界研究专业委员会. 肿瘤大数据与真实世界研究中国专家共识(2022版)[J]. 中华肿瘤杂志, 2022, 44(12):1330-1343.
DOI: 10.3760/cma.j.cn112152-20220628-00458
肿瘤是需要高度重视的公共卫生问题及社会问题。中国肿瘤患者不仅数量众多,而且在病因、流行病学、疾病谱、治疗方式等方面与西方国家存在较大差异。因此,中国肿瘤相关数据具有自己的特点,如果完全参照西方国家数据,则不能正确反映中国肿瘤防治的真实现状。若能整合、处理、分析中国数据,并在特有病因、发病率、药物敏感性、预后等方面找到规律,将对制定卫生政策、医学研究、疾病预防等起到重大作用。中国抗癌协会肿瘤大数据与真实世界研究专业委员会组织多学科专家,结合国内外文献和临床实践,经过反复讨论修改,基于肿瘤大数据与真实世界研究的背景、分析与管理、方向规划与操作流程、基本设计、质量控制标准、证据级别分类、数据安全与隐私标准等方面,最终形成《肿瘤大数据与真实世界研究中国专家共识(2022版)》,旨在发挥中国肿瘤大数据的优势,开展高质量的真实世界研究,更好地推进中国肿瘤防治工作。
【关键词】肿瘤;大数据;真实世界研究;专家共识
肿瘤大数据与真实世界研究背景
近年来,随着人工智能不断发展,数据处理手段不断丰富,医疗机构逐渐积累了总量庞大的医疗数据。电子病历是信息技术发展的重要产物,是医疗数据的主要来源。中国国家癌症中心汇集中国各级肿瘤医院的健康信息系统数据,逐步开展数据规范化治理,标准化存储结构和术语编码,使高质量的大规模真实世界研究有了发展的土壤。
1. 肿瘤大数据与真实世界研究定义:真实世界研究是指针对预设的临床问题,在真实世界环境下收集与研究对象健康和疾病有关的数据(真实世界数据)或基于这些数据衍生的汇总数据,通过分析,获得药物或相关器械使用情况及潜在获益-风险的临床证据(真实世界证据)的研究过程。真实世界研究可以是观察性研究,也可以是干预性研究。
与传统随机对照试验(randomized controlled trial, RCT)不同,真实世界研究的数据来自真实临床场景,证据外推性好,可用数据量大,研究易于开展,成本相对较低,可帮助研究者发现临床实际情况与理想RCT研究之间的差距。真实世界研究数据来源广泛多样,电子健康档案、移动终端、社交媒体、付费账单、调查问卷等都可以是真实世界数据的来源。
抗肿瘤新药和治疗手段层出不穷,但实际应用疗效仍有待考证。虽然每年均有多种用药规范和诊疗指南出台,但并不能覆盖所有患者群体。此外,由于肿瘤的复杂性、异质性,临床实际情况与RCT研究所设定的人群往往有较大差异,RCT研究结果无法完全外推,也不适用于所有临床实际情况。肿瘤治疗经历了漫长的发展历史,从经验医学时代到循证医学时代,临床医学范式也在不断变迁。现代信息科学和治疗技术迅速发展,未来的医学证据模式也将随着真实世界研究和大数据的发展而产生巨大变革。
2. 国内外真实世界研究现状:20世纪70年代以来,监管部门一直使用真实世界证据来批准罕见疾病的新治疗方案。2016年12月,美国食品药品监督局(Food and Drug Administration, FDA)通过的《21世纪治愈法案》标志着真实世界研究走上更大舞台,允许利用真实世界证据取代传统临床试验进行扩大适应证的批准。美国FDA随后又于2017年8月、2018年7月、2018年12月、2019年9月先后发布了《采用真实世界证据支持医疗器械的法规决策》、《临床研究中使用电子健康档案数据指南》、《真实世界证据方案框架》、《使用真实世界数据和真实世界证据向FDA递交药物和生物制品资料》,进一步完善了政策体系。同时,欧盟药品管理局、日本药品和医疗器械管理局也在多个层面体现对真实世界研究用于药品研发和监管决策的关注和重视。
尽管我国真实世界研究尚处于起步阶段,但发展速度快,政府重视程度高,国家药品监督管理局2020年连续发布《真实世界证据支持药物研发与审评的指导原则(试行)》、《真实世界证据支持儿童药物研发与审评的技术指导原则(征求意见稿)》、《用于产生真实世界证据的真实世界数据指导原则(征求意见稿)》、《真实世界数据用于医疗器械临床评价技术指导原则(征求意见稿)》等多项指导原则,规定了真实世界证据支持药物研发和监管决策等情形,为国内真实世界研究提供具体指导意见。2019年6月,国家药品监督管理局与海南省政府联合启动临床真实世界数据应用试点工作,具有示范导向作用。
真实世界研究登记数量不断增长,截至2020年8月,全球登记真实世界研究共2 122项,1 020项(48.07%)处于活跃状态,其中中国是真实世界研究申报最为活跃的地区。真实世界研究发展迅速,年发文量逐年稳步增长。1983—2018年百万级医疗大数据真实世界研究共发文83篇,多数文献集中于近5年,主要研究方向包括增进对疾病或状态的认识、疾病分布情况、药物安全监测、疾病识别、卫生经济学等。
3. 真实世界研究挑战与机遇:真实世界研究存在许多挑战。在研究设计方面,需选取具有切实临床意义的研究问题,并调用适配度高、样本量足够大的数据集。研究开展方面,真实临床场景中存在复杂多样且难以控制的偏倚,需预先核实数据完整性和准确性,此外,开展跨区域合作时,还需明确数据所有权、访问权限、采集和清洗标准等。基础架构方面,合理部署信息化基础设施是大数据应用的前提,需标准化规范采集数据,不断更新迭代人工智能等方法学逻辑。伦理及安全问题也不容忽视,在医疗大数据应用中,需警惕和重视信息安全与隐私保护,最终目标是在个体隐私保护和数据价值挖掘之间实现平衡。
尽管真实世界研究仍为后起之秀,面临诸多挑战,但近几年,支持政策陆续出台,电子病历的管理日益标准化,学界日益关注,中国真实世界研究相关文章发表量逐年上涨,在科学技术和政策的双重推动下,医疗大数据将进入快速发展新时代。
肿瘤大数据分析与管理
(一)可行性评估
1. 数据来源可行性评估
(1)利用现有数据:现有数据主要包含医疗机构产生的电子病历(electronic medical record, EMR)和随访信息,分子生物学检测产生的组学信息,公共部门的电子健康档案、医保数据、出生死亡登记、公共健康监测数据以及区域化医疗数据等,分为可直接利用的结构化数据和需要进行数据提取的非结构化数据。这些数据体量非常庞大,但由于数据的采集并非为某特定研究目的而设计,故数据分散、异质性高,完整性和准确性也有待验证。主动收集的数据,如临床试验的补充数据、实效性临床试验(pragmatic randomized clinical trial, pRCT)、注册登记研究、健康调查、公共健康监测等来源的数据,在收集之前已明确具体研究目的和数据收集目标,数据更加规范、标准、完整、准确。
对于特定科研方向的真实世界研究,需要对数据进行可行性评估,主要包括所需数据的覆盖程度以及数据可关联性、准确性、可靠性、完整性和可溯源性等。首先,基于目标研究方向的临床问题确定主要变量,如待研究的干预措施、主要结局、人口学特征、既往病史、实验室信息管理系统(laboratory information management system, LIS)和影像学数据等关键变量是否存在;其次,抽样评估或对全数据集评估主要研究变量及其他相关变量的数据缺失情况。
(2)获得新增数据:基于待研究的临床科研问题,对现有数据完整度、覆盖度进行评估后,可以进行缺失数据补充。如关键变量整体信息缺失,可通过与数据生产系统重新对接,关联研究人群,补充特定字段;预后信息缺失,可通过医疗机构进行后续随访补充;缺失程度低的变量,可在后续分析步骤通过统计方法进行弥补与校正。
2. 研究主题可行性评估
(1)确定研究主题:真实世界研究首先需要确定研究对象,即选择暴露组、对照组及设定纳入排除标准。需要评估是否有明确的暴露定义,如有无干预方案、暴露的模式或顺序等。对照组的基本要求是尽可能保证与暴露组具有可比性,即对照人群除未暴露或低水平暴露于研究因素外,其他各种可能影响研究结果的因素或人群特征(年龄、性别、民族、职业、文化程度等)都应尽可能与暴露组分布一致,可通过基线数据分析评估两组均衡性。病例对照比例一般为1∶1到1∶4不等,需要评估对照组样本量是否充足,应优先选择内对照,次选外对照或总人口对照。
(2)选择协变量:协变量的选择应首先综合现有诊疗指南和既往研究结果,对所有观测到的可能与结局相关的基线变量进行初步选择,形成变量集合,再通过数据驱动的变量间相关关系学习,结合专业经验知识及已知危险因素进行筛选,确定纳入分析模型的协变量。
3. 数据获取与存储可行性评估
(1)数据获取:数据收集前,需明确数据所有权,在获得授权后,通过特定访问方式(特定网络连接方式、指定端口)或加密传输介质进行数据获取,确认同时采集到目标数据的数据结构说明以及编码转化逻辑,保证数据可及性及可操作性。
(2)数据存储:采用Hadoop分布式架构与关系型数据库相结合的方式存储,支持PB级数据量快速处理、大规模数据秒级检索,采用安全套接字层协议加密,分离密钥和加密数据,使用过滤器和数据备份等方式,构建安全存储策略。
(二)数据质量控制
1. 数据清洗:原始数据具有多源异构特性,针对特定临床科研问题,需要进行数据清洗来提高数据可用性。首先制定标准模型,建立统一的数据标准,覆盖研究涉及的变量,将原始数据以标准模型表结构入库,完成字段对照。将原始数据字段按照标准模型字段项进行截取、提取和数据类型转化,非空项为空时,需按照模型中的默认值进行补充。利用数据来源方提供的字典表,将各数据表中的编码转换为预设的标准编码,对数据进行全字段去重,排除重复数据。最后核查数据量,进入标准模型的数据量应与原始数据量保持一致。对于缺失数据,在能够溯源的情况下,尽可能通过数据补充采集进行完善;对于无法溯源的情况,需要明确缺失值的分布情况,判断其分布是否随机,如果为随机,可以通过统计方法进行插补,如有偏倚,则考虑后期分层分析。
2. 偏倚和混杂因素控制:研究中的系统误差主要包括信息偏倚、选择偏倚和混杂偏倚。其中,信息偏倚主要来自资料收集和解释过程中的错误信息,可以通过加强研究设计阶段对各种变量的规范定义、标准化数据转换规则、对变量值域进行明确定义等方法进行控制。选择偏倚可以通过严格掌握研究对象的纳入排除标准来控制,减少因特定信息缺失而排除的样本数据对实验结果的影响,同时确保对照组和病例组的基线可比性,如年龄、性别、病情严重程度、经济状况等,也可采用多种对照,以减少选择偏倚对结果的影响。混杂因素控制方面,在研究设计阶段对研究对象的入排标准加以限制可以初步控制混杂偏倚。如果混杂变量数较少,可以通过匹配和统计学调整控制混杂偏倚,以测量风险因素对结局的真实影响。针对较多混杂变量的情况,可以采用倾向性评分的方法,在一定协变量条件下,实现对多种混杂因素的控制。
(三)分析方案
1. 分析方案管理
开展真实世界研究需要确定临床研究问题,对现有数据进行评估,随后进行研究方案设计与选择、确定统计分析方法、结果解释与再评价。为了减少潜在的偏倚,需要谨慎而周密的研究设计方案,并且应在确定研究问题后尽早开始制定研究方案和统计分析计划。
临床数据分析通常会围绕着病因、诊断、治疗、预后及临床预测等相关研究问题展开。病因研究主要是研究危险因素与疾病之间的关系及发病机制。诊断试验主要是研究某类新方法对特定疾病诊断的准确度,以判断其临床应用价值。治疗性研究主要是研究某类治疗方案对特定疾病的疗效及不良反应。预后研究是对疾病不同发展结局的可能性预测,以及研究影响预后的因素。目前,临床上真实世界数据研究包括观察性研究和试验性研究。观察性研究包括病例个案报道、单纯病例研究、横断面研究、病例对照研究和队列研究。
2. 传统统计模型
肿瘤大数据常用医学统计模型有线性回归模型、logistic回归模型、Cox比例风险回归模型等。传统统计分析是基于样本数据分布的假设对样本数据进行基本描述,主要通过在有限时间内观察随机过程来推断事件发生的概率。相比之下,机器学习算法能够通过丰富的数据学习方法概括数据特征、预测数据结果,而不必对数据分布进行假设。由于大数据的复杂性和多样性,传统的统计推断模型普遍适用性不如机器学习算法。
3. 人工智能方法
人工智能方法的核心是机器学习算法,主要有3种学习方式。
(1)监督学习:监督学习是最常见的机器学习算法,每条训练数据都含有特征组与标签两部分信息,特征组是对相应对象特征的描述,标签则是对象的1个属性。监督式学习的任务是根据对象的特征组对标签的取值进行预测。
(2)无监督学习:无监督学习训练数据不含标签。无监督学习的任务通常是对数据本身的模式识别与分类。
(3)强化学习:强化学习通过对正确的行动进行奖励来摸索应对环境变化的最优策略,是介于监督学习和无监督学习之间的一类机器学习算法。一方面,强化学习没有一组带有标签的训练数据作为输入,算法需要自发地探索环境来获得训练数据,而另一方面,由于环境对每个行动都能提供反馈,所以可以认为通过探索得到的训练数据是带有标签的。
监督学习算法有支持向量机、贝叶斯学习、决策树、逻辑回归等,无监督学习算法有K-means聚类、关联规则学习等,强化学习算法有Q-learning、Sarsa等,还有神经网络等特殊算法。目前,疾病风险预测量化识别技术的主要思路是将疾病风险问题转化为统计中的分类问题,然后采用对应模型处理。最普遍应用于疾病风险预测并具有较好效果的算法包括支持向量机、神经网络、随机森林和朴素贝叶斯。
(四)评价
1. 机器评分:根据研究结局的类型不同,可以对分析模型的性能引入不同评分方式进行评估。
针对二分类问题,可以通过引入真阳性、真阴性、假阳性、假阴性形成混淆矩阵,再根据待研究问题对假阴性和假阳性的不同容忍度选择合适的指标进行评估。绘制受试者工作特征曲线,曲线越远离45°斜线,表示分类效果越好。也可以通过计算准确率、召回率、精准率,以及平衡了召回率和精准率的F1值和平均准确率指标,整体评估模型性能。
针对多分类模型,可以类似二分类问题计算多元混淆矩阵,评估模型性能,也可以通过计算汉明损失值评估被错误分类的标签占比来评估模型性能。
针对连续变量问题,可以通过L1和L2距离、残差、均方根误差(真实值与预测值之间误差的平方和均值)、回归平方和(预测值与样本平均值之间误差的平方和)、平均绝对误差(真实值与样本平均值之间误差的平方和均值)、R2(样本的总偏差平方和中被回归平方和解释的百分比)等进行评估。
2. 专家评价:在使用研究结果之前,医学专家需要对分析模型指示的结果从医学角度进行评价,判断数据驱动得到的结果是否具备医学意义。如果发现新的混杂因素,需要对数据收集、纳入排除条件修改后重新统计。
(五)输出与反馈
1. 输出管理:为确保数据全流程安全,需要根据接触信息的不同维度和时间进行输出管理。数据的安全管理贯穿于数据收集、提取、存储、输出、销毁的数据治理全生命周期,包括存储和传输中采用的加密技术、访问控制机制,完善的人员管理制度、风险评估与管理流程、信息与文档管理规范、应急处置操作规程等,并应开展安全措施有效性审计。
2. 终端反馈信息:高效而便捷的终端信息反馈可以辅助科研工作者加强信息利用效率。通过数据终端以数据可视化的形式进行信息反馈,能够将人面对可视化信息时强大的感知认知能力优势与计算机的分析计算能力优势有机融合,在数据挖掘等方法技术基础上,结合认知理论、科学可视化和信息可视化理论、人机交互技术,辅助人们更为直观和高效地洞悉大数据背后的信息。
3. 再评价:目前,循证医学已被广泛接受,医护人员的主要注意力在于“从证据到建议”。因此,在使用研究结果之前对证据进行严格的再评价是该过程的关键。医学研究应常规使用科学的方法来识别、评估和综合信息,必须对研究进行方法学质量评价和证据质量评价,如选题、纳入排除标准、数据收集、质量控制、统计方法等方面。
(六)安全与合规
2020年,《关于构建更加完善的要素市场化配置体制机制的意见》明确提出“加快培育数据要素市场”,包括推进政府数据开放共享、提升社会数据资源价值、加强数据资源整合和安全防护。“没有网络安全就没有国家安全”,随着近年来法律体系的逐步完善,我国对于数据保护的监管体系逐步向纵深发展。
真实世界数据所在单位应根据《数据安全法》、《个人信息保护法》的要求逐条细化管理规定,构建数据安全监管机制和数据安全审计体系,将内部审计与外部审查相结合,将数据合规落到实处。如基于《信息安全技术 重要数据识别指南》(征求意见稿)等规章构建数据安全治理体系,逐步改进数据安全治理过程;基于《信息安全技术 个人信息去标识化指南》(GB/T 37964-2019),综合运用泛化技术、隐私计算、联邦学习等一系列分布式计算存储、脱敏技术,降低个人数据在处理过程中的重识别率,使数据可用不可见,保护个人数据安全与患者隐私。
在大数据+科研场景下,面向医院信息系统(hospital information systems, HIS)、EMR、LIS、放射信息管理系统或医学影像存档和通信系统,以及病理、心电图、超声、体检、基因、手术等高通量医疗数据集成平台,应基于数据分类分级标准,制定不同的脱敏策略及保护制度,数据使用者调用各类数据的过程应保证可追溯性,在有效保障数据安全的前提下进行真实世界研究。如果在数据使用过程中发生泄密事件、带来经济损失或造成其他严重后果,具体科研课题相关单位及其负责人、相关人员应当承担责任。构成犯罪的,依法追究刑事责任。
真实世界研究的方向规划与操作流程
(一)真实世界研究方向
真实世界数据通常包含3种基本信息,即患者特征、治疗情况和最终结局。每种信息包含多种变量,由此可以设计出不同方向的真实世界研究。真实世界研究具有广泛的应用场景,可探讨的问题边界也在不断扩展。目前在药品审批决策中,各国注重利用真实世界研究探明药物或治疗手段的有效性与安全性。真实世界研究还能为特定特征患者的最佳诊疗路径、疾病对特殊人群的影响等问题提供解决方案。此外,真实世界研究还可对药物经济学、不良反应等进行分析与把控,全面覆盖不同利益相关方的需求。
1. 评价患者疗效:虽然传统的临床研究数据是通过既定规则和程序进行收集和验证的前瞻性数据,但由于入排标准严格,参与临床试验的患者群体与临床日常诊疗的患者群体存在显著差异。由于实际临床中部分患者依从性降低、耐受性降低、竞争性死亡风险增加或临床症状恶化,在RCT中显示的疗效可能会在真实世界临床实践中被“稀释”,甚至实际价值降至可接受的阈值以下。因此利用真实世界研究重新审视不同药物在临床中的实际疗效具有重要价值。
2. 评价药物安全性:在药物上市后收集真实世界数据开展安全性评价至关重要。临床试验中暴露的患者数量有限,研究人员只能观察到常见的不良反应,可能遗漏罕见的不良反应。即使观察到少量事件,也难以准确估计与实验药物的相关性和相对风险。由于临床试验周期较短,对药物慢性不良反应的观察也存在不足。此外,由于实际临床环境更为复杂,聚焦药物安全性的真实世界研究还可以对特殊患者群体的不良反应特征及多种药物相互作用的情况做出补充。
3. 评价患者特征:近年来,随着肿瘤分子领域研究的不断深入,研究者已经逐渐摸索出肿瘤发生、发展、转移、坏死的部分机制。在过去10年中,利用患者组织和(或)血液生物标志物信息指导治疗决策、精准锁定治疗优势人群是当前临床的发展趋势。随着二代测序等新技术的普及,临床已累积了越来越多肿瘤患者的组学特征信息,应用这些数据进行真实世界研究,获得某一类患者的特征信息,不仅可以提高临床试验成功率,还可以提高临床试验结果的外推性,对未来患者治疗策略更有指导意义。
肿瘤基因存在突变多样性,对肿瘤生物学行为的影响也不尽相同,肿瘤的强异质性不仅存在于DNA水平,也存在于RNA、蛋白质水平,均对肿瘤有巨大影响。未来需要进一步提高从大量未知变异中识别致癌因素的能力,探讨特定分子变化与组织学之间的相互作用机制,研究不同的突变是否会造成不同预后和药物敏感性。通过真实世界研究探索这些问题,实施费用更低、规模更庞大、证据资源更丰富,并能高效地将这些成果转化到临床应用,帮助我们更准确地认知患者预后,更精准地筛选患者,制定更为合适和恰当的治疗策略。
4. 确定患者诊疗路径:随着对肿瘤发生和耐药等机制研究的不断深入,研究者已发现众多可以调控肿瘤的节点。目前认为,未来最佳的治疗方案可能并非单独某个疗法,而是多措并举,同时调控多个环节。免疫治疗、靶向治疗的革命性突破,使得潜在的治疗方案呈指数级增长,仅以免疫治疗为例,目前可能的免疫疗法组合已经超过了1 000种。各类药物组合繁多,而不同药物之间的协同效应存在差异,药物组合标准尚不清楚。使用RCT逐一评价效率低、成本高,真实世界研究可以在早期阶段快速找到有潜力的组合。
5. 针对罕见疾病或队列的研究:原则上,在罕见病患者队列或罕见分子亚群中进行传统临床试验是可行的,但由于研究对象在总体人群中占比过低、分布零散,需筛选大量人群用以寻找合格受试者,这将耗费巨额人力、物力及时间成本,使RCT难以开展或进展缓慢。利用自然疾病队列形成的真实世界数据,以相应真实世界证据作为外部对照,不仅可以提高罕见病或罕见分子亚群药品审评速度,也能为罕见疾病或队列研究提供更多信息。
6. 分析治疗成本效益:随着医疗技术的进步及人均期望寿命的增长,人均卫生资源需求量显著增加。真实世界研究基于真实的临床场景开展,通过综合运用临床疗效数据和药物经济学评价方法,可以全面评价药物所带来的临床价值、经济价值、患者价值、社会价值,分析疾病各种诊疗模式的成本效益,综合评判各类创新药物及技术的性价比,有助于从不同角度选择最经济、最有效的治疗方案,促进医疗资源合理公平分配,进一步提高医疗体系的运行效率。
(二)真实世界研究的操作流程
确定研究选题后,应根据研究目的及操作可行性确定研究类型及研究人群,并建立或调用数据库,收集相关真实世界数据,最终根据分析结果得出真实世界证据。数据库来源包括HIS数据、医保支付数据、注册登记研究数据、药品安全性主动监测数据、自然人群队列数据、组学数据、死亡登记数据、患者报告结局数据、来自移动设备的个体健康监测数据、其他特定功能数据,以及在医疗器械生产、销售、运输、存储、安装、使用、维护、退市、处置等过程中产生的器械登记数据。值得注意的是,并非所有的真实世界数据都可以直接生成真实世界证据,如组学数据通常需要结合临床数据才可能被进一步应用,而院内EMR数据需要补充生存时间、不良反应信息等长期随访数据,才能形成适用的真实世界证据。
收集数据前应完善方案设计,充分考虑研究目的、评价指标、纳入排除标准、统计方法与样本量,并对伦理学及数据安全进行充分考量。在研究过程中,应严格把控数据质量,保证数据的真实性与准确性。对于前瞻性研究,流程主要包括取得伦理委员会批准、获取知情同意、数据采集、数据监察、数据分析。对于回顾性研究,部分研究可免除知情同意,但仍应取得伦理委员会批准。随着信息化技术的发展,灵活应用各类研究过程管理软件有助于数据的痕迹管理与资料追溯,对提高研究质量与效率、降低研究成本等方面也有较大帮助。
真实世界研究基本设计
开展真实世界研究之前首先要确定研究问题,再根据已有数据选择研究设计方案。由于同一个研究问题可采用不同的研究设计类型,研究者应了解不同设计类型间的差别、优劣,以及能否充分回答研究问题。真实世界的研究设计类型主要分为试验性研究和观察性研究。
(一)试验性研究
1. pRCT
pRCT又称实用性随机对照临床试验,是指在真实临床医疗环境下,采用随机、对照的设计方式,比较临床实践中不同干预措施的治疗结果,包括实际效果、安全性、成本效益等。pRCT是真实世界研究中一种重要的设计类型。
(1)pRCT的实施场景和研究对象
pRCT研究的是在实际临床环境中实施干预的结果。研究场所包括基层医院、三甲综合医院、专科医疗机构等,应能够较好地实施某干预措施,并对研究结果转化有适用性,但由于部分罕见瘤种等只能在大型综合医院或肿瘤专科医院开展,因此,应根据实际情况选取研究场所。
pRCT的研究对象应尽量接近真实医疗环境中采取某种干预措施的群体,以保证更大程度上准确反映真实临床实践中的患者特征。因此,pRCT的纳入标准宽泛,排除标准较少,但样本量通常较大,以保证足够的检验效能。
(2)pRCT的实施
① 数据采集:pRCT的数据源包括两种类型,一种是与传统临床试验类似的、以特定研究为目的开展的主动收集的数据,另外一种是利用现有数据提取的数据。要获取这类数据源,研究者可以通过EMR初步筛选研究对象,获取基线信息。需要注意的是,这种做法可能导致随机后的因素混杂,比如根据个体患者反应不同调整治疗方案导致的多样性,所以在研究设计时需注意适当扩大样本量。
② pRCT的随机化分组:随机化分组是pRCT的关键。根据入排标准确定受试对象后,可通过独立的随机系统,将受试者分到治疗组和对照组。随机化分组可平衡组间可能的混杂因素,提高可比性、减少偏倚。但是,在真实医疗环境中,肿瘤往往存在多种治疗方案,患者或医师可能对某种方案具有较强的倾向性,常规随机分组无法实现。在这种情况下,可考虑结合患者的意愿和偏好进行分组。
③ pRCT的干预措施和对照的设定:pRCT需对干预措施的具体实施做出限定,以确保广泛适用于真实临床实践。pRCT的干预标准化程度低,既可以是特定药物,也可以是其他复杂的干预。受试者灵活度高,并不强调严格的依从性。对照组通常选择目前指南推荐的最佳治疗策略,很少选择安慰剂,因为真实世界的肿瘤治疗不会采用安慰剂。
④ pRCT的结局设定:pRCT重点关注的是以患者为导向的临床结局,常包含与患者日常相关的获益结局。通常评估的是干预措施的远期疗效、功能变化、生存质量、卫生经济学指标及远期终点事件等。可设定多个终点结局,包括主要结局和次要结局。从设计角度看,试验评价的是干预措施的整体效果,而不是干预各部分的效果;从实施角度看,结局指标在真实世界环境中容易获取和评价。
⑤ pRCT的患者随访:研究者可以从医院、医保部门、民政部门或公共卫生部门等机构获取研究对象的数据资料。
(3)pRCT的统计学分析
pRCT的统计分析主要基于意向性分析,拟评价包括患者不依从或其他偏离干预措施的真实情况,保证研究结果贴近临床实际。如果偏离研究设计的发生率较高,研究结果会与治疗方案的真实疗效存在较大差异。此时研究决策者需要全面综合解读研究结果,考虑是否需要再次提高患者依从性。
(4)pRCT的伦理考量
伦理委员会审批和受试者知情同意是保障pRCT中受试者权益的重要举措。研究对象为个体时,知情同意的过程、内容和方式与解释性试验没有差别。研究对象为组群时,应制定组群的咨询计划,向研究人群的利益相关方充分告知研究可能的风险与获益,征求团体意见。pRCT涉及通过各类信息系统收集个体的身份信息、联系方式、疾病诊断、治疗、结局评价等个人隐私信息,所以需要在研究方案中加以说明,获得伦理委员会审批,并设定信息读取权限、脱敏化方法、数据安全防护措施等,以保护个体隐私。在某些特殊情况下,经伦理委员会审批,pRCT可以豁免患者的知情同意。
(5)pRCT的优缺点
不同等级的医疗机构在真实医疗环境下开展研究,采纳的是真实世界中的患者数据,干预方案相对灵活,更符合日常医疗行为,外推性较好。可以通过随机分组,平衡组间混杂因素,最大限度地提高组间可比性,提高论证强度。但随访观察时间长,样本量要求大,难以避免失访,且随着时间推移,未知变量的出现可能影响结果。
2. 使用真实世界证据作为外部对照的单臂试验
在许多情况下,出于临床实际和伦理原因,研究者会选择非随机单臂临床试验。这也是验证研究药物有效性和安全性的一种有效方法,而且具有高效率和低成本的优势,且可以减轻受试者对使用安慰剂对照的恐惧。这对于罕见病尤其重要,如某些罕见瘤种临床试验病例稀少,招募困难,则可以考虑以自然疾病队列的真实世界数据作为外部对照。
外部对照主要用于单臂试验,需要考虑目标人群的可比性对真实世界证据的影响,可以是历史对照或平行对照。历史对照是基于既往获得的真实世界数据,而外部平行对照则是基于同期开展的疾病登记数据。
使用外部对照同样存在一定的局限性,主要包括医疗环境、医疗技术、诊断标准、结局的测量和分类、患者基线水平等差异,以及干预多样化、数据质量难以保证等。这些因素导致研究数据的可比性、结果的精确性、结论的可靠性和外推性等面临挑战。为减少这些局限因素,一是要确保数据收集符合真实世界数据的适用性要求;二是外部平行对照设计会优于历史对照,保障数据记录尽可能完整、准确;三是采用恰当的统计分析方法,如合理利用倾向评分方法、虚拟匹配对照方法等;四是要充分使用敏感性分析和偏倚的定量分析来评价混杂因素及模型假设对分析结果的影响。
(二)观察性研究
观察性研究又称非实验性研究或对比研究,确切地说是非随机的对比研究。这是目前真实世界研究中使用最广泛的设计,包括队列研究、病例对照研究、横断面研究等类型。该研究不能人为设定干预因素,受试对象接受何种干预因素、同一干预因素的不同水平都不是随机的。研究者可根据研究目的,选择恰当的研究设计。
1. 明确研究目的
由于患者接受的干预措施并非临床医师随机分配,而是医患双方根据实际情况决定,因此,观察性研究的混杂因素较多,容易出现偏倚,需要采取有效的控制措施。以下情况建议采用真实世界数据开展观察性研究:(1)对于致死、致残风险高的疾病,比较患者接受该疗法与未接受该疗法的疾病结局;(2)在真实医疗环境下,如果有多种可选的治疗措施,且治疗方案的分配与病情严重程度相关,那么随机分配可能存在伦理争议,可采用观察性研究,比较某种治疗与阳性对照之间的临床结局;(3)超说明书用药、不同药物剂量的有效性与安全性以及联合用药方案的探索;(4)研究暴露因素或结局事件较罕见。
2. 评估数据库与研究目的的匹配程度
无论是使用已有的医疗数据库,还是前瞻性收集注册登记数据,在设计研究方法前均需评估真实世界数据与研究目的匹配度,确保选择合适的研究设计。这就要求对数据库覆盖的人群特征、已有变量、数据质量等参数做充分评估。
3. 研究设计类型
观察性研究通常分为以下几种设计类型(表1),应根据研究目的选择合理的设计方案。
4. 研究对象的选择标准
(1)筛选目标患者:基于数据库筛选研究对象,不仅需要明确符合诊断指标,如疾病分类编码,还要综合考虑金标准的检查结果、其他就诊情况及处方药品等多种信息。
(2)选择首次用药患者:建议选择新诊断的患者作为首次用药患者。而对于长时间停药后再次用药的患者也可定义为“首次用药患者”,但需根据所研究药物的半衰期和研究目的,对再次用药与前次用药的间隔时间进行详细定义,控制选择偏倚。
(3)定义暴露相关时间点:与研究对象和暴露有关的时间点包括起始用药时间、末次用药时间、暴露期、非暴露期、诱导期、风险期、干预宽限期和洗脱期。
(4)尽量减少失访:失访率过高不仅会影响研究结果的真实性,还可能导致研究无法按计划完成。
(5)明确病例纳入研究次数:明确在此研究中,每个病例是仅纳入1次,还是根据不同时期的具体暴露情况多次纳入研究。与之对应的是,选择对照人群时,应考虑是否采取多次重复匹配。
5. 暴露定义与偏倚控制
观察性研究存在诸多混杂因素,应事先参考数据库已有变量来定义暴露,最大程度避免错分偏倚。要确定是否给予研究药物,定义药物暴露时间,评估是否存在停药、交替给药和合并用药等情况。控制错分偏倚、提高组间基线可比性的常用方法有:(1)限定暴露组与对照组的主要特征;(2)基于暴露人群的基线特征,从数据库中筛选可匹配的对照。
6. 研究结局评价
开展观察性研究时要尽量选择客观存在的终点指标,如患者死亡等。目标结局的发生时间与干预实施之间的间隔时间要足够长,如果间隔时间过短,则结局可能与干预无关。还应注意甄别目标结局是疾病本身进展所致还是干预所致。
7. 伦理学考量
研究设计要充分考虑伦理学要求,医学伦理一方面要明确研究设计是否能解决科学问题,另一方面还需确保数据收集范围合理,避免出现超出研究目的的数据采集。
(1)知情同意:研究实施前均应获取患者的知情同意。在知情同意书中,应对研究内容做出完整通俗的解释,并确保患者是自愿参与,应明确解释如何使用研究产生的数据,向患者充分解释可能的风险,清晰说明是否为患者购买了医疗保险,患者的知情权是否得到充分保障。由于回顾性研究是基于已有数据,不涉及对患者的干预,该类研究可向伦理委员会申请豁免患者知情同意,但研究方案仍需经伦理审查机构审查并获得书面批准。
(2)研究者利益冲突:伦理审查应关注研究者的利益冲突,确保研究者和临床医师不能通过开展研究获取不合理的收入,同时申办方不能通过实施研究间接推广产品。
(3)研究注册与发表:观察性研究是以自愿为原则,没有研究注册的强制要求,但仍建议开展研究前进行注册。此外,为了保证患者权益,无论最终研究结果如何,研究结束后均应如实公开和发表。
真实世界研究质量控制标准
建立质量控制标准可以保障真实世界研究所有相关活动在符合质量要求的前提下实施技术和活动。质量控制需要建立完善的真实世界研究质量管理体系、标准操作流程和标准评价模式,以规范真实世界研究的实施流程,严格评价研究的合规性,充分保护患者安全及权益,并在实际工作中持续优化、完善。真实世界研究质量包括真实世界数据质量、研究设计和实施质量及实施的合规性。
(一)数据质量控制
1. 基本原则
(1)准确性:数据源核查确认是保证研究数据真实完整的必要措施之一,真实世界研究涉及到大规模的数据,可充分利用系统实时自动逻辑核查来加强质控,降低人工质控成本。对于关键字段,可进行100%原始数据核查,其他字段可根据实际情况降低核查率。
(2)代表性:尽管真实世界研究的样本更接近医疗实践,但并不意味其具有良好的样本代表性。应在采集数据前制定详细的研究设计方案,选择适合的人群和抽样框架,确认关键字段可获取。
(3)一致性:对于数据的采集、提取、转化和录入,应建立标准的流程和模式,如结构化、编码化等,用以确保产生真实世界证据的数据与源数据的一致性。
(4)完整性:真实世界研究数据存在不同程度的缺失,对于缺失的内容应详尽描述。为保障其完整性,应制定完善的数据质量管理计划来判断该数据是否可产生真实世界证据。
(5)标准性:数据的标准化是保障数据质量的基础和关键环节,能够更快的将非结构化数据整合为高质量结构化数据,实现数据的互通共享和交流。数据标准化需基于标准化设计与实施、科学的分类体系,如数据或信息的交换可参照临床数据交换标准协会标准、HL7标准等,医学术语及代码标准可参照国际疾病分类编码、MedDRA标准术语集等。
(6)可溯源性:从第1次数据录入起,每次更改、删除或增加都必须保留在临床研究数据库系统中。稽查轨迹应设立计算机保护,不允许任何人为修改和编辑。采集的真实世界数据转化为计算机系统或信息技术处理的标准化数据,保证能够对真实数据源进行溯源核查。
2. 数据质量控制要点
数据安全保护范围应涵盖数据收集、数据提取、数据传输、数据存储、数据交换、数据销毁等全生命周期。建立完善的人员管理制度,同时需建立从数据收集到数据递交各环节的风险管理流程。从真实世界数据的创建、存储、传输、应用等多个方面探究可能存在的质量风险点,是真实世界数据质控的关键节点。
(1)源数据:源数据的使用应符合伦理审查法规要求及相关数据安全与隐私保护要求。保证源数据质量,关键问题在于数据随机缺失的程度,随机缺失会减低准确性,而非随机缺失会导致结果偏倚。临床病历作为最常见的数据源,不仅要符合病历书写规范、医院质控要求等,还应提高病历质控标准以满足科研需要,减少数据源本身的缺失和偏差。影响源数据质量的因素包括数据的收集方式、调查员培训程度及能力、外部因素(如对数据完整性的重视程度)、数据审核周期等。
(2)数据清洗:数据清洗应在保证数据真实的情况下进行,真实世界研究的数据大多来自于多个数据集,分析前需将不同数据集通过标准模型和统一结构式进行关联及整合,去除重复数据与不相关数据,对异常、缺失数据进行删除或补充,最后基于实际情况按照标准进行逻辑核查。
(3)数据转化:数据经过链接、提取和转化,最终纳入数据仓库。将数据转化为适用的标准数据时可能会遇到挑战,包括术语和概念不一致、编码错误、研究期间数据收集或编码规范改变,信息缺失(如所需信息并非医疗业务流程的必要采集项)等。应通过制定标准的数据格式、规范术语、制定标准的编码及适合的统计方法来控制数据转化的质量。
(4)数据递交:经过数据标准转换后递交数据,应在安全网络环境中进行,并有相应的计算机加密模式,同时建立递交的标准操作流程,从申请到实施应由专人负责审批及监督。
(5)数据分析:对原始数据库及转化后数据库进行数据分析,将真实世界数据转化为真实世界证据,大多需要倚仗多因素分析方法的深度支持。回归分析模型是真实世界研究的常用工具,如探讨肿瘤预后的影响因素,评价某种治疗方式的临床疗效,控制研究的混杂因素,构建分类、预测预后及疗效的模型等。
(二)设计和实施的质量控制
真实世界研究中存在诸多混杂因素,控制混杂因素的干扰是真实世界研究设计中的核心问题之一。在偏倚的控制上主要涉及选择人群,获知暴露与结局,以及控制混杂。同时,应设计科学规范的研究方案、实施流程和统计分析方法。
1. 偏倚的控制
(1)选择偏倚的控制:在人群的选择、框架的制定和研究实施过程中,往往容易出现选择偏倚。真实世界研究中常见的选择偏倚包括奈曼偏倚、伯克森偏倚、病程长度偏倚、竞争风险和非死亡时间偏倚。不同真实世界研究易出现的偏倚类型也不尽相同,如肿瘤早期患者生存期较长,而晚期患者生存期较短,一同分析将出现病程长度偏倚,应在研究中具体规定,将不同分期的肿瘤予以区分;涉及入院率时,应尽可能将不同地域、医院级别、医保类型等数据纳入进来。可绘制研究流程图来减少潜在选择偏倚,包括纳入人群的选择、样本量计算、数据来源、标准化样本量、结构化的入排标准、最终纳入分析的样本量。
(2)信息偏倚的控制:数据收集过程中产生的系统误差都可能导致信息偏倚,如回忆偏倚、报告偏倚、诱导偏倚等。真实世界研究常见的信息偏倚包括药物暴露错分和结局错分。真实世界研究中药物的暴露信息多是通过电子数据库识别提取,信息错误或信息可及性限制将导致信息偏倚的发生。肿瘤真实世界研究会涉及客观缓解率等作为研究结局,在研究设计方面应对暴露和结局有严格、客观、规范的定义,力求指标定量化。还可对人群分类,采用标准诊断编码,联合多种方式整合资源提高暴露识别的准确性。此外,为避免医师诊断水平、调查对象的记忆程度、调查员的业务能力等原因导致的信息偏倚,可采用重复提问、严格培训、定期检查等方式,使用统计学方法评估测量误差并校正。对于异常值,可预先制定敏感性分析方案。
(3)混杂因素的控制:控制混杂因素可以从研究设计和统计分析上着手,如采用群随机设计可有效控制组间沾染,采用协变量模型和分层分析方法可在事后进行混杂的调整。对于复杂的研究,在采集疾病、结局相关数据时,注意选择更高级、更适配的统计分析方法。
2. 研究实施中人员的控制
人是医疗信息采集、分析、处理、存储过程中最活跃的因素。为保障真实世界研究合理开展,应制定质控分级要求、质控管理计划、质量评价程序和质控培训规范,妥善配置人员,满足真实世界研究质量管理规范相关要求,明确自身职责。与真实世界研究质量控制相关的人员包括申办者、研究者、监查员、临床协调员、数据管理员以及合同研究组织等。研究者是真实世界研究质量的直接责任人,与研究者的专业性和医疗水平密不可分。相比于传统的随机对照研究,真实世界研究中数据管理员的角色更加重要,应熟悉真实世界数据相关法规、精通数据管理系统的使用、配有完整的技术解决方案以支持不同数据源的采集,按照研究项目的要求参与设计病例报告表、建立数据库、对数据进行标准化管理、建立和测试逻辑检验程序。应对真实世界研究相关人员进行智能化、平台化、专业化、精细化管理。
(三)法规制度
美国FDA先后发布了《使用真实世界证据支持医疗器械的监管决策》、《真实世界证据计划的框架》和《使用真实世界数据和真实世界证据向FDA递交药品和生物制品资料的行业指南》等法规政策或行业指南,为真实世界数据在药械研发中的实际应用提供指引,并结合实践操作中发现的问题不断更新,适应发展。美国发布的《健康保险隐私及责任法案》以及欧盟颁布的《通用数据保护条例》等法律法规,适用于真实世界数据在应用过程中涉及的数据安全及个人隐私保护。
我国国家药品监督管理局先后发布了《真实世界证据支持药物研发与审评的指导原则(试行)》、《真实世界数据用于医疗器械临床评价技术指导原则(试行)》及《用于产生真实世界证据的真实世界数据指导原则(试行)》等相关指导原则,为业界和监管部门利用真实世界数据提供了参考意见。同时,应当遵循涉及药品、人类遗传、人口信息等的相关法律法规来保障数据安全及个人隐私。
真实世界研究证据级别
1. 证据级别来源:循证医学是基于客观临床证据进行医疗决策的科学,提倡医师结合临床实践经验与当前推荐的客观临床证据,综合考虑患者的意愿和医疗环境,做出最优的诊疗决策。为了区分不同临床证据的科学性和可靠性,相关医疗组织和机构尝试对医学证据进行分级,目前使用较广泛的是国际统一的证据质量分级和推荐强度标准GRADE标准以及金字塔证据分级,即系统评价和Meta分析、RCT为最高级别的临床证据,而队列研究、病例对照研究、病例报告等则作为次一等的临床证据。过去几十年,RCT一直被认为是在药物及医疗器械研发过程中评价安全性和有效性的金标准,但也存在RCT研究结论在真实临床实践环境中的外推难以达到预期、实施难度高、成本高昂等问题。
2. 真实世界证据质量:2016年,美国国会通过了《21世纪治愈法案》,将真实世界证据定义为“从RCT以外的其他来源获取的关于用药方式、药物潜在获益或者安全性方面的数据”,并明确规定真实世界证据在药物评审中的两个用途,即用来支持已获批的药物进行扩大其适应症的批准,和用来支持或满足已获批的临床试验的相关需求。也就是说,真实世界证据在药物评审中可作为传统临床试验的证据补充,传统临床试验和相关的试验证据用于新药的研发和评审,真实世界研究则用于新药上市后的有效性和安全性研究。同年,美国FDA在《新英格兰医学杂志》上指出,真实世界证据与临床试验证据的根本区别在于获取数据的场景不一样,二者间的区别不应该建立在是否存在有计划的干预实验以及是否采用了随机化试验设计这两种情况之上。目前已发布的相关政策、指南、指导原则等文件也表明,目前国内外对于真实世界证据在药物研发和医疗器械评价中的作用均持认可态度。
3. 真实世界证据分级:考虑到真实世界证据与传统临床试验的不同侧重点和设计方式,及其在药械审批中对传统临床试验的支持和补充,把真实世界证据的证据级别简单划分在金字塔证据分级中的某个或某几个级别并不适合。因此,对真实世界证据的分级应当采用适合其设计特点的全新评估系统,依据研究设计与研究问题的相关性、研究质量控制程度及研究数据的可靠性进行评价。借鉴金字塔证据分级模式,结合真实世界研究的不同设计,将常见的真实世界研究类型按照证据等级的高低进行排序(图1)。同时,仅靠研究设计对证据等级进行比较是不全面的,对证据质量的评估应建立在对研究数据、研究设计和证据提取方式的相关性和可靠性的考量之上(表2)。
真实世界研究的数据安全与隐私标准
真实世界研究范围广泛,时间跨度大,数据多源,涉及个人基本信息、人口健康信息、健康医疗大数据、人类遗传资源信息等不同属性的数据。在数据的收集、存储、使用、加工、传输、提供、公开等过程中,数据安全与隐私保护是确保研究顺利进行的重要环节。
(一)数据安全
数据安全是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。
目前,《数据安全法》、《网络安全法》、《个人信息保护法》、《人口健康信息管理办法(试行)》、《信息安全技术 数据出境安全评估指南(征求意见稿)》、《国家健康医疗大数据标准、安全和服务管理办法(试行)》等多部法律法规及管理办法已对真实世界数据中的个人信息保护、人口健康管理、健康医疗大数据等方面提出监管办法。
《数据安全法》自2021年9月1日起施行,是我国首部有关数据安全的法律,其制定目的在于规范数据处理活动,保障数据安全,促进数据开发利用,保护个人、组织的合法权益,维护国家主权、安全和发展利益。《数据安全法》推进数据开发利用技术和数据安全标准体系建设,建立数据分类分级保护制度,建立集中统一、高效权威的数据安全风险评估、报告、信息共享、监测预警机制,建立数据安全应急处置机制及数据安全审查制度。《数据安全法》提示收集真实世界数据前,应明确待收集数据的分级分类标准,根据不同的分级分类结果采取不同的管理措施及安全审查制度。
应根据《网络安全法》及《网络数据安全管理条例(征求意见稿)》建立数据分类分级保护制度,按照数据对国家安全、公共利益及个人、组织合法权益的影响和重要程度,将数据分为一般数据、重要数据、核心数据,不同级别的数据采取不同的保护措施。其中,医疗保健机构记录的个人电子病历、健康档案、各类诊疗数据,在药品不良反应报告和监测过程中获取的个人隐私、患者和报告者信息,涉及国家战略安全的药品在药品审批过程中提交的药品实验数据等均属于重要的真实世界数据。建立完善的数据安全管理制度和技术保护机制,要求数据处理者对数据安全负责,履行数据安全保护义务,接受政府和社会监督,承担社会责任。
(二)隐私标准
1. 医院信息系统数据:患者基本特征、临床病理特征、诊断、治疗方案及疗效评价、实验室检查、影像学检查、安全性和临床结局等数据多为既往临床诊疗中积累的门诊、住院信息,在采集之初对于其研究应用目的尚不明确,研究者必须经过编码去标识化处理,如匿名算法、访问权限模型、隐私分离算法等,才能提供给第三方使用。患者随访数据存储于医院随访数据系统,真实世界研究使用相关数据应遵循医疗行业的伦理规范和信息安全等级保护规范,提取研究所需最小数据集。
2. 网络数据:应加密处理临床科研信息共享系统及其数据运行系统,确保网络安全。尽可能分设不同物理阶段,提高数据安全性级别,对采集系统、基本数据库和运算系统等进行分段隔离,分别基于不同的服务器运行。对患者的隐私信息,尤其是与诊疗行为无直接关系的隐私信息,应进行加密存储,在数据传输及应用中进行隐藏,避免追溯到个人。
3. 知情同意:数据收集和使用须通过伦理委员会的审查批准,严格执行知情同意原则,符合数据安全保护、个人隐私保护、人类遗传资源管理相关法律法规的要求,充分保护患者合法权益。
免责声明本文仅供专业人士参看,文中内容仅代表中华肿瘤杂志立场与观点,不代表肿瘤资讯平台意见,且肿瘤资讯并不承担任何连带责任。若有任何侵权问题,请联系删除。
排版编辑:肿瘤资讯-Kate