您好,欢迎您

2023乳腺MRI数据库构建及质量控制专家共识

02月28日
来源:中华放射学杂志

基于乳腺MRI的人工智能模型应用于乳腺疾病的诊疗,对提高乳腺癌诊断准确度及早期预测乳腺癌疗效具有价值。多中心、大样本及标准化的乳腺MRI数据库是开发基于乳腺MRI的人工智能模型的必要基础。结合联邦学习及FAIR科学数据管理准则(可查询、可访问、可交互、可再用)有助于促进多中心乳腺MRI数据库构建、管理及使用,进而开发高效、准确的基于乳腺MRI的人工智能模型,并辅助临床进行乳腺疾病诊疗决策。本共识旨在对构建高质量、标准化的乳腺MRI公开数据库给予示范及引导。

640 (2).png中华医学会放射学分会乳腺学组. 乳腺MRI数据库构建及质量控制专家共识. 中华放射学杂志,2023,57(02):131-135. 

2020年世界卫生组织国际癌症研究机构数据显示,乳腺癌已成为对女性健康威胁最大的恶性肿瘤[1]。乳腺MRI是乳腺癌检出最敏感的方法,在乳腺癌筛查、诊断、分期及疗效评估等方面指导乳腺疾病的临床诊疗[2]。相比国外,乳腺MRI在国内应用更为广泛,且具有较国外更加丰富翔实的乳腺MRI病例资料,更加有利于探究乳腺MRI的临床应用价值。此外,中国乳腺癌的发病高峰年龄为45~54 岁,较欧美国家提前10 岁左右,因此总结乳腺MRI在中国女性乳腺疾病诊疗中的应用价值更为迫切[3‑4]。然而,由于高年资医师匮乏、乳腺MRI图像量大、患者个体化差异大等原因,我国乳腺MRI诊断水平总体较低。近年来,随着人工智能的发展,基于乳腺MRI的人工智能诊疗模型可用于乳腺癌诊断、分子分型、基因表达、化疗疗效及长期预后生存评估[5‑10]。然而,目前基于乳腺MRI的人工智能研究仍处于早期探索阶段,且多为单中心、小样本、回顾性研究,缺乏多参数模型及临床‑影像联合模型,所建模型的泛化效能差,很难投入临床使用。医学影像人工智能模型开发的核心问题是数据问题。因此,构建多中心、大样本及标准化的乳腺MRI数据库,是开发基于乳腺MRI人工智能模型的必要基础。

2018年12月国务院颁布了《国务院关于积极推进“互联网”行动的指导意见》,积极推动人工智能在医疗领域中的发展,鼓励研发基于人工智能的临床诊疗决策支持系统,以提高医疗服务效率。在医学影像领域,目前已出版肺结节数据集构建及质量控制专家共识,构建了肺部影像数据库[11‑12]。然而,目前尚缺乏乳腺MRI数据库构建标准,更无国内公开的标准化乳腺MRI数据库,常导致同一数据的标注在不同研究者间重复进行。数据库构建的主要内容包括计算机软硬件环境的构建、数据集采集标准及使用规范的制定、数据集的质量控制、数据分析及应用软件开发四大方面。为构建多中心、高质量、标准化的乳腺MRI数据库,探究乳腺MRI在中国女性乳腺疾病诊疗中的应用价值,促进基于乳腺MRI的人工智能应用研究,本文将对乳腺MRI数据库构建、质量控制及数据库安全与隐私保护等方面给予规范与引导。

乳腺MRI数据库构建

参考《卫生信息数据集元数据规范》,本文将乳腺MRI数据集定义为以乳腺MRI影像为中心、经标识并可被计算机处理的数据集合[13]。基于FAIR准则联合联邦学习,可以从技术上缓解医学影像数据孤岛、数据隐私安全及数据行业标准不统一等问题对构建医学影像人工智能系统的影响,进而发挥多中心数据的最大价值,开发出更加高效、准确的疾病诊疗系统,促进医学影像领域的人工智能研究及临床应用[14‑16]。FAIR科学数据管理准则强调对数据应可查询(findable)、可访问(accessible) 、可交互(interoperable) 、可再用(reusable)[16]。因此,本共识推荐根据FAIR 数据准则构建标准化的乳腺MRI数据库,将临床诊疗信息及多序列MRI 标注及病灶分割数据FAIR 化,构建多中心、结构化的数据,利用联邦学习的方法,实现数据不出本地即可完成联合建模,并不断地整合、更新、迭代模型,提高人工智能模型的泛化能力及准确率。

乳腺MRI数据集的元数据应该包括乳腺疾病诊疗流程的每个环节,这样发才能有助于探究MRI应用价值,构建疾病预检、评估、诊断及治疗方案决策等诊疗全流程的人工智能辅助软件,提高临床工作效率。因此,乳腺MRI数据库应包含两大方面内容:临床诊疗数据的采集和乳腺MRI 的采集(图1)。

640.png

图1 乳腺MRI数据库标签信息图

临床诊疗数据的采集

1.患者基本信息:患者临床信息主要包括年龄、性别、月经情况(是否绝经或采集乳腺MR影像时所处的月经周期)、生育史、乳腺癌及卵巢癌家族史、乳腺活体组织检查或手术史、有无激素替代治疗或抗激素治疗史、有无胸部放疗史、子宫及卵巢手术史、基因检测结果(BRCA基因等乳腺癌发病及复发风险基因检测)、乳腺传统影像检查(乳腺X线摄影及乳腺超声)结果等,这些因素与乳腺癌风险和乳腺病灶的检出存在相关性,对数据集的临床代表性有重要影响

2.乳腺MR检查指征:乳腺MR检查指征主要包括乳腺癌筛查(高风险、中风险及一般风险人群)、乳腺癌诊断、乳腺癌分期及乳腺癌新辅助治疗疗效评估。根据乳腺MR检查指征进行分类,有助于探究乳腺MRI在乳腺癌临床诊治不同方面的价值,构建以不同临床问题为导向的人工智能模型。

3.病理信息:患者若接受病灶的活体组织检查和/或手术治疗,应有对应的影像定位活体组织检查和/或手术的病理报告,记录对应乳腺MRI上病灶的病理结果。良性及高危病变记录病理类型、再次手术病理结果或后续随访结果。恶性病变记录病理类型、分子分型、区域淋巴结转移情况、临床及病理TNM分期等。

4.临床治疗及随访情况:记录乳腺病变临床治疗情况,包括良、恶性病变手术方式,乳腺癌辅助治疗(放疗、化疗及内分泌治疗)及治疗结果评估等情况。记录患者的随访情况,包括随访乳腺良性病变的复发情况、乳腺癌新辅助治疗疗效、第二原发乳腺癌情况或乳腺癌复发转移情况及生存时间。

乳腺MRI数据采集

1.乳腺MRI采集规范:乳腺MRI扫描仪的生产厂家、场强、常规序列、序列参数等因素会影响图像的对比度、分辨率、信噪比、信息丰富程度等,同时也会影响医师的标注或读片结论,具体请参考表1的推荐参数范围进行选择[2,17‑18]。乳腺MRI常规序列包括T2WI、DWI 及动态增强(dynamiccontrast enhanced,DCE)MRI,图像数据格式应为DICOM格式。

表1 乳腺MRI数据采集的设备与配置

640 (1).png
2.乳腺MRI的特征描述:随着乳腺影像报告和数据系统(breast imaging reporting and data system,BI‑RADS)的广泛应用,对于乳腺MRI影像的描述已经存在一整套被学术界普遍接受的规范化术语[18],因此,在对乳腺病灶进行描述时应严格参照规范化术语、避免随意描述。本共识推荐由2名高年资医师(5年以上乳腺影像诊断经验,每年乳腺MRI阅片量在800例及以上[19])对病灶的影像特征进行描述,意见不一致者经讨论达成一致。

构建乳腺MRI 特征表中需要描述的内容:

(1)乳腺纤维腺体组织量。在T1WI或T2WI图像上,评估乳腺纤维腺体组织量,并将其分为几乎全部为脂肪、散在分布的纤维腺体组织、不均匀分布的纤维腺体组织、致密纤维腺体组织4种类型。

(2)乳腺实质背景强化。在DCE早期图像(约90 s)上评估乳腺实质背景强化,分为极少、轻度、中度及重度4个水平。

(3)乳腺病灶的形态学及动态增强特征。在增强图像上将乳腺病变类型分为点状病变、肿块和非肿块强化3类。①点状病变通常最大径小于5 mm;②肿块病变需从形态(卵圆形、圆形及不规则形)、边缘(清楚、不规则及毛刺状)和内部强化(均匀、不均匀,环形强化及内部暗分隔)3个方面进行描述;③非肿块强化需从分布类型(局灶、线样、段样、区域、多区域及弥漫)及内部强化特征(均匀、不均匀、集簇状及成簇环形)进行描述。

影像医师需通过后处理软件测量病变内感兴趣区的时间‑信号强度曲线,获得病变早期及延迟期的增强特征。①早期增强特征是指注射对比剂 2 min内的强化模式,根据信号增强幅度分缓慢、中等及快速3种类型;②延迟期增强特征指注射对比剂 2 min后的强化类型,分为上升型、平台型及流出型3种类型。

(4)乳腺病灶的T2WI特征。在T2WI图像上病灶信号特征分类为高信号、等信号和低信号,评估T2WI图像上病灶周围有无灶周水肿。

(5)乳腺病灶的DWI 特征。影像医师需结合T2WI及增强图像,测量病变实性区域的ADC值:<0.9×10-3 mm2/s为非常低,(0.9~1.3)×10-3 mm2/s为低,(>1.3~1.7)×10-3 mm2/s为中等,(>1.7~2.1)×10-3 mm2/s为高,>2.1×10-3 mm2/s为非常高。

(6)伴随征象。记录乳腺MRI上与乳腺癌分期相关的伴随征象,包括乳头凹陷、乳头受侵、皮肤凹陷、皮肤增厚、皮肤受侵、腋窝淋巴结肿大、胸肌受侵、胸壁受侵及结构扭曲等。

(7)乳腺病灶在MR 图像上的BI‑RADS 分类结果。

3.乳腺病灶分割:使用MRI图像分割软件,首先对DCE及DWI序列图像进行运动伪影校正及配准,获得校正后的DCE及DWI图像,然后确定病灶在T2WI、DWI及DCE图像上位置,再由1名高年资医师在MRI各序列图像上对乳腺病灶进行分割,另1名高年资医师进行审核修订。乳腺病灶内囊变、坏死是病灶特征的一部分,含有疾病诊断及预后的相关信息,建议包括在感兴趣容积(volume ofinterest,VOI)范围内。在T2WI图像上,使用手动分割方式对病灶进行三维分割;在高b 值DWI 图像上,使用手动分割方式对病灶进行三维分割,然后将所得VOI复制ADCmap图像上。在DCE序列图像上建议于增强早期90 s图像上对病灶进行自动、半自动或手动三维分割,然后将所得VOI 复制到DCE其他期相图像上。

乳腺MRI数据库的质量控制

在开发多中心乳腺MRI数据库之前,需联合影像科、外科、病理科、肿瘤科医师,计算机软件和硬件工程师及统计学专家共同讨论,制定多项临床及影像数据的结构化数据模板,为每例患者分配持久唯一的标识符,确保同一患者在不同数据表之间的信息能够相互关联。需制定统一的数据字典,标准化输入数据,确保不同中心数据结构一致。各中心需对入选乳腺病例进行严格数据审查,摈弃临床病理信息不全及乳腺MRI质量不合格的病例,建议成立随访办公室对患者进行随访,降低失访率。

乳腺MRI数据集的采集应在不同地区、不同省市选择有代表性的医院进行。患者人群分布应参考流行病学统计数据进行均匀随机抽样或根据临床上高发年龄段分布分层抽样。乳腺MRI数据库应包括不同的病灶类型,推荐各型病灶比例:点状病变为5%~10%,肿块病变为60%~80%,非肿块病变为15%~30%。构建数据库时,应组织乳腺影像诊断医师进行统一培训,识别T2WI、DWI及DCE序列的各类型伪影,严格把控入组病例的乳腺MRI图像质量。另外,由于不同医师间对于病灶特征的定性描述存在差异,需在对病灶进行标注前,根据美国放射学会BI‑RADS指南术语进行统一培训,最终由2名高年资医师对病灶进行描述,不一致者讨论达成共识。病灶分割应遵循前述分割原则,由2名高年资医师确定病灶VOI,并保留修改记录存档。最后,由于乳腺MRI图像量巨大,每例患者原始采集图像近1 000幅,计算机硬件存储及云平台人工智能模型运算速度应达到相应要求。

数据库的安全及隐私保护

数据库安全性及隐私保护问题是专病数据库管理系统需要重点关注的问题。2021年我国颁布了《中华人民共和国数据安全法》,目的在于规范数据处理活动,保障数据安全,促进数据开发利用,保护个人、组织的合法权益,维护国家主权、安全和发展利益。乳腺MRI数据库的构建,应遵循《中华人民共和国数据安全法》,保障数据安全,严防数据泄露、篡改、丢失等不良安全问题发生。

乳腺MRI数据集应使用通过伦理委员会批准或者豁免的临床脱敏数据。相关图像、头文件、附属文件以及数据集的元数据中均不应包含涉及患者隐私的任何信息。数据传输过程要做到有记录可循,对数据的访问方式、访问程度均应由数据集制造方规定和控制,遵守公共约定的访问控制策略。被研究者访问的程度应满足模型训练的需要、满足临床适用范围,且能做到访问踪迹留痕或记录备查。数据集制造方要根据不同研究者身份访问训练集并验证授权机制,保证数据集使用者调用数据集的速度,验证数据集是否满足建立模型的目的,并确保数据资源的可利用性。对数据集的所有读取、标记操作、传输数据等均需有记录。需有完善的数据备份以确保数据可恢复性,以抵御失效事件的发生。

乳腺MRI数据集构建者可根据实际情况选择本地存储或云存储,数据存储原则是必须要有备份、容灾等措施防止数据意外损失。数据变更、访问都需要建立日程记录以实现数据库的可追踪、可审计性。

小结

构建多中心、大样本及标准化的乳腺MRI数据库,有助于探究乳腺MRI对中国女性乳腺疾病诊疗中的应用价值,促进基于乳腺MRI的人工智能辅助诊疗应用研究,进而提升乳腺MRI早期、无创、精准地诊断乳腺癌,预测乳腺癌发病风险、基因表达、治疗疗效及长期生存等方面的能力。结合联邦学习及FAIR科学数据管理准则有助于促进多中心乳腺MRI数据库构建及使用,有助于开发高效、准确的基于乳腺MRI的人工智能诊疗模型,辅助临床进行乳腺疾病诊疗决策。


执笔者:王丽君(上海交通大学医学院附属新华医院放射科)
共识专家组成员(排名不分前后):彭卫军(复旦大学附属肿瘤医院放射科)、汪登斌(上海交通大学医学院附属新华医院放射科)、刘佩芳(天津医科大学附属肿瘤医院乳腺影像诊断科)、王丽君(上海交通大学医学院附属新华医院放射科)、曹崑(北京大学肿瘤医院暨北京市肿瘤防治研究所医学影像科)、张淑平(天津医科大学附属肿瘤医院乳腺影像诊断科)、罗冉(上海交通大学医学院附属新华医院放射科)、路红(天津医科大学附属肿瘤医院乳腺影像诊断科)

参考文献



免责声明
本文仅供专业人士参看,文中内容仅代表中华放射学杂志立场与观点,不代表肿瘤资讯平台意见,且肿瘤资讯并不承担任何连带责任。若有任何侵权问题,请联系删除。版权归文章作者所有,作者拥有所有法定权利。

评论
02月28日
刘敏
郑州大学第一附属医院 | 肿瘤内科
中国乳腺癌的发病高峰年龄为45~54 岁,较欧美国家提前10 岁左右,因此总结乳腺MRI在中国女性乳腺疾病诊疗中的应用价值更为迫切