首页 > 文章详情

BMJ研究速递：AI筛查显示近一成癌症研究论文疑似出自论文工厂，中国机构发表论文标记率高达36%

02月25日

编译：肿瘤资讯

来源：肿瘤资讯

科研诚信是科学发展的基石，而大规模的“论文工厂”现象正在对生物医学领域的文献质量构成系统性威胁。近期，一项发表于《英国医学杂志》（BMJ）的研究利用自然语言处理技术，对过去25年间出版的260余万篇癌症研究论文进行了全面筛查。研究结果显示，约9.87%的论文表现出与已知论文工厂产品高度相似的文本特征，且该比例随时间推移呈显著上升趋势。

背景与目的：针对学术造假的规模化筛查

论文工厂（Paper Mills）是指通过未申报的商业服务，为研究人员伪造数据、撰写手稿并协助发表的盈利性组织。这一现象已非个案，而是演变为具有高度组织化和规模化特征的灰色产业链。据估计，生物医学领域存在相当比例的论文工厂产出，这不仅浪费了科研资源，更可能误导临床决策和后续研究方向。

为了评估这一问题的实际规模，来自法国和澳大利亚的研究团队开展了这项横断面研究。其核心目标是开发并验证一种基于机器学习的文本分类模型，用于区分论文工厂产品与真实的癌症研究论文，并利用该模型对癌症研究文献进行大规模筛查，以量化潜在造假论文的流行率及其分布特征。

图片来源：BMJ官网

方法学路径：基于BERT模型的自动化识别

该研究采用了一种基于人工智能的自动化筛查流程，其核心技术路径如下：

1. 数据集构建与预处理

研究团队首先构建了包含正负样本的训练数据集。正样本，即疑似造假论文，来自“撤稿观察”（Retraction Watch）数据库，筛选出明确被标记为“Paper Mill”且属于癌症领域的2202篇撤稿论文。负样本（对照组）则选取了同期发表在影响因子排名前10%的期刊，以及第一作者单位位于瑞典、芬兰、挪威等已知论文工厂活动极少国家的2202篇论文。

2. 核心算法与特征提取

研究选用了BERT（Bidirectional Encoder Representations from Transformers）模型。这是一种先进的预训练语言模型，能够捕捉文本的双向上下文信息。研究仅提取论文的标题和摘要作为输入数据。论文工厂为了实现批量生产，往往使用特定的文本模板，通过替换基因名称、癌症类型或细胞系名称来快速生成新手稿，研究团队假设这种写作方式在标题和摘要的句法结构、词汇选择上会留下可识别的语言特征。

3. 模型训练、验证与应用

模型在训练集上进行微调后，首先在内部验证集上进行了测试。随后，研究引入了一个完全独立的外部验证集——由科研诚信专家鉴别的3094篇疑似造假论文和3100篇对照论文。这一步骤至关重要，旨在验证模型在未见过的数据上的泛化能力。

最终，经过验证的模型被应用于PubMed数据库中筛选出的约265万篇癌症研究原始论文，对每一篇论文进行二分类评分。

研究结果：潜在造假论文的分布与趋势

1. 模型验证与性能表现

在对海量文献进行筛查之前，研究团队对模型的可靠性进行了严格评估。结果显示，BERT模型在区分造假论文与真实论文方面表现出高度的稳健性：

内部验证： 在基于“撤稿观察”数据的内部验证集中，模型的分类准确率达到0.91，敏感性为0.87，特异性为0.96。
外部独立验证：在从未参与训练、由科研诚信专家构建的独立外部数据集上，模型依然保持了优异表现，准确率提升至0.93，特异性高达0.99。这意味着模型误判真实论文为造假论文的可能性极低（假阳性极少）。
问题论文识别： 此外，针对此前已被专家识别出存在核苷酸序列错误或细胞系误用的“问题论文”，模型在未针对这些具体特征进行训练的情况下仍成功标记了其中的约72%，证实了其在捕捉潜在造假通用特征方面的有效性。

2. 总体流行率与增长趋势

模型经过验证后，对PubMed数据库中收录的1999年至2024年间的癌症研究论文进行了筛查，在2647471篇癌症研究论文中，模型标记了261245篇论文，总体标记率为9.87%。这一数据远高于此前生物医学领域约3%的预估值。时间序列分析显示，被标记论文的数量从1999年至2022年呈现指数级增长，直到2023年和2024年才略有回落。

F1.large.jpg

3. 地理分布特征

被标记论文的作者来源表现出显著的地域集中性。数据显示，隶属于中国机构的作者发表的论文被标记数量最多，超过17万篇，占中国癌症研究论文总产出的约36%。此外，伊朗、沙特阿拉伯、埃及和巴基斯坦等国家的论文被标记比例也相对较高。

F2.large.jpg

4. 学科与期刊分布

在细分领域中，胃癌、骨癌（如骨肉瘤）和肝癌的相关研究是被标记的重灾区，疑似造假论文的比例高达20%至22%。研究内容多集中在非编码RNA（ncRNA）和细胞系实验等易于模板化操作的领域。

F4.large.jpg

值得警惕的是，论文工厂的产品已不再局限于低影响力期刊。数据显示，在影响因子排名前10%的顶级期刊中，被标记论文的比例也随时间推移而上升。

F6.large.jpg

研究存在的潜在偏倚与局限

尽管该研究利用机器学习技术在大规模筛查方面取得了突破，但必须客观看待其方法学局限性，以避免对结果的过度解读。

1. 训练数据的固有偏差

模型的训练高度依赖于“撤稿观察”数据库。由于历史原因，该数据库中被标记为论文工厂产出的撤稿论文，多数来自中国作者。这导致模型在训练过程中可能学习到了中国作者英语写作的特定语言习惯，而非纯粹的造假特征。这种偏差可能导致模型对中国作者的合规论文产生较高的误报率（假阳性），从而夸大特定地区的造假比例。

2. 对照组选择的漏洞

研究假设高影响因子期刊及北欧国家作者的论文为真实论文并作为负样本。这一假设虽然在统计学上是可行的近似，但缺乏绝对的科学严谨性。高影响因子期刊同样存在未被发现的造假行为，而特定国家的论文也不能保证绝对无虞。这种基于代理标签的训练方式限制了模型识别高质量伪造论文的能力。

3. 模型的不可解释性

BERT作为深度学习模型，其决策过程类似于黑箱。模型能够给出一个概率评分，但无法给出确证。在学术不端调查中，判定造假需要确凿的证据链，缺乏可解释性的概率评分只能作为线索，不能直接作为定性依据。

4. 技术演进带来的影响

该研究基于2024年之前的数据进行训练，主要针对的是基于模板生成的文本。随着生成式人工智能（如ChatGPT）的普及，论文工厂可能利用AI生成语法更完美、结构更多样的文本，从而规避现有的基于文本特征的检测模型。未来的造假检测将面临更为复杂的技术挑战——按该研究作者的话说，这会是一场军备竞赛。

参考文献

BMJ 2026;392:e087581

责任编辑：肿瘤资讯-丹忱
排版编辑：肿瘤资讯-丹忱