首页 > 文章详情

正确率87%，ChatGPT能代替医生吗？

2023年02月14日

▎药明康德内容团队编辑

火遍全网的ChatGPT诞生才两个月，已经撼动了多个领域，无论是写作论文，还是修改计算机程序代码，它的表现都让人叹为观止。在生物医药领域，ChatGPT的应用也成为业界关注的话题。日前，著名学者Eric Topol博士在展望人工智能在生物医药领域的未来时，甚至开玩笑般指出，“机器医生”和“医学博士”，缩写都是M.D.。未来，人工智能真的能够取代医生，对疾病进行诊断和治疗吗？

其实，利用人工智能助力疾病诊断并不是全新的理念。过去10年里，多种症状检查工具（symptom checkers）在网上或者智能手机App中出现，帮助人们根据自己的症状，寻找相关疾病信息和治疗选择。这些工具通常具有两个主要功能：帮助自我诊断和判断症状的严重程度。它们一般会提供给用户一系列潜在诊断，并且对他们是否需要立即去看医生给出建议。

然而，这些工具的准确性并不高。哈佛大学的一支团队曾经使用45种具有不同严重性的真实病例，评估了23种症状检测工具。结果发现，在给出的3个候选答案中，这些工具找到正确诊断的概率只有51%。相比之下，人类医生的准确性可以达到84%。

图片来源：123RF

ChatGPT诊断疾病的表现如何？

ChatGPT在去年11月推出之后，在医学领域的表现让人刮目相看。日前，研究人员已经发现它能够轻松通过部分美国医学执照考试，虽然分数不是顶尖，但是也足以让人感叹人工智能有多强。那么它在诊断疾病方面的表现如何？

这支研究团队利用相同的45个病例对ChatGPT诊断疾病的表现进行了评估。实验结果发现，ChatGPT能够在39个病例中找出正确的诊断（正确率87%），远高于以前的症状检测工具。值得一提的是，ChatGPT获得正确诊断的能力随着版本迭代似乎在不断提高。当研究人员用同样的病例评估老版本的ChatGPT时，它的准确率只有82%。

利用人工智能进行医学诊断的挑战

研究人员指出，虽然ChatGPT的表现高于谷歌搜索和以前的症状检测工具，但是这一研究只使用了45个病例，仍然需要更多的病例才能确认ChatGPT的表现。而且，研究人员也发现，ChatGPT诊断的表现会受到病例信息的呈现方式和提问方式的影响，因此它的表现是否稳定仍然需要进一步研究。

此外，ChatGPT的一个倾向是可能将错误的信息以极为令人信服的方式呈现给用户。此前业内媒体STAT上的一篇文章中，耶鲁大学的学者让ChatGPT对产后大出血进行鉴定诊断。ChatGPT看起来给出了满意的答案并且提供了支持答案的科学证据。然而当研究人员检查文献时，发现ChatGPT给出的文献并不存在。这给利用ChatGPT进行医疗诊断敲响了警钟，没有足够医学知识的普通用户可能无法分辨出看似令人信服的错误答案。

图片来源：123RF

另一个阻碍人工智能在医疗诊断方面应用的因素并不在于它的准确性，而在于用户对人工智能的信任。哈佛大学学者对人类行为学的研究发现，相比于人类医生，患者更难于相信人工智能的诊断结果。其中一个重要原因在于用户并不理解人工智能是根据什么做出诊断，人工智能的内部“思考”过程就像一个黑匣子，它给出的结果虽然正确，但是达成这一结果的过程却不透明。这增加了让患者接受结果的难度。

除此以外，训练人工智能数据库的完整性和真实性，以及如何避免偏见的引入以及保护患者的隐私，也是人工智能进行医疗诊断需要解决的挑战。

辅助医生而不是取代医生

虽然利用人工智能诊断疾病仍然面临多重挑战，但是研究人员也指出这一技术的广阔应用前景。首先在难于就医的情况下，基于ChatGPT的系统可能更快为患者提供建议，对话式的互动方式也更令人容易接受。

而对于医生来说，基于人工智能的工具可以作为临床护理的辅助工具，帮助降低误诊的概率。目前即使是人类医生，在行医时仍然有10%~15%的误诊率。基于ChatGPT的工具可能如同基于人工智能的图像处理软件帮助放射科医生提高诊断率一样，降低医生的误诊率。

图片来源：123RF

Topol博士近日在谈及ChatGPT等大型语言模型（LLM）的前景时指出，此前在医疗健康领域的人工智能模型大多数学习的是同一种模式的数据，比如辅助影像学的人工智能学习的都是图像数据，因此它们只能解决非常狭窄的医学问题，比如发现影像学图片上是否有癌变组织。

而LLM的训练方法可以让人工智能接受多重数据类型的训练，包括文字、图像、结构化数据等等。这提供了整合电子病例，图像，检查数据、基因组和微生物组序列等不同类型医疗数据的潜力。这种数据整合和训练的方式让人工智能不只是具备图像处理这种解决狭窄细分医学领域问题的能力，还具备了医学推理（medical reasoning）的能力。这一能力是扩展人工智能在医疗领域应用的关键，意味着它在没有接受过针对性训练的领域也可以发挥作用。

▲能够接受多种类型数据训练的人工智能模型的应用前景（图片来源：参考资料[2]）

Topol博士表示，目前LLM和生成式人工智能在医药领域的发展仍然处于早期阶段，但是它们在解决医学问题方面已经获得了显著的进展。展望未来，这类处理多种类型健康数据的模型与大型数据库和计算能力相结合，在改良医药精准度，为患者提供更多自主性方面具有变革性的潜力。让我们一起期待和见证人工智能加速生物医药领域进展的未来。

参考资料：

[1] ChatGPT-assisted diagnosis: Is the future suddenly here? Retrieved February 13, 2023, from https://www.statnews.com/2023/02/13/chatgpt-assisted-diagnosis/

[2] When M.D. is a Machine Doctor. Retrieved February 13, 2023, from https://erictopol.substack.com/p/when-md-is-a-machine-doctor

[3] For Patients to Trust Medical AI, They Need to Understand It. Retrieved February 13, 2023, from https://hbr.org/2021/09/for-patients-to-trust-medical-ai-they-need-to-understand-it

[4] Promises — and pitfalls — of ChatGPT-assisted medicine. Retrieved February 13, 2023, from https://www.statnews.com/2023/02/01/promises-pitfalls-chatgpt-assisted-medicine/

[5] Semigran et al., (2015) Evaluation of symptom checkers for self diagnosis and triage: audit study. BMJ, https://doi.org/10.1136/bmj.h3480

[6] Can We Trust ChatGPT and Artificial Intelligence to Do Humans’ Work? Retrieved February 13, 2023, from https://www.bu.edu/articles/2023/can-we-trust-chatgpt-and-artificial-intelligence/

免责声明本文仅供专业人士参看，文中内容仅代表药明康德立场与观点，不代表肿瘤资讯平台意见，且肿瘤资讯并不承担任何连带责任。若有任何侵权问题，请联系删除。

责任编辑：肿瘤资讯-Kate
排版编辑：肿瘤资讯-Kate

领新版指南，先人一步>>

查看详情

2023年02月14日

段少杰

余干县楚东医院 | 肿瘤科

人工智能的内部“思考”过程就像一个黑匣子，它给出的结果虽然正确，但是达成这一结果的过程却不透明。