首页 > 文章详情

【Gastroenterology】询问ChatGPT有关结肠镜的问题，它会如何回答？

2023年05月18日

作者：肿瘤资讯

来源：肿瘤资讯

2023年5月份，国际知名学术期刊Gastroenterology（IF：33.883）在线刊登了一篇题为“ChatGPT Answers Common Patient Questions About Colonoscopy”的研究文章¹。

本文通讯作者为美国波士顿哈佛医学系Dr.Braden Kuo，第一作者为中国台湾台北医学大学双和医院消化内科Dr.Tsung-Chun Lee。

针对结肠镜相关问题，AI回答vs.非AI回答评分相似

ChatGPT（Chat Generative Pre-trained Transformer）是美国OpenAI研发的聊天机器人程序，于2022年11月30日发布。作为是人工智能技术驱动的自然语言处理工具，它能够通过理解和学习人类的语言来进行对话，还能根据聊天的上下文进行互动2。

Tsung-Chun等人认为，ChatGPT的潜在应用之一是回答患者与医疗相关问题。结肠镜检查是消化内科涉及诸多的筛查诊断项目。在本研究中，Tsung-Chun等人探究了ChatGPT针对结肠镜相关常见问题（CQs）所生成答案的质量。

研究者自《美国新闻与世界周刊（US News & World Report）》发布的全美胃肠外科排名前20的医院官网上检索了8个关于结肠镜的CQs及答案。研究者将这8个问题输入ChatGPT（2023年1月30日版），一天内进行两次提问，并将所生成答案记录为AI1和AI2。随后，研究者使用查重软件（plagiarism detection software）比较了所有答案之间的文字相似度。

为客观解释ChatGPT生成答案的质量，4位胃肠病学家（包含2位专业消化科医生和2位研究人员）使用7分Likert量表进行随机打分。该类表格涉及：①通俗易懂；②充分的科学性；③满意度三个方面的评分。评分者还需判断所评估的答案是否为AI生成的。

医师（非AI）回答与ChatGTP（AI）回答在通俗易懂方面的评分相似，且AI的平均得分高于非AI的平均得分；在通俗易懂方面，AI回答评分vs.非AI回答评分为5.0~6.4 vs.4.8~5.8（经校准后，P＞0.00089，差异不显著）。在充分的科学性、满意度方面，非AI回答与AI回答的评分均相似；其中，在满意度方面，AI回答评分vs.非AI回答评分为4.9~6.3 vs.4.8~5.8（差异不显著）（表1）。

表1.AI回答与非AI回答的7分Likert量表评分（7-强烈赞同；4-中立；1-强烈反对）

评分者在判定AI生成答案方面的准确率仅为48%，灵敏度为41%，特异性为54%。在4位评分者中，有3位的准确率低于50%，1位准确率为81%（图S1）。

图S1.四位评分者关于AI生成回答的判断准确性

令人惊讶的是，本研究中3位胃肠病学家识别AI生成答案的灵敏度较低（分别为6%、25%和44%）；据那位准确率较高的胃肠病学家解释，“ChatGPT的回答往往过长，在给出的一大段可能性回答语句中使用了许多冒号。其回答更像是一个列表，而非一个叙述性的段落。”相比之下，医院医师给出的回答“更像是对患者的口头回应，而非百科全书式的回应”。

本研究表明，对话式AI程序在优化患者和医疗工作者之间的沟通方面发挥着潜在作用，尤其是在检查量巨大的结肠镜等流程方面。尽管AI回答与非AI回答的评分相似，但两者间的查重率极低，这揭示了LLM中固有的避免抄袭以及针对同一问题生成创造性答案的能力。

LLM的现在和未来

ChatGDP一经问世便引发全球关注

自2023年2月3日至2023年4月14日，Pubmed中涉及ChatGPT的检索结果从20篇增加到246篇，增长了十倍；主题涵盖委员会考试（board examinations）、著述（authorship）、编辑政策（editorial policies）、医学教育（medical education）、临床决策支持（clinical decision support）、LLM评估框架（LLM assessment framework）等多方面（图S2）。

图S2.Pubmed中涉及ChatGPT的检索结果

尽管仍处于LLMs应用曲线的早期阶段，但ChatGPT、BioGPT和BARD等或可改变医生产出、患者使用的现有医疗信息（MI）模式，带来变革性创新。

除弊兴利，方能行千里之路

处在当前这样一个决策共享和医疗消费化的时代，患者不断通过多种渠道积极进行MI消费，通过患者电子门户网站访问医疗机构，这或许可使患者从中获益，但同时也不可避免地为医疗网站维护者和医疗人员带来了沉重的负担。因此，研究者设想，在适当医疗监管、认证和定期监督的条件下，AI产生的MI将提高治疗效率，为医疗人员提供更多的时间与认知密集型（cognitively-intensive）患者进行沟通。然而，前提是解决潜在隐患。

首先，目前ChatGPT生成的MI并非基于临床证据构建的，而是在不同的互联网文本上进行LLM训练，并通过人类反馈进行强化学习而生成。其次，LLM的输出可能很敏感，容易受到“提示工程（prompt engineering）”的影响，即通过“输入提示（inputting prompts）”的细微变化进行操纵，而且其性能的一致性可能处于"不断变化的状态"。在技术和形式上，LLM胜任临床治疗领域仍有较大差距。不同患者使用LLM的临床效用偏差是又一问题。

然而，值得一提的是，使用有效的阅读水平指标（Flesch-Kincaid等级；Gunning Fog指数）进行的可读性分析显示，AI生成的答案的阅读水平明显高于医院的网页（P＜0.001）。

研究讨论

Tsung-Chun等人研究首次证实，当前LLM衍生的对话式AI程序能够为胃肠病学家确定的结肠镜检查CQ提供易于理解、具有充分科学性且普遍满意度高的答案；对话式AI程序可生成用以回应患者常见问题、可靠的医疗信息，在专业领域培训、改善医患交流方面有很大潜力。

该研究亦有局限性：首先，本研究的评分者为胃肠病学家，而非患者，即结肠镜检查相关提问所对应答案的最终受众；旨在从医学专业人士的视角对AI生成的MI进行初步评估，因此，未来的研究可从更为广泛的角度进行探索。其次，本次研究中，医院及评分者的数量均较小，这限制了其可推广性。最后，随机选择的网页来源显示的医院可能并不全面。

参考文献

1.Lee T-C, Staller K, Botoman V, Pathipati MP, Varma S, Kuo B, ChatGPT Answers Common Patient Questions About Colonoscopy, Gastroenterology (2023), doi: https://doi.org/10.1053/j.gastro.2023.04.033.
2.https://baike.baidu.com/item/ChatGPT/62446358?fr=aladdin

责任编辑：肿瘤资讯-Bree
排版编辑：肿瘤资讯-Bree

2023年05月18日

陈大军

衢州市人民医院 | 消化内科

人工智能，帮助学习及知识整合

2023年05月18日

欧阳波

酒钢医院 | 呼吸内科

内容很精彩，值得学习！

2023年05月18日

王隆来

上海市监狱总医院 | 肿瘤内科

Chat CPT的潜在运用，与人工回答相似