您好,欢迎您

颠覆蛋白设计,生物界的ChatGPT要来了?

2023年01月29日

▎药明康德内容团队编辑

近一段时间,ChatGPT可谓是火遍全网。这款基于人工智能的工具在聊天上几乎可以以假乱真,让人分辨不出和自己在说话的究竟是人还是AI。更夸张的是,诞生不到2个月,它已经撼动了许多领域:因为它写出的论文质量极高,教育系统甚至已经开始考虑“封杀”这个程序,以防学生利用它作弊;也因为即便是专家也难以区分这些内容是否来自AI,《自然》在内的多家科学杂志也要求论文中需要明确指出是否使用了ChatGPT。此外,它还通过了美国商学院、法学院和医学院的资格考试。尽管分数并不顶尖,却也足以让人感叹AI有多强。

而类似的AI工具,可能将要变革生物医药领域……

日前,科学家们利用与ChatGPT背后AI模型类似的算法,创建了一款能从头生成人工蛋白的AI系统,在实验检测中,它生成的蛋白酶虽然氨基酸序列与大自然中发现的天然酶迥然不同,但是功能却可与之媲美。文章作者表示,这个AI系统就好比“生物学的ChatGPT”,将颠覆创新蛋白的生成模式。


ChatGPT背后的大型语言模型利用对海量人类语言数据的分析,学习人类语言的语法和其它特征。在这项研究中,研究人员同样使用了深度学习语言模型,与ChatGPT不同的是,他们给这款名为ProGen的模型输入的不是人类的语言和文字,而是约2.8亿个蛋白质序列,它们来自近两万个蛋白家族,并且包括描述蛋白特征的信息。从中,ProGen学习到了蛋白中氨基酸排序的规律,以及它们与蛋白结构和功能的关系。研究人员表示,这就像是在学习蛋白结构和生物学的“语言”。


研究人员在这一研究中让ProGen生成能够杀死细菌的溶菌酶。从AI模型生成的上百万个蛋白序列中,他们基于人工蛋白与自然蛋白的相似程度,以及AI蛋白模拟自然氨基酸排列“语法”的相似度选出了100个候选蛋白。再从这100个蛋白中进一步筛选出5个人工蛋白,对它们的溶菌活性进行检测。结果显示,其中两款人工合成的溶菌酶能够溶解细菌的细胞壁,而且活性与大自然中出现的鸡蛋清溶菌酶(HEWL)类似。然而,这两款人工蛋白的氨基酸序列与任何已知蛋白之间只有90%和70%的重复,代表着在大自然中从未出现过的全新蛋白。


图片来源:123RF


研究人员表示这一新技术可能比获得诺贝尔奖的定向进化(directed evolution)蛋白设计技术更有威力,给蛋白工程学领域注入新的活力。基于ProGen系统,文章的第一作者Ali Madani博士联合创建的新锐公司Profluent也在日前浮出水面。在接受行业媒体Endpoints News采访时,他表示未来的新药开发将不再以实验驱动为主,AI只起到辅助作用。当AI能够充当蛋白和生物学“语言”的翻译官时,我们将不再需要在大自然中无穷无尽的寻找,或者受到传统蛋白工程学的局限。


“语言模型学习了进化的知识,但是它与普通的进化过程不同。”论文的作者之一,加州大学旧金山分校的James S. Fraser博士说,“我们现在有能力生成具有特定性质的蛋白,比如生成热稳定性极高的蛋白,或者让它与特定蛋白结合。”


ProGen等AI系统能够从头设计具有特定功能的全新蛋白(图片来源:参考资料[2])


2022年是人工智能设计全新分子屡获突破的一年。在AlphaFold精准解析蛋白质三维结构之后,华盛顿大学David Baker教授团队去年接连在《自然》、《细胞》上发文,介绍AI设计全新药物的新途径。Generate Biomedicine公司也推出了基于新算法的AI平台,能够按照研究人员要求,定制具有特定特征的全新蛋白结构。《药明康德》的读者也将人工智能设计全新分子选为2022年生物医药年度突破榜单之首


利用语言模型生成全新蛋白,为蛋白设计和新药开发增添了基于AI的新策略。在日前结束的第41届JP摩根医疗健康大会上,科技公司Nvidia的报告指出,AI生物学领域近年来突飞猛进,能够像人类一样输出创新内容的生成式人工智能(generative AI)和在ChatGPT和ProGen背后的大型语言模型(LLM)将促进生物学的工程化。“到2025年,生成式AI技术将系统性发现超过30%的新药和新材料!


图片来源:Nvidia官网


在日前结束的2023药明康德全球论坛上,多位专家在谈及产业创新时共同指出,将研发模式从“试错型”转变为“预测型”,是创新的关键之一。而大数据和先进算法是其中不可或缺的元素。期待人工智能在新药发现和开发领域迎来更多成功,让更多好药新药加速问世,造福全球病患!



参考资料:
[1] Madani et al., (2023). Large language models generate functional protein sequences across diverse families. Nature Biotechnology, https://doi.org/10.1038/s41587-022-01618-2
[2] Profluent debuts to design proteins with machine learning in bid to move past 'AI sprinkled on top'. Retrieved January 27, 2023, from https://endpts.com/exclusive-profluent-debuts-to-design-proteins-with-machine-learning-in-bid-to-move-past-ai-sprinkled-on-top/
[3] AI Technology Generates Original Proteins from Scratch. Retrieved January 27, 2023, from https://www.ucsf.edu/news/2023/01/424641/ai-technology-generates-original-proteins-scratch
[4] Tools such as ChatGPT threaten transparent science; here are our ground rules for their use. Retrieved January 27, 2023, from https://www.nature.com/articles/d41586-023-00191-1
[5] NVIDIA Highlights AI, Large Language Model Advances in Life Sciences. Retrieved January 27, 2023, from https://www.bio-itworld.com/news/2023/01/20/nvidia-highlights-ai-large-language-model-advances-in-life-sciences
[6] JP Morgan Health 2023. Retrieved January 27, 2023, from https://s201.q4cdn.com/141608511/files/doc_presentations/2023/JPM23_Keynote_vFinal_IR.pdf
[7] Profluent. Retrieved January 27, 2023, from  https://www.profluent.bio/technology


免责声明本文仅供专业人士参看,文中内容仅代表药明康德立场与观点,不代表肿瘤资讯平台意见,且肿瘤资讯并不承担任何连带责任。若有任何侵权问题,请联系删除。    




责任编辑:肿瘤资讯-Kate
排版编辑:肿瘤资讯-Kate


评论
2023年01月29日
高阳阳
河北医科大学第四医院(河北省肿瘤医院) | 放疗科
感谢分享,获益良多
2023年01月29日
万军鸽
叶县人民医院 | 血液肿瘤科
AI系统好比生物学的ChatGPT,将颠覆创新蛋白的生成模式
2023年01月29日
刘阳
费县人民医院 | 胸部肿瘤科
感谢分享,获益良多