1月20日,Nature Medicine发布了题为“AI in health and medicine”的综述文章,表明人工智能正在重塑医学。
7月28日,DeepMind官宣:AlphaFold2预测出2.14亿个蛋白质结构,几乎涵盖地球上所有已知蛋白质。
近半年来,我们见证了AI在生物医学中的一次次突破。
本文根据 蛋白质结构、算法模型、临床数据 三大热门领域,对2022年以来的重要论文进行梳理,与各位共同回顾AI为生物医药带来的改变。
01、蛋白质相关研究论文
关键词 :结构预测、从头设计、AlphaFold、Rosetta
清华大学和MIT团队:使用AlphaFold方法增强COVID-19抗体
在3月的PNAS杂志上,清华大学与麻省理工学院联合发表论文。科学家描述了修改一种已知的针对 COVID-19 的抗体,以 提高其针对多种疾病变体的功效 。团队参考了AlphaFold 2,并且采用了其方法,但没有使用DeepMind的代码。
论文链接:
https://www.pnas.org/doi/10.1073/pnas.2122954119
华为:推出全流程蛋白质结构预测工具 MEGA-Protein,即将开源
华为与北京昌平实验室、北京大学生物医学前沿创新中心团队、深圳湾实验室高毅勤教授课题组,联合推出全流程蛋白质结构预测工具 MEGA-Protein。

图:不同方案预测的蛋白质结构效果对比
包含 AI MSA 引擎、蛋白质折叠训练推理流程、蛋白质结构打分、蛋白质结构预测数据集 PSP 等关键技术,相关代码和模型参数后续会在昇思 MindSpore 社区开源。
论文链接:
https://arxiv.org/pdf/2206.12240.pdf
Nat Commun|提升AlphaFold2蛋白-蛋白相互作用的预测能力
以AlphaFold2为基础,Patrick Bryant等人提升了蛋白复合物预测的能力,该工作于近日发表在Nature Communication上。作者 优化了复合物结构预测中的MSA输入,大幅提升了AF2的复合物结构预测能力 ,并且发展的pDockQ指标可以很好地分类蛋白是否能相互作用。
论文链接:
https://www.nature.com/articles/s41467-022-28865-w
David Baker团队:仅根据靶点结构设计蛋白质的结合蛋白
3月24日,华盛顿大学蛋白设计研究所的David Baker、曹龙兴和Brian Coventry等人在Nature发表文章,介绍了一种仅根据靶点蛋白的结构信息就可以进行蛋白质从头设计的方法,该方法可以对治疗和诊断中各种蛋白质上的位点进行针对性的设计,具有广泛的用途。
论文链接:
https://doi.org/10.1038/s41586-022-04654-9
David Baker团队:利用深度学习设计蛋白质功能位点
7月21日,华盛顿大学蛋白质设计研究所David Baker等人在Science发表文章,描述了如何采用两种深度学习方法来设计含有预先指定的功能位点的蛋白质,通过专门训练的 RoseTTAFold 网络,在单次向前传递中创建一个可行的蛋白质骨架。

图:发现与靶点蛋白结合的迷你蛋白的策略
论文链接:
https://doi: 10.1126/science.abn2100.
Nat Commu | 探索蛋白质序列表示学习
4月8日,哥本哈根大学计算机科学系 Wouter Boomsma 等人在 Nature Communications 上发表文章:探索了 迁移学习和可解释性学习 中的表示。
在迁移学习中,作者证明了现在的一些实践只能产生次优的结果。在可解释性学习中,把几何信息考虑在内有助于提升可解释性,并且可以帮助模型揭示被掩盖的生物信息。
论文链接:
https://doi.org/10.1038/s41467-022-29443-w
Facebook:从数百万个预测蛋白质结构中学习逆折叠,预测序列信息
Facebook利用AlphaFold2产生的数据,采用几何不变处理层的seq2seq的模型,在蛋白质骨架结构数据上实现了51%的序列复现,对于包埋残基的复现率达到 72% ,总体上比现有方法提高了近 10% 。

该研究于2022年4月10日发布在 BioRxiv 预印平台。
论文链接:
https://www.biorxiv.org/content/10.1101/2022.04.10.487779v1
六国联合发起,Nature两大子刊:关注蛋白质组“暗物质”研究
5月9日,Georg Kustatscher等六国科学家联合发起了一项名为“ 未充分研究的蛋白质计划 ”的调查。

图: “未充分研究的蛋白质计划”调查截图
Nature Methods、Nature Biotechnology连发两篇相关文章,呼吁学界通过系统地将未表征的蛋白质与已知功能的蛋白质相关联,来缩小存在的蛋白质间注释差距,从而为详细的机制研究奠定基础。西湖欧米的 郭天南博士 参与其中。
论文链接:
https://doi.org/10.1038/s41587-022-01316-z
https://doi.org/10.1038/s41592-022-01454-x
ColabFold:让所有人都能进行蛋白质折叠
5月30日,哈佛大学FAS科学部的Sergey Ovchinnikov及韩国首尔国立大学生物科学学院的Martin Steinegger等人发表文章,介绍了全新蛋白质结构预测工具ColabFold。
通过将MMseqs2的快速同源搜索与AlphaFold2或RoseTTAFold相结合,提供了蛋白质结构和复合物的加速预测。其搜索速度提高了 40-60倍 ,并且优化了模型的利用,在一台有图形处理单元的服务器上每天可以预测近 1000个 结构。
论文链接:
https://doi.org/10.1038/s41592-022-01488-1
Rosetta MPNN:新一代蛋白设计引擎
作者Justas Dauparas,在哈佛大学和Sergey Ovchinnikov组一起探索共进化和图网络的关系,随后加入了蛋白质设计大师David Baker课题组。MPNN 基于图扩散模型 ,并且加入了对蛋白质结构的理解,将蛋白质结构信息的融入到了神经网络之中,从而蛋白质序列的回复率提高到了 50% 。 论文链接:
https ://doi.org/10.1101/2022.06.03.494563
源码code:
https://github.com/dauparas/ProteinMPNN
02、药物设计算法相关论文
关键词 :深度学习、算法模型、药物设计、产学进展
百度:利用几何构象提升化合物分子建模效果

图:GEM的整体框架
2月,百度在《Nature Machine Intelligence》上发表了AI+生物计算的最新研究成果,提出“基于空间结构的化合物表征学习方法”,即“几何构象增强AI算法” (GEM模型) ,揭示了一种基于三维空间结构信息的化合物建模方法,以及在药物研发中的应用。
论文链接:https://www.nature.com/articles/s42256-021-00438-4
兰州大学&腾讯团队:开发自适应图学习方法,预测分子相互作用及性质
6月23日,兰州大学和腾讯量子实验室团队,提出了 基于图学习的自适应机器GLAM ,并分别设计了两种通用架构:一种用于分子相互作用,另一种用于分子属性,可以 适应任何数据集 并在无需人工干预的情况下做出准确的预测。研究以发布在《Nature Machine Intelligence》。
论文链接:
https://www.nature.com/articles/s42256-022-00501-8
GLAM 开源地址:
https://github.com/yvquanli/GLAM
浙江大学&腾讯团队:像计算化学家一样提取分子特征的方法
本文提出了一种新的预训练策略,通过 学习由计算化学家预定义的分子特征和原子特征 ,使得模型能够像计算化学家一样从SMILES中提取分子特征。K-BERT在多个成药性数据集上表现了优异的预测能力。此外,由K-BERT生成的通用指纹K-BERT-FP在15个药物数据集上表现出与MACCS相当的预测能力。
论文链接:
https://doi.org/10.1093/bib/bbac131
Iktos:应用于多参数优化的基于配体的从头设计深度生成模型

2月26日,J Comput Chem杂志发表了AI药物发现公司Iktos的Yann Gaston-Mathé等人的一项早期工作: 基于DL 的从头设计算法,结合QSAR模型,生成了150个预计在所有指标上都具有活性的虚拟化合物,11个化合物被合成和测试。
论文链接:
https:// doi: 10.1002/jcc.26826.
赛诺菲:机器学习引导的早期小分子药物发现
3月29日,赛诺菲的NikhilPillai等人在Drug Discov Today杂志发表文章,分析和反思了机器学习在临床前小分子药物发现中的多种应用,并简要介绍了机器学习任务中的分子表征方法。

论文链接:
https:// doi: 10.1016/j.drudis.2022.03.017
薛定谔:一种模拟药物化学家思路的先导化合物结构优化新算法
2022年6月,薛定谔公司的Sathesh Bhat等人发展了一种从头设计算法AutoDesigner,通过 模仿药物化学家的先导化合物优化思路 ,广泛地探索符合良好药动性质条件的化学空间,最终设计出新颖、类药且具有理想活性的化合物,并将其成功应用在D-氨基酸氧化酶(DAO)*制剂抑**的设计项目当中。成果已发表在美国化学会出版的核心期刊J. Chem. Inf. Model.上。
论文链接:
https://DOI: 10.1021/acs.jcim.2c00072
阿斯利康:通过课程学习改进从头分子设计
阿斯利康公司的研究人员在从头设计平台 REINVENT 中实施课程学习,并将其应用于不同复杂性的说明性分子设计问题。与标准的基于策略的强化学习相比,结果显示了对加速学习和输出质量的积极影响。 研究于6月22日发布在Nature Machine Intelligence。

图示:CL 概述
论文链接:
https://www.nature.com/articles/s42256-022-00494-4
MIT:用深度学习模型发掘潜在药物分子,速度提升1000倍
今年7月,麻省理工学院的研究团队用 EquiBind 挑战了药物分子预测问题。这是一种 SE(3) 等变几何深度学习模型,对受体结合位置 (盲对接) 和配体的结合姿势和方向进行直接预测。与传统和最近的基线相比,EquiBind 实现了显著的加速和更好的质量。论文已在第 39 届机器学习国际会议 (ICML 2022) 上发表。
论文链接:
https://arxiv.org/abs/2202.05146
Stanford | 基于蛋白-配体复合物的几何深度学习,指导基于片段的配体生成
斯坦福大学计算机科学系Ron O. Dror教授组针对配体生成问题,使用数据有效的E(3)等变网络和3D原子点云表征进行建模。该方法能 结合蛋白质口袋的3D空间信息同时生成合理的分子 ,从而加速药物发现过程。通过对多种性质进行评估证明该框架确实能生成可行的分子。
论文链接:
https://doi.org/10.1101/2022.03.17.484653
03、临床数据相关论文
关键词 :知识图谱、组学数据、数据库挖掘/验证
Nat. Biotechnol. | CKG : 用于解释临床蛋白质组学数据的知识图谱
CKG建立在科学的Python库上,包括 analytic score、graphdb builder、graphdb connector 等四个独立的功能模块。它可以在标准工作流程和基于Jupyter笔记本的互动探索中实现可重复、可再现和透明的分析。整个系统是 开源 的,并取得了MIT许可,有关介绍已发表在Nature上。
论文链接:
https://doi.org/10.1038/s41587-021-01145-6
哈佛大学:构建知识图谱PrimeKG以实现精准医疗
5月初,哈佛大学团队在bioRxiv上发表了题为“Building a knowledge graph to ennable precision medicine"的文章。

图:表征精准医学知识图谱
构建了PrimeKG知识图谱用于 发现新的生物标志物、表征疾病过程、完善疾病分类、识别表型特征、预测生物学机制和药物重利用 等,并公开了所有的数据与代码。
项目网站:
https://zitniklab.hms.harvard.edu/projects/PrimeKG
代码地址:
https://github.com/mims-harvard/PrimeKG
数据地址:https://doi.org/10.7910/DVN/IXA7BM
Drug Discov Today|用生物医学知识图谱阐释药物的临床结果路径
2月16日,美国北卡罗来纳大学Eshelman药学院的Alexander Tropshab等人发表文章,提出了临床结果路径 (COP) 的概念,将其定义为有关药物分子治疗效果的一系列关键的分子和细胞事件。COP可以 通过挖掘生物医学知识图谱进行计算阐释 ,这为产生新的、有指导意义的药物发现和再利用的假设铺平道路。
论文链接:
https://doi.org/10.1016/j.drudis.2022.02.008
MIT团队:从科学文献中自动提取化学反应
5月16日,麻省理工学院计算机科学与人工智能实验室的Jiang Guo等人在J Chem Inf Model杂志发表文章,介绍了一种从化学文献中提取反应的自动化方法。将其 表述为结构预测问题 ,并通过一个由产物提取和反应角色标记组成的两个阶段的深度学习架构来解决。
论文链接:
https://pubs.acs.org/doi/10.1021/acs.jcim.1c00284
Science | ChemPU中化学合成文献数据库的数字化和验证
2022年7月7日,Science发表了一篇关于 化学合成自动智能化 的论文。Simon Rohrbach等研究人员提供了一个包含100个分子的自动可执行化学反应数据库,包括过渡金属催化的偶联反应、杂环形成、*能官**团相互转化和多组分反应。

合成中,已*载下**数据库中的50多个条目,并在七个模块化 ChemPU 中自动运行, 其产率和纯度与专业化学家所达到的相当 。
论文链接:
https://www.science.org/doi/10.1126/science.abo0058
04、AI制药相关综述/报告
Nat Rev Drug Discov|小分子药物发现中的AI:即将到来的浪潮?
2月7日,Nat Rev Drug Discov发表了波士顿咨询公司Christoph Meier等人的文章,从多方面看到了AI在药物发现领域中创造的价值,包括更大生产力、更快速度、更低成本、更广泛的分子多样性及更高的临床实验成功率,并利用公开的数据进行了深度分析。
论文链接:
https://doi.org/10.1038/d41573-022-00025-1
WIREs CMS | 基于深度学习的药物重定位:方法、数据库和应用
来自湖南大学曾湘祥教授的科研团队,与弗雷德里克国家癌症研究所Ruth Nussinov教授、伊利诺伊大学芝加哥分校Philip Yu教授等多位学者合作,发表了 利用深度学习方法和工具进行药物重定位主题 的综述文章。

图:基于深度学习的药物重定位的当前主流研究过程
概述了常用于药物重定位的生物信息学和药物基因组学数据库;并讨论了基于序列和基于图的表示学习方法及最先进的基于深度学习的方法及未来挑战。
论文链接:
https://doi.org/10.1002/wcms.1597
Nat Mach Intell|GPU计算和深度学习在药物发现中的变革作用
现代药物发现已经受益于最近DL模型和GPU并行计算的爆炸性增长。3月23日,哥伦比亚大学的Artem Cherkasov和英伟达的Abraham C等人发表文章,全面阐述了GPU计算和深度学习的历史趋势和最新进展,并讨论了它们对药物发现的直接影响。
论文链接:
https://doi.org/10.1038/s42256-022-00463-x
JCIM|药物发现的超大型化合物数据集概述
4月14日,美国国家癌症研究所 (NCI) 计算机辅助药物设计研究课题组的Wendy等人在JCIM杂志上发表综述: 介绍了许多包含百万甚至数十亿化学结构的数据集 ,以及未完全枚举的更大化学空间。
论文链接:
https://pubs.acs.org/doi/10.1021/acs.jcim.2c00224
Nat. Commun. | 生物科学领域应用深度学习的当前进展和公开挑战
4月1日,莱斯大学(Rice University)的研究人员讨论了深度学习在 蛋白质结构预测、蛋白质功能预测、基因组工程、系统生物学和数据集成 以及系统发育推断,共五个广泛领域的最新进展、局限性和未来前景。综述发表在Nature Communications上。
论文链接:
https://www.nature.com/articles/s41467-022-29268-7
Nature:AlphaFold和AI蛋白质折叠革命的下一步是什么
4月13日,Nature一篇综述中,多位科学家就AlphaFold和AI蛋白质折叠的现状和未来阐述了观点:AlphaFold预测不一定是个直接的解决方案,但它提供了一个初步的近似值,可以通过实验来验证或完善,我们应批判性乐观。
论文链接:
doi: 10.1038/d41586-022-00997-5.
ACM:未来,合成生物学与人工智能会对世界产生哪些影响?
劳伦斯伯克利国家实验室 (LBNL) 、美国空军研究实验室 (AFRL) 等机构的研究人员合作,对人工智能在合成生物学中的应用现状、影响、挑战以及潜力与前景进行了较为系统的阐述。以Artificial Intelligence for Synthetic Biology为题,于今年5月发布在《Communications of the ACM》。
论文链接:
https://cacm.acm.org/magazines/2022/5/260341-artificial-intelligence-for-synthetic-biology/fulltext
Nature评论|AlphaFold如何在结构生物学中实现AI的全部潜力?
2022年8月2日,Nature发表了一篇简短的评论文章,从AlphaFold的技术成就出发,讨论了如何实现AI的全部潜力。文章提到了两个重要观点:为了充分利用人工智能, 数据和软件必须自由共享 , 计算、理论和实验研究人员必须紧密合作 。
论文链接:
https://www.nature.com/articles/d41586-022-02088-x
—The End—