引言
过去,蛋白质工程领域的重点是改造现有蛋白质,以增强其功能,从而实现各种应用。然而, 蛋白质设计正在发生革命性的转变,即利用工程学原理从头开始构建蛋白质,而不是依赖天然模板 。这种方法具有多种优势,包括有可能创造出自然界所没有的全新功能,并从一开始就赋予蛋白质可调性、可控性和模块性。人工智能,尤其是深度学习,能够在设计过程中同时考虑结构、序列和功能,在推进全新设计方面发挥着关键作用。虽然这些进步带来了巨大的希望,但准确性、精确性、对蛋白质动态的考虑以及设计问题的规模等挑战依然存在。本综述将深入探讨 蛋白质从头设计的概念、方法、挑战和机遇 ,重点关注过去五年的最新进展,涵盖从结构设计到与细胞功能连接的各个方面。

图 1 人工智能时代的全新蛋白质设计
概念和方法
全新蛋白质设计包括一系列计算策略,旨在从头开始创造具有所需结构和功能的蛋白质,而不是依赖现有的蛋白质模板 。计算蛋白质设计的传统方法依赖于基于物理学的模型和原子表征,这些模型和表征以结构生物学原理和源自天然蛋白质结构的规则为基础。
计算蛋白质设计 的核心是一个优化问题,其目标是预测一个能稳定采用所需结构和功能的最佳序列。由于蛋白质序列和结构空间广阔,折叠蛋白和功能蛋白稀少,且分布不均,因此这一优化问题尤其具有挑战性。为应对这一挑战,需要高效的搜索算法来浏览巨大的可能性空间。此外,利用计算得分区分成功和不成功序列的快速方法也至关重要,这些方法通常通过经验或基于物理的评分函数或能量函数来实现。
为了使蛋白质设计更加简便易行,设计方法通常将设计过程分为两个步骤: 生成蛋白质结构骨架 和 优化骨架序列 。这可能涉及固定骨架设计(即预先确定骨架结构)或灵活骨架设计(即在设计过程中考虑骨架的灵活性)。
在蛋白质设计方面, 分子机器 可以通过工程或全新设计来执行特定任务或功能。例如,研究人员已经设计出了能够控制运动的合成分子机器,如能根据外部刺激改变构象的分子开关。其他例子还包括模仿天然分子马达或酶功能的基于蛋白质的纳米机器,它们在药物输送、生物传感和纳米技术方面具有潜在的应用前景。
人工智能领域的最新进展推动了用于蛋白质序列设计的机器学习模型的发展 。这些模型,包括在蛋白质序列上训练的大型语言模型,已成功生成了具有实验验证特性的新蛋白质序列。此外,结合序列和三维结构信息的人工智能模型已被用于预测固定蛋白质骨架中氨基酸的相同性,从而设计出新型蛋白质结构。
基于人工智能的蛋白质结构生成方法,如从图像生成中借鉴的扩散模型,进一步拓展了全新蛋白质设计的可能性 。这些模型不需要预先确定的蛋白质结构,可以从零开始生成新的蛋白质结构,为探索蛋白质序列和结构空间提供了新的途径。
在设计新蛋白质结构的前沿领域, 从头开始蛋白质设计 的最新进展已经超越了传统的蛋白质折叠,探索了创建复杂分子机器的新结构和原理。虽然天然存在的蛋白质仅限于有限数量的折叠拓扑结构,但计算方法已证明有能力生成在自然界中找不到的稳定的新拓扑结构,为系统探索蛋白质折叠空间铺平了道路。基于人工智能的方法(如 GENESIS)为绘制这一空间图和制定可设计性原则提供了前景广阔的途径。
通过从头开始构建蛋白质,研究人员可以剖析在自然进化系统中可能难以厘清的复杂功能机制,如构象转换或异位控制。此外, 全新设计的蛋白质还为研究细胞和生物体功能的定量决定因素提供了一个平台,从而能够精确控制影响高阶生物过程的分子特性 。

图 2 蛋白质设计概念和方法
全新蛋白质结构设计的前沿
在 控制蛋白质几何结构 方面取得的进展可以对功能位点的几何结构和动力学进行精细控制,优化对生物活性至关重要的原子级相互作用。通过环-螺旋-环组合取样(LUCS)等方法,可以生成具有可调几何结构的合成折叠族,提供精确控制二级结构元素的各种变体。
此外, 设计复杂蛋白质形状的能力 为设计具有转子和轴等特定功能的分子机器和马达提供了机会。最近的工作已经证明,可以为原型纳米机械设计基于合成蛋白质的组件,但通过能量转换驱动运动仍是一项挑战。
总之, 蛋白质设计领域的这些进步为开发新型结构和分子机器奠定了基础 。
推进分子功能的全新设计

图 3:分子功能的全新设计
在追求 分子功能的全新设计 方面,最近取得了长足进步,特别是在利用深度学习方法的计算方法方面。设计过程通常包括定义功能要求,并据此优化蛋白质结构和序列。最初,人们通常从天然蛋白质中借鉴功能位点几何图形或图案,并将其精确定义,然后移植到不同的蛋白质骨架中。然而,由于在现有骨架中容纳图案的限制和稳定性问题,出现了一些局限性。最近的方法通过使用从头设计的蛋白质库作为骨架来解决这些难题,从而可以更精细地控制几何结构并提高稳定性。然而,在骨架库中寻找合适匹配的问题依然存在,这促使人们开发人工智能驱动的解决方案,根据给定的功能位点定义优化甚至生成蛋白质骨架。这些方法(如蛋白质幻觉和扩散)已在功能测试中显示出良好的成功率,但仍需通过高分辨率实验结构进行进一步验证。此外,基于人工智能的方法也被用于 定义功能要求 ,MaSIF 方法就是一个例子,该方法可识别蛋白质靶标上的相互作用界面,从而生成新的蛋白质结合体。
此外,在设计蛋白质-蛋白质和蛋白质-小分子相互作用的蛋白质结合剂方面也取得了显著进展, 人工智能驱动的方法无需大量实验优化就能获得更高的成功率 。挑战依然存在,特别是在为柔性或极性表面设计结合剂方面,但考虑到柔性和偏向极性接触设计的方法正在取得进展。另一个前沿领域是 设计构象变化和开关的多目标优化 ,基于人工智能的方法开始能够设计出能够在不同结构状态之间相互转换的蛋白质,为全新蛋白质设计中更先进的功能铺平了道路。
在蛋白质设计领域迎接挑战、抓住机遇
随着人工智能方法的出现,蛋白质设计领域正在迅速发展,既开辟了新的前沿领域,也面临着持续不断的挑战 。虽然目前的成功主要针对理想化折叠和蛋白质-蛋白质界面等较简单的设计目标,但最近的突破表明,在实现极性功能位点和动态蛋白质的精确几何形状等较复杂目标以及分子机器设计方面,有望取得进展。在大量蛋白质结构和序列数据集的推动下,深度学习在推动这些进步方面发挥了重要作用,但提取所需特性的精确要求仍是一项挑战。与高通量功能测量方法相结合是解决这一差距的途径。此外,随着蛋白质功能变得越来越复杂,整合各种特性和塑造能量景观也提出了重大挑战,需要采用 多目标优化方法 。从成功的设计中提取原则已成为当务之急,以便系统地改变所需的特性,促进可解释的优化过程。此外,利用全新元件设计高级细胞功能的潜力有望彻底改变细胞疗法等领域,为重新编程细胞行为和通过模块化蛋白质系统设计新兴特性提供了机会。随着蛋白质设计的不断进步,它不仅揭示了序列-结构-功能-动力学关系的基本原理,还为复杂生物环境中的实际应用铺平了道路,最终推动生物技术和医学的创新。
参考资料:Kortemme T. De novo protein design—From new structures to programmable functions[J]. Cell, 2024, 187(3): 526-544.
版权信息
本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。
本文为原创内容,未经授权禁止转载,授权后转载亦需注明出处。有问题可发邮件至sixiali@stonewise.cn