利用人类神经网络进行蛋白质设计

利用人类神经网络进行蛋白质设计

长期以来,创造满足各种功能需求的蛋白质一直是生物化学家的目标。这需要彻底了解多肽链序列与所得蛋白质结构之间的关系。近年来,蛋白质设计领域终于达到了一个阶段,可以利用物理和化学原理来指导新型蛋白质结构的设计。

设计蛋白质结构的目的是产生可以折叠成目标形状的氨基酸序列。为了计算序列,大多数当前方法对系统中的每个原子进行显式建模,以找到满足每个残基可以在其环境中进行的所有相互作用的配置。尽管尚不能使用这些方法来设计具有任意功能的蛋白质,但创建与结构数据库中观察到的结构明显不同的结构的能力已经达到了新的高度。

随着计算机处理能力,设计算法的最新进展以及DNA合成成本的降低,蛋白质设计变得更加强大。这些突破提供了运行大规模仿真,测试设计假设以及实验迭代和确认设计的工具。但是,“设计”一词意味着认知活动参与确定结果。可以说,这是该方法中最关键,最难处理的元素。尽管可以合理地为蛋白质生成任何新的氨基酸序列都可以视为一种设计,但近年来,“从头设计”蛋白质的含义在很大程度上指的是对结构和序列都进行了建模和从头开始创建。当开始时骨架和序列都未知时,蛋白质设计人员必须创造性地选择拓扑结构,并构建适当的结构元素以形成骨架。例如,通过可靠的化学知识或参数方程从真实蛋白质中借用真实片段以启动构建或广泛理想化肽链,已采用了许多将局部骨架几何形状限制为天然样的策略。尽管计算机算法在很大程度上自动执行了蛋白质设计的特定步骤,但蛋白质设计人员仍然可以控制该过程,并可以确保生成的结构是连贯的。

但是,人类设计师会做出什么决定,而当今的自动化算法却没有呢?

这个问题促使Foldit的发展,一款将图形用户界面应用于蛋白质建模套件Rosetta的视频游戏。除了充当出色的教育工具外,Foldit旨在探索人类用于解决蛋白质结构难题的策略,希望可以对这些操作进行分析以改善或自动化设计算法。Foldit从难题开始,这些难题挑战着玩家来预测天然氨基酸序列的折叠(图1 A)。最近,它已经扩展到允许玩家修改以前设计的蛋白质或从头开始设计新蛋白质的过程(图1 B,C)。

利用人类神经网络进行蛋白质设计

图1. Foldit示例和设计步骤。

蛋白质设计涉及三个主要组成部分:评分标准以指导运动、策略改变结构以及序列调整以改进模型(图1 D,E)。在Foldit中,后两者由人类玩家控制。相比于受过训练的蛋白质设计者而言,参与者的行为与经过训练的蛋白质设计者的行为之间几乎没有什么区别,因为他们的目标是相同的:遵循力场提供的分数,因为不可能从心理上遵循整个成千上万个原子的系统。在《自然》杂志上发表的一项研究中, Koepnick等人让Foldit玩家从线性链开始设计折叠的肽。玩家非常善于探索构象空间,就像在游戏的早期迭代中所看到的那样,在那里玩家的结构真正新颖而富有表现力。修正玩家确定的得分缺陷,最终将使得分指标更加可靠。实际上,在随后的回合中,Foldit被配置为强制执行打包和主干正则化规则。

由于采用了构建规则,Foldit生产的模型与受过训练的专家长期能够生产的设计不再产生令人震惊的差异。但是,对于非科学家而言,仅通过最大程度地提高游戏得分来实现这些新颖的设计,Foldit实验表明,计分方案(即Rosetta力场)必须非常稳健。通过指定所需的二级结构内容或其他更通用的规则,Foldit背后的科学家似乎也能够引导玩家在特定的褶皱中创建各种各样的结构。模型的质量似乎仅与科学家设定的规则一样好。令人惊讶的是,如何利用知识衍生的规则和人类创造力之间的相互作用来促进科学发展。

如今,自动化的计算机算法无法像Foldit那样执行设计任务。如果要在没有人工指导的情况下进行抽样,以得出可行的结构,计算将花费很长时间。如何利用科学家令人印象深刻的结果来改进设计算法?通过Foldit游戏将“人类神经网络”有效地采样蛋白质折叠空间并暴露模拟中的缺陷;由于该领域已开始关注这些新方法,因此高度精且鲁棒的评分方案也可能有助于改进人工神经网络以完成任务。Foldit将继续推动该领域朝着用创造性的人类解决方案解决复杂建模问题的方向发展,并为新算法的发展开辟道路。

参考资料

Huang P S, Thompson K A. Harnessing Human Neural Networks for Protein Design[J]. Nature, 2019, 570(390): 394.

作者 / 编辑:王建民

利用人类神经网络进行蛋白质设计

DrugAI

长按识别二维码注我们获取最新消息!

利用人类神经网络进行蛋白质设计

本文为DrugAI原创编译整理,如需转载,请在公众号后台留言。