生物盘算专家超过细解读AlphaFold2 论文:模子架构及使用

2022-11-16 16:35:04 作者:独酌
导读:生物计算专家超细致解读AlphaFold2 论文:模型架构及应用,本文来源于生物计算领域的学者Mohammed AlQuraishi的博客。在这篇文章中,Mohammed AlQuraishi主要讲了「是什么使AlphaFold2(AF2)如...

本文泉源于生物盘算范畴的学者Mohammed AlQuraishi的博客。在这篇文章中,Mohammed AlQuraishi重要讲了「是什么使AlphaFold2(AF2)云云令人惊奇」、「AlphaFold2意味着什么」、「可以用AlphaFold2做些什么」。

旁白:固然作者有点啰嗦,但文章规律照旧很清楚的,估计读完必要10-15分钟,请耐烦读下去。

引子

就在一个多星期前(指2021年7 月 15 日),期望已久的AlphaFold2要领的配套论文和相干代码最终颁布于世。该结果的公布,使我不得不面临很多人提出的种种「关于公然表露AlphaFold2的题目」。

相干链接:http://www.nature.com/articles/s41586-021-03819-2

http://github.com/deepmind/alphafold

现在,代码已经以种种方法推广开来。「AlphaFold2被应用于人类卵白质和其他20个模子生物体」,几天前(指2021年7月22日),该研究相干结果的配套论文和数据库被公布。总之,我对DeepMind公司做的件事表现非常欣赏。

相干链接:http://www.nature.com/articles/s41586-021-03828-1

http://www.yaotansuo.com/allimgs/39tansuo/20221116/8978.png data-track="10">在已往的几个月里,我检察了相干论文,并有时机认真思量AlphaFold2模子架构。(插句题外话:有些人以为DeepMind公然AlphaFold2源代码是对RoseTTAFold的回应——但现实上公然代码是DeepMind的打算,远在《RoseTTAFold》被预印之前。)

文章作者Mohammed AlQuraishi

旁白:请细致!正文开始之前,Mohammed AlQuraishi有话要叮嘱。

本篇文章不是AlphaFold2的高层总结——我发起你在阅读这篇文章之前阅读论文,包罗增补信息(SI)。在本文中,我将假设你熟习该模子。我在这里的重点是布局猜测的技能方面,重要着眼于AlphaFold2怎样应用于其他更确切的现实题目。

对付「家人们可以用AlphaFold2来做些什么」的题目, DeepMind 给出的明白答案是「……?是的」。自我监视?是的。自蒸馏?是的。新的丧失函数?是的。3D细化?是的。精粹后接纳?是的。接纳后精制?是的。模板?是的。完备的 MSA?是的。捆绑重量?是的。非绑定权重?是的。存眷节点?是的。细致边?是的。细致坐标?是的。对付全部题目,答案都是肯定的!

我有些草率的形貌大概会给人一种印象,好像AlphaFold2只是好想法的大杂烩——实在究竟并非云云。AlphaFold2除了我们可以想到的功效,还具有非常同一集乐成能。这就犹如团队中的差别想法,通过一个重复推敲的历程,终极实现头脑的同一输出(他们的信息接纳要领,也应用于 AlphaFold2 设计历程自己)。这一结果既是技能创新的佳构,又是精致设计的进修呆板。

论文中的「一句话」格外能阐明题目,这句话中的每个短语根本都与整篇论文相对应。Facebook Research 的一个团队之前报道过这一句话。

相干链接:http://www.yaotansuo.com/allimgs/39tansuo/20221116/8979.png class="pgc-img-caption">

「...我们展示了一种团结嵌入多序列比对(MSA)和成对特性的新体系布局,一种新的输出表现和相干丧失,可以或许实现准确的端到端布局猜测;一种新的等变细致体系布局,利用中心丧失实现猜测的迭代细化,遮掩MSA丧失,与布局团结练习;利用自蒸馏对未标志的卵白质序列举行进修,并自我估量正确度。」

只想说,看完这篇论文后,我对AlphaFold2的印象比曩昔更深刻。这是一件艺术作品,此中有很多观点创新,这些观点与「盘算本领」或「工程」无关;这是一幅比最初细节公布时我所预期的更为庞大的画卷。在CASP14之后不久,我与一位朋侪举行过一次商议,商议的主题是「学术界在多大水平上落伍于DeepMind」。其时我说大概必要十年的学术研究才气完成DeepMind的目的,而朋侪以为这也许落伍两年。在他这么说之后,我回过头来想,或许是我太苛刻了。

如今我已经读了这篇论文,我以为学术界大概至少必要高兴5-6年才气到达预期的程度(在这一点上,要丈量的精确增量不是 RoseTTAFold 与 trRosetta,而是 CASP14 的 trRosetta 与 CASP13 的 Rosetta;即便云云,差距在很大水平上是因为第一个 AlphaFold太甚优异。)

在这里,我要做的是通过一系列的观看,然后从小我私家角度总结AlphaFold2最有味和令人惊奇的方面。它们(在某种水平上)是根据我所以为的紧张性次序列出的。

作者的免责声明:这是一个庞大的体系,有很多活动部件,而我的批评依据仅仅是《天然》论文中所提供的内容。是以,下面所说的统统都基于我对 AlphaFold2 及其事情道理的了解,这大概并不完全精确。

正文开始了……

名目

  • 条条门路通 {s i}
  • 信息流是要害
  • 作物是你必要的统统
  • 永久要精粹
  • SE(3)-等变推理的缘故原由
  • SE(3)-等变推理的要领
  • MSA Transformer
  • DeepMind 的魔力不在于蛮力

条条门路通{Si}

整篇论文中最紧张的一行,IMO,也便是SI中「算法20」的第10行;鄙人图中,它与的稳定点细致(IPA)的溶解联合时,它充任告终构模块的焦点组件。假如对我来说有一个卖点,那便是这条线;由于我以为这是 AlphaFold2 的「魔力」症结地点。我如许说不是由于这条线自己,而是由于它所暗指的部门。

图示:两个目的集的溶解效果:CASP14 域集(N=87 个卵白质域)和 PDB 链的测试集,模板笼罩率 ≤ 30%,统一性为 30%(N=2,261 个卵白质链)。(泉源:论文)

在 3D 空间中折叠的「长 1D 聚合物」,是构建用于卵白质推理的 ML 体系的挑衅之一。这里的要害是「1D」、「3D」和「长」。一方面,鉴于卵白质的序列性子,利用基于序列的架构对它们举行编码是很天然的。在我开辟 RGN 模子时,利用了其时领先的序列题目架构 (LSTM)。然而,这种布局难以推理长程相互作用,这也是卵白质中的常见征象。只管云云,一维表现仍旧很便利,由于它们很简单映射到物理工具,许可参数化(比方,内部坐标)以直接自洽的方法猜测卵白质布局。

大多数范畴,直到第一个 AlphaFold,都采纳了一种差别的要领;该要领依靠于 2D 矩阵利用残基间间隔对布局举行编码。这更好地捕捉了长途交互(相对付次序模子),但引入了「将 2D 表现映射到根本上是 3D 空间中的 1D 曲线的工具」的难堪。通常,这种映射是在后处置惩罚步调中利用基于物理的松懈或 SGD(第一个 AlphaFold)完成的,但仍有许多必要革新之处。

当 DeepMind 在 CASP14 上初次展示 AlphaFold2 时,他们形貌了一种看似混淆的 2D/3D 要领;此中布局最初以 2D 表现举行编码,然后转换为 3D 表现。关于这是怎样完成的,有许多推测(稍后会细致先容)。但请记着,关于「1D-2D 不立室」的难堪,是一个玄妙的点。 这里的题目不是关于怎样将 2D 间隔矩阵映射到 3D 坐标集(存在很多要领);相反,它是关于工具之间的布局不立室;(在数据/张量范例方面,而不是卵白质布局方面) 根本上是一维(卵白质自己)以及其在二维矩阵中的漫衍式表现。人们可以在均匀行和列方面提出种种本领,以将 2D 表现转换为 1D 表现,但它们的本领总是让我感触震惊。

出乎料想的是,我发觉AF2架构非常优雅的是MSA表现的中间作用,格外是该表现的第一行;它最初对原始输入序列举行编码,但终极投影到它们所表现的工具上{s i}在「AF2交响乐」中饰演偏重要脚色。从某种根本意义上说,AF2中卵白质的中间编码完满是一维的——正是这个一维工具{s i},终极捕捉了猜测三维布局所需的内容。这便是算法20的第10行。从这个大略的{s i}开始,整个布局被投影到3D空间上,没有任何明白的3D推理。诚然,在完备的AF2模子中,IPA模块的确在3D中运行,并从2D表现的单向(传入)通讯中获益;但值得细致的是,当该模块被烧蚀时,AF2的性能与完备版真相比险些连结稳定(只要今后在这方面启用更多轮回)。

这是这篇论文最让我愉快的方面,也是最“奇妙”的部门。他们构建它的方法非常聪慧。的确,利用一维表现举行进修是很困难的,尤其是对付长途交互。以是 AF2 所做的便是利用一个一维工具来表现卵白质,但是将它耦合到一个二维工具(成对的 {z ij})来降服一维表现的缺点。我猜疑 {z ij} 隐含地充任 {s i} 的内存,关心它存储可以在练习和猜测时期参考和迭代的信息(我的意思不是{s i} ,由于这是最终一个投影表现,但我在这里重载标记 - 我现实上是指 {m 1i},evoformer 中 MSA 表现的第一行。)更遍及地说,{z ij} 大概通过为模子提供更富厚的表现来促进进修历程。在历程的每一步,{s i} 都连结更新,与 {z ij} 来回通讯,以便 {z ij} 中创建的任何内容都可以访问 {s i}。是以,{s i} 在全部重要模块中处于最前沿和中间位置。最终,在布局模块中,终极是 {s i},而不是 {z ij} 对布局举行编码(提取四元数以天生布局)。这幸免了一定将 2D 表现投影到 3D 空间的难堪。

最初阅读手稿并进入算法 20 时,我对「终极将怎样提取布局」的预期感触非常愉快。当发觉真正紧张的是 {s i} 而不是 {z ij} 时,我感触一种眩晕感。

在某种水平上,DeepMind团队所做的事情(假如许可我在这里举行一点推测的话)是开辟一种要领;此中「用于进修和推理的表现」与「用于连结体系状态和猜测布局的表现」分散,从而孕育发生两个方面的最佳效果。在大多数ML体系布局中,利用一个表现来完成这两个使命;而在AF2中,它被拆分。当DeepMind第一次公布他们的混淆配对/MSA表现时,我并没有真正了解此中的「要点」;但如今我已经细致相识了论文内容,我以为上述是他们的重要动机之一。

旁注:当他们归并布局模板时,他们将「旋转角」作为行添加到 {s i}(现实上也是 {m 1i}),是以布局信息在早期就明白嵌入到 {s i} 中。固然,不克不及包管在推理时期模板可用,但它们在练习时期间或可用;这意味着 evoformer 一定从一开始就进修怎样利用 {s i} 中的此类多少信息举行推理。

信息流是要害

假如论文有一个同一的主题,一个遍及的原则,即AlphaFold2的设计是为了最大限度地进步其组件之间的信息流。别的,它在某种水平上反应了我们对卵白质的了解。我将用几个详细的例子来阐明这一点。

起首是对表现 {z ij} 和 MSA 表现 {m si} 之间的通讯。在每次迭代中,两者相互更新,确连结续同步。然而,更新是不合错误称的。MSA→pair 偏向比力沉重,利用「OuterProductMean」的每一个组件。这或许再次反应了 {s i} 终极饰演的焦点脚色。然而,MSA 表现并非不受配对表现的影响。后者也更新了前者;但通过轻触,方向了 MSA 表现的差别列怎样相互存眷。究竟上,它是一种轻触,而不是我预期的重型交织细致机制。然而, {z ij} 影响 {m si} 的逐列细致力这一究竟具有完善的生物学意义;由于配对表现应该编码残基位置之间的耦合强度。这也幸免了我之条件到的「hack」,一定均匀行或均匀列来提取一维信息——它永久不会完成,由于 {z ij} 的各个元素直接偏置 {m si}(算法 7 的第 3 行和第 5 行)。

另一个例子是对表现内的通讯。它使用了在残基对之间实行的两种情势的新型「三角」细致力——这是一种非常昂贵的盘算操纵。这里也通过利用仅方向细致力的轻触要领来实现服从;更紧张的是通过将细致力限定在具有一个配合残基的成对上,直觉是三角不等式应该限定这些数目(由于三个余数形成一个三角形)。这个很有味,由于它阐明了一个紧张的原则:「多少束缚不必要从字面上实现」。由于很多人,包罗我的团队,一向试图如许做。比方,通过数学逼迫三角不等式,而是信息上,即在细致力机制的信息流模式中。现实上,AF2 所做的是将多少直觉转化为许可这些间隔对(大概编码它们的表现)轻松交换的架构特性。对我来说,这是 ML 架构工程的普通原则。它阐明了怎样将先验信息整合到可进修模子中:不是通过硬束缚乃至软束缚,而是作为进修历程自己的一个方面。(相对付概率编程或贝叶斯建模,我以为深度进修大抵云云。知识很少直接注入 DL;而是通过设计注入架构中,使其更易于进修。在这方面从某种意义上说,硬 SE(3) 等方差现实上是一个破例,但稍后会细致先容。)

最终一个例子是在 IPA 布局模块中。当启用它时,可以从算法 22 的第 7 行中的对表现中得到轻触,此中 {z ij} 方向于 3D 空间中残基之间的细致力,以及重 touch 在第 8 行和第 11 行,此中 {z ij} 可直接用于 3D 推理引擎。轻触再次具有完善意义,由于配对表现应该编码哪些残基在空间上靠近,这是空间推理时的珍贵信息。

「作物」是你必要的统统

AF2(以及它之前的第一个 AF,固然以一种看似惊奇的方法举行练习:不是在整个卵白质上,而是在卵白质片断上,大概 AF2 团队所说的「多肽作物」。他们不短, 通常有几百个残基。但对付更长的卵白质,这些作物只捕捉整个序列的一小部门。别的,通常制作两种不一连的作物(雷同的卵白质),然后缝合在一路。值得细致的是,固然 AF2 重要针对多达 256 个残基的多肽举行练习(厥后对 384 个残基举行了微调),但它可以猜测凌驾 2000 个残基的卵白质布局,这是一项惊人的壮举。不但由于它肯定是一个非常困难的题目,并且由于 AF2 是针对更短的多肽举行练习的。

全局配景对卵白质很紧张。在两种差别的卵白质中,雷同的氨基酸序列通常具有差别的布局;不然卵白质布局猜测早就办理了!(固然,随着序列长度的增添,这种情形渐渐变得不那么真实。)将稀有百个残基离开的无实体「作物」,并要求模子猜测它们的相对偏向,且它们的分散长度是未知的(假如它们相距凌驾 32 个残基),这彷佛是一项不行能完成的使命。但这里至少有两个改进身分在起作用。起首,AF2 正在利用 MSA/协同进化模式,这些模式对这些信息举行编码,而不思量线性链分散。其次,这仅在练习时完成,而不是在推理时完成。在推理时期,AF2 的确可以访问整个序列,是以上下文敏感性题目没有现实意义。在练习时期,AF2 大概会从一种卵白质中的一对作物中得到一个信号;而从差别卵白质中的一对相似作物中得到一个相互抵牾的信号,这完全没题目。这种情形大概会报告模子,当它以某种未知的隔断看到这两种作物时,存在固有的不确定性。追念一下,在练习时期,不必要模子可以或许正确猜测布局。紧张的是通过梯度更新将有效的信息通报给模子。

这是解耦的另一个实例,通常是耦合的(前一个是进修和连结状态的符合表现)。在大多数ML模子中,练习和推理使命连结非常相似,其头脑是练习使命与推理使命越相似越好。但这并不是真的须要,由于练习是为了从数据中猎取有效的信号,而推理是为了做出正确的猜测。这个想法肯定不是AF2独占的;天生模子在天生和练习历程中通常涉及完全差别的使命,固然,练习历程中利用的可微丧失函数通常与真实目的函数差别。只管云云,AF2在有监视的进修情况中展示了这一头脑的相称壮大的应用;险些支持有意解耦使命,然而通凡人们偏向于将这种解耦视为建模的失败。

我不知道上述是否是AF2团队的意图,由于利用现在的TPU险些不行能在全长卵白质上练习像AF2如许大的工具,以是影象服从大概在他们的头脑中起到很大的作用。只管云云,从生物物理学的角度来说,最初大概是一种盘算本领,但终极却成为了一个好主意。

趁便说一下,这办理了 CASP14 时期关于 AF2 的一大谜团——推理和练习时间之间的差距。因为三次缩放,以及推理是对全长卵白质举行的,而练习是对作物举行的,是以两者之间(大概)存在非常大的盘算时间差距。

永久要精粹

AF2 的另一个明显特点是其始终开启的优化模式。即,它总是可以或许在距原生状态必然间隔处猎取开端布局,并将其革新为更靠近该原生状态。在多个模块和多个粒度级别中都是云云,这使得体系在使用差别范例的数据时非常壮大和通用

它在布局模块中最为显着和天然,此中迭代 IPA 历程的权重被绑定,是以重复应用雷同的操纵。这是有原理的,由于 IPA 的预期功效是革新来自 evoformer 的布局。但是,evoformer 自己也始终处于细化模式。这并没有在架构自己中明白编码(evoformer 的 48 层的权重是解开的),但在它的练习方法中很显着,鼓舞它以这种方法行事。比方,原始输入可以包罗同源布局的模板,此中一些大概与所追求的布局相似,从而为 evoformer 的第一层提供一个布局(编码成对表现);该布局根本上是完备的,而且不该该被搞砸了。这是要害并归纳综合了这一点的难点,由于 AF2 也大概得到一个没有布局同源物的序列,从而为 evoformer 的第一层提供险些没有布局数据——在这两种情形下,evoformer 一定学会精确举动。MSA 的重复子采样增强了这一点,由于每个样本提供差别水平的序列笼罩。

同样的征象也产生在接纳使用上。起首,接纳自己是一种细化情势,由于整个网络具有绑定的权重,最多可以再重新应用 3 次。但是接纳的举动也使 evoformer 成为一个「精粹者」,由于在稍后的接纳迭代中雷同的 evoformer 可以出现出比第一次(预接纳)迭代中的 evoformer 更远的布局。

另一个鼓舞革新的机制是在布局模块和接纳中利用中心丧失。即,在练习时期,模子被优化以最小化终极猜测布局的丧失以及猜测通过体系的某些部门的中心布局的丧失。这鼓舞 AF2 不但精确猜测布局,并且在体系的早期迭代中快速猜测。在布局模块中,这黑白常明白地完成的;它的丧失函数现实上是全部迭代的均匀值。在接纳中,它有点玄妙。仅用一次迭代的丧失用于反向流传,但是由于迭代次数是随机采样的,以是成效是一样的;鼓舞模子在早期的接纳迭代中得到精确的布局。

AF2 在差别阶段对差别使命的鲁棒性在随论文提供的动画中显而易见。LmrP (T1024) 的视频表现了在 evoformer 的第一层之后根本完备的布局,而 Orf8 (T1064) 的视频一向连续到最终,险些雷同于分子动力学折叠模仿(它不是一个,很显着。)趁便说一句,这些动画也表示了 AF2 在差别 MSA 深度序列方面的举动。对付深度 MSA,它的作用大概雷同于严峻依靠协同进化信号的 pre-AF2 要领,或多或少完全基于该信号推测布局,仅利用单个 evoformer 层。对付具有非常浅的 MSA 的序列,它属于 evoformer 和布局模块的后期阶段才气真正折叠卵白质,我猜疑该模子正在进修和应用有关卵白质布局的普通物理知识。下图的「无 IPA 和无接纳」面板表现当接纳和 IPA 封闭时,浅层 MSA 的 AF2 性能明显降落,支持这一假设。别的,只管 Sergey Ovchinnikov 有一个惹人注目标替换理论,但 AF2 在猜测来自未配对 MSA 的卵白质复合物方面的显着乐成大概是因为这种普通的物理学知识。

图示:外部产物的均匀值。尺寸:s:序列,r:残基,c:通道。(泉源:论文)

总的来说,我发觉不停革新的想法壮大且遍及有效,尤其是当它可以应用时,而不必在整个模子中回溯。我不确定这是否是新鲜的迭代监视进修语境中(它大概在天生盘算机视觉方面有相似之处)。它非常雷同于 RL,这明显是 DeepMind 的刚强。

SE(3)-等变推理的缘故原由

大概我读这篇论文最大的惊喜是「溶解研究,尤其是 IPA 的溶解」,AF2 放肆宣传的 SE(3) 等变变压器。固然我没有像其他人在公布前那样以为这个模块有那么多的代价,但删除它彷佛做的很少的究竟仍旧令人震惊。假如奉献云云之少,全部这些事情和呆板的意义安在?

这里实在有两个惊喜。起首是没有 IPA,AF2 只是简洁地吐出 3D 坐标,没有任何明白的 SE(3)-invariant 转换对表现中的「间隔」到 3D 空间。究竟上,正如我之条件到的,AF2 的无 IPA 版本完全依靠于 1D {si} 举行布局天生。这意味着它选择了一个特定的全局参考框架,在此中天生布局,我以为对付包罗我本身在内的很多人来说,这彷佛太粗糙而无法事情。但明显它做得很好。

第二个惊喜是,3D 中的推理,即在布局的初始版本在全局参考系中详细化之后的推理,彷佛并不黑白常紧张,除非接纳并删除。这与我们的直觉南辕北辙,即某些空间模式,尤其是漫衍在卵白质的多个不一连元素上的空间模式,在 3D 空间中更显着,是以应该受益于 3D 推理。从现实的角度来看,它彷佛也清除了进入等变网络的全部要领论研究,至少就它应用于卵白质而言(下一节将细致先容)。

这固然是一种解说,但我不以为它是完全正确的。要害在于,只要保存接纳,去除 IPA 就可以了。当两者都被溶解时,性能明显降落。别的,假如去除接纳但保存 IPA,则 AF2 的性能险些不会受到滋扰。这对付 IPA 来说是一个相称令人印象深刻的展示,由于接纳根本上是 48 层 evoformer 的四倍(因为种种本领,盘算本钱方面并非云云),而 IPA 只有 8 个权重绑定层。从这个角度来看,IPA 层比 evoformer 层更有用,至少对后期细化方面而言。随着如今重点从单链猜测转移到复合物和高阶组装,空间推理的紧张性只会增添,我估计 IPA 及其将来的衍生物将陆续发挥紧张作用。

SE(3)-等变推理的要领

撇开 SE(3)-等方差的服从不谈,它在 AF2 中怎样实行的题目大概是论文颁发之前最受期望的题目。退一步思索这个子范畴在已往几年中的进展偏向会有所关心。近来在等变神经网络(equivariant neural networks)中的一系列运动可以说是从 Thomas 等人的一篇论文开始的,只管有一些先行事情。该论文依靠于群论机制,采纳(卷积)滤波器,将球谐函数用作其基组。该公式在数学上很简洁,而且已经在很多论文中举行了论述,格外是 Fuchs 等人的 SE(3)-equivariant Transformer,它不但归纳综合了从卷积到自细致力的要领,并且还共享了一个雷同的 DeepMind 团队在 CASP14 时期利用的名称来形貌他们如今所说的 IPA。这天然会让人们推测 AF2 利用了与这种要领非常相似的工具,包罗我之前关于 AF2 的帖子。追念起来,这没什么利益,格外是由于这些要领约莫是在统一时间开辟的,以是没有来由信赖它们会相互影响。

相干链接:http://arxiv.org/abs/1802.08219

http://arxiv.org/abs/2006.10503

http://moalquraishi.wordpress.com/2020/12/08/alphafold2-casp14-it-feels-like-ones-child-has-left-home/

在进展群论要领的同时,也显现了一系列图论要领来办理分子等变推理的题目。基于图的要领不依靠于球谐函数,而是将分子嵌入为图,空间信息编码在毗连节点的边沿中,这些节点依次对原子举行编码。这一系列研究已应用于小分子和卵白质,但可以说,后者最有效。与全部聚合物一样,卵白质素质上许可在每个原子上构建明白的参考系,而且这一究竟已被基于图的要领所使用,孕育发生了庞大的影响。Ingraham 等人的 Structured Transformer 是在呆板进修和卵白质的配景下利用这种布局的第一个(或许是第一个)要领,彷佛这项事情是 IPA 的灵感泉源。对付卵白质,利用基于图的布局比基于组的布局有许多上风,但这是一个较长的商议,不会影响 IPA 的事情道理。可以说 IPA 完全属于基于图形的阵营,对付卵白质而言,IMO 最故意义。

相干链接:http://papers.nips.cc/paper/2019/file/f3a4ff4839c56a5f460c88cce3666a2b-Paper.pdf

IPA 的事情道理非常有味,由于它可以说是整个 AF2 中最新鲜的神经原语,联合了多种空间推理机制,大概会为将来的分子建模提供信息。我将重点先容几个。我要夸大的是,我的大部门想法都是高度谋利的,尤其是在元推理上。

起首是 IPA 细致力机制,它有点像野兽(算法 22 中的第 7 行)。普通来说,IPA 做了许多这种「喷射」,此中残基会天生很多 3D 向量,以操纵细致力并相互发送值。这些向量在每个残基的局部参考系中天生,然后转换为全局参考系,是以它们都是等变的而且可以或许在 3D 空间中存眷整个卵白质。由于多少立室项是负数,它会削弱而不是增添细致力。这使得它相称守旧——导致大多数残基对相互纰漏——由于它要求盘问/键恰恰立室以幸免衰减,这不太大概无意偶尔产生。衰减水平是一个可进修的人均参数 (γh),IPA 有大概学会将其封闭,但多少立室永久不会对细致力孕育发生积极的奉献。综上所述,这些方面大概会导致空间局部性毛病——每个残基更简单为盘问/键喷射通用局部向量,当转换为全局参考系时,将存眷周边的工具,而不是远处的准确定位向量从残基的中间开始,当转换到全局参考框架时,它恰恰落在卵白质的精确部门。

其次是值,格外是 3D 向量情势的多少值,怎样在残基之间举行通报(算法 22 的第 3 行和第 10 行)。每个残基再次喷射多个向量,全部向量都转换为全局参考系,此中对付任何吸收残基,在将全部其他残基的向量转换回吸收残基的局部参考系之前,全部其他残基的向量在整个卵白质的欧几里德空间中举行均匀。我想这可以实现庞大的多少推理本领,这些本领可以反应卵白质生物物理学的普通方面,而且与 MSA 中包罗的遗传/配合进化信息的联络较少。

比方,思量一个「催化三联体」,此中一个残基一定检测其他两个残基相对付自身的定位和取向。它以得当的位置和偏向喷射盘问向量,而且因为它们是在其当地参考系中指定的,是以它们形成了 IPA 可以重复进修和应用的通用空间模式。假如盘问向量指向精确的偏向,我们可以想象要害向量简洁地阐明每个残基的位置和偏向,素质上返回 T j。当转换到全局参考系时,键将立室盘问,幸免衰减。大多数其他细致力对会削弱;过滤噪音。如今相干的残基相互联系关系,每个残基都返回一个再次编码 T j 的值。该信息随后在第 10 行和卑鄙层举行处置惩罚,以推动残基更好地切合 IPA 对活性催化位点的预期。

以上是否是对 IPA 事情道理的正确形貌固然是未知的,除非认真查抄进修的权重和模子的举动,不然大概无法知道。

第三,也是迄今为止最具推测性的,是 IPA 大概会联合其组件来实行元推理。我的意思是推理不是关于卵白质布局,而是关于 AF2 自己,即它关于当前推理使命的知识状态以及它在后续 IPA 迭代中大概怎样革新(我指的是在推理历程中及时进修,而不是通过梯度降落。)想象一下,AF2 盼望一个卵白质片断与另一个相互作用,但不确定它的位置。在第一次迭代时期,它喷射多个隔断很宽的盘问向量,漫衍在它以为大概包罗所查找片断的卵白质地区的大部门地区。险些全部盘问都找不到立室项,但此中一个,假如 AF2 的假设是精确的,则大概。一旦找到并基于得到的信息,AF2 可以在随后的 IPA 迭代中发送更多定向盘问,以更好地定位片断简直切位置和偏向,然后依据其进修的卵白质知识革新布局。

这里的要害是利用 IPA 的迭代来操纵其推理和发觉历程。与传统采样要领(随机思量差别卵白质构象)相比,IPA(和 evoformer)大概会积极推理怎样进步其对当前试图折叠的卵白质的相识。可以肯定的是,不克不及包管这种元推理正在产生,我猜疑纵然 DeepMind 对此举行评估也不是微不敷道的。假如产生元推理,它可以解说 Orf8 和其他具有浅 MSA 的布局的折叠时间长(在到达自然状态的意义上)。假如 AF2 用向量喷射空间来查找和定向卵白质片断,那将是举行一种搜刮情势,可以举行多次迭代才气得出结论。这将解说为什么重复应用雷同的盘算终极可以折叠卵白质,以及在溶解研究中 IPA 和接纳到具有浅 MSA 的卵白质的特别紧张性。

最终一点:在算法 22 的第 10 行,全部这些多少信息都被编码回 {s i} 中,这是一个没有明白多少但都是“潜伏”的工具,这对我来说很了不得。在它被运送到 {s i}和全部被忘记之前,很多等变架构都专注于在整个网络中维护其表现的显式多少方面,但在 IPA 中,显式多少仅被扼要利用,以实行我上面形貌的操纵。它展示了在 {s i} 中编码多少信息的本领和依靠隐式表现的上风,幸免了在整个网络中情势上连结等变的庞大性(普通来说,等变层很难很好地处置惩罚神经网络非线性,格外是群论公式,假如不是数学上的,那么至少从优化的角度来看。)

MSA Transformer

这在要领论上是渺小的,但在性能方面倒是非常紧张的。MSA Transformer作为AlphaFold2 的帮助消耗之一,下图表现了它对付具有浅 MSA 的序列至关紧张,假如没有它,性能会大大低落。

图示:在近来的 PDB 链组上,MSA 深度的差别值相对付基线的溶解精度,通过模板笼罩率在 30% 统一性≤ 30% 时(N = 2261 条卵白质链)举行过滤。(泉源:论文)

对我来说,AlphaFold2 令人印象深刻的是它对浅层 MSA 的鲁棒性。恒久以来,对序列(或本例中的 MSA)举行自我监视进修彷佛是办理题目的一种天然方法,它在这里乐成了。

有味的是,当 MSA 非常浅时(比方,只有一个序列),这种增益就会消逝;但这也是有原理的,由于当时 MSA 转换器是无信息的。

DeepMind 的魔力不在于蛮力

我将以我从论文中得出的最违背直觉的结论作为完结。进入这个范畴,我曾预推测,至少在一些组件中(最明显的是唤起式细致机制),假如不举行「轴向细致」如许的简化,这种机制的范围会非常可骇。DeepMind已经运用了他们庞大的盘算资源,以暴力本领办理了「其他群体一定通过智能才气办理的题目」。

具有讥笑意味的是,究竟彷佛险些完全相反。AlphaFold2 给人留下深刻印象的不是一流的硬件,而是一流的软件和 ML 工程,这使得蛮力扩展变得没有须要。我以为这部门,对付学术界来说将是最难复制的;由于它不是仅仅增添国度对盘算资源的投资就能提拔的(这无疑会有所关心);这将是对内部专业软件工程本领的一个更高要求。这一点在很多方面都很显着:在IPA和接纳使用方面,慎重利用梯度制止,节约了大量的盘算;在裁剪方面,它从基础上转变了体系的诱导毛病;在颠末寻思熟虑选择的初始化方案方面……

固然,DeepMind可以鱼和熊掌兼得。他们在CASP14中利用的8个集成绩证明白这一点;他们将盘算需求增添了一个数目级,固然这彷佛黑白常边际的收益(我猜疑他们是在CASP14之后才发觉这一点的),但总的来说,他们的传统彷佛是盘算节俭。从最好的意义上说,这是我对AlphaFold2团队最大的赞扬,由于他们在很多方面都取得了杰出的成绩。

精彩图集