深度进修准确猜测RNA,需练习18种已知布局:研讨登上Science封面

2022-11-17 09:36:30 作者:の谎言 老天爷都支持
导读:深度学习精确预测RNA,需训练18种已知结构:研究登上Science封面,机器之心报道编辑:杜伟、小舟我们距离精确预测 DNA 结构还远吗?目前,使用人工智能预测化合物分子结构是一个火热的研究课题,DeepMind ...

呆板之心报道

编辑:杜伟、小舟

我们间隔准确猜测 DNA 布局还远吗?

现在,利用人工智能猜测化合物分子布局是一个火热的研究课题,DeepMind 卵白质布局猜测东西 AlphaFold2 证明白这一点。但应看到,实现分子布局正确猜测的背后必要巨大的数据集。斯坦福大学的一项研究冲破了这一限定,他们提出的呆板进修要领仅利用很少的数据即实现了正确的 RNA 布局猜测。

确定生物分子的 3D 形状是当代生物学和医学发觉中最困难的题目之一。很多公司和研究机构耗费数百万美元来确定分子布局,却也每每无果。

来自斯坦福大学的研究团队使用呆板进修的要领办理了这个困难。在盘算机科学系副传授 Ron Dror 的引导下,斯坦福大学博士生 Stephan Eismann 和 Raphael Townshend 奇妙地利用呆板进修技能开辟了一种通过盘算猜测生物分子正确布局的要领。而且纵然仅从少数已知布局中进修,他们的要领也能乐成,使其实用于布局最难通过试验确定的分子范例。

8 月 27 日,该团队与斯坦福大门生归天学系副传授 Rhiju Das 互助的研究论文在《Science》上颁发并登上封面。

论文地点:http://science.sciencemag.org/content/373/6558/1047

在此之前,客岁 12 月该团队的一篇研究论文已经登上了生物医学期刊《Proteins》。

论文地点:http://onlinelibrary.wiley.com/doi/10.1002/prot.26033

在《Proteins》的论文中,研究团队先容说:该研究创建的神经网络架构从包罗数万个原子的分子布局中举行端到真个进修,此中涉及基于点的原子表现、扭转宁静移的等变性、局部卷积和分层子采样操纵。

两篇论文的重要作者 Townshend 说:「布局生物学是对分子形状的研究,布局决定功效。」该团队设计的算法不但可以猜测正确的分子布局,还可以或许解说差别分子的事情道理,该要领将实用于底子生物学研究、药物研发等。详细来讲,团队成员 Eismann 以卵白质举例阐明:「卵白质是实行种种功效的分子呆板。为了实行它们的功效,卵白质通常会与其他卵白质联合。假如已知一对卵白质与疾病有关,而且知道它们在三维条件下怎样相互作用,医学上就可以实验用一种药物非常详细地针对这种相互作用。」

该研究的要领已经在卵白质复合物和 RNA 分子方面取得了乐成。正如研究团队成员 Dror 所说:「呆板进修迩来取得的大多数希望都必要大量数据举行练习。而该研究的要领在练习数据很少的情形下取得乐成的究竟意味着:相干要领可以办理很多数据稀缺的范畴中未办理的题目」,是以该要领大概具有庞大潜力。

利用少量数据实现 RNA 正确布局猜测

RNA 分子的 3D 布局对 RNA 分子发挥自身功效至关紧张,在药物发觉中也很故意义。然而,已知的 RNA 布局很少,而且通过盘算来猜测 RNA 布局极具挑衅性。

而斯坦福大学的这项研究利用呆板进修(ML)的要领,只利用 18 种已知的 RNA 布局举行练习,就可以或许辨认出正确的布局模子,同时无需这些布局模子的界说特性。通过这种呆板进修要领得到的评分函数——原子扭转等变评分器(Atomic Rotationally Equivariant Scorer, ARES)明显优于以往要领。

下图为练习会合的 18 种 RNA 布局图示。

详细地,为了练习 ARES,研究者利用了 1994 年至 2006 年之间已颁发的 18 个 RNA 分子,并使用 Rosetta FARFAR2 采样要领天生了每个 RNA 的 1000 个布局模子,同时没有利用任何已知布局。接着,他们优化了 ARES 神经网络的参数,使其输出尽大概立室每个模子对应布局的均方根偏差(RMSD)。

下图 1 为 ARES 网络,此中 A 表现:仅给出原子坐标和元素范例,ARES 即可猜测布局模子的正确率;B 表现使用 ARES 的 RNA 布局猜测;C 表现包罗 18 种已有小型 RNA 布局的练习集;D 表现包罗新的、更大 RNA 布局的基准集。

下图 2 展示了 ARES 明显优于以往辨认正确布局模子的评分函数。A 表现评分最佳布局模子的 RMSD;B 表现 10 个评分最佳布局模子中最低的 RMSD;C 表现无穷靠近评分最佳布局模子的排名;D 表现 2007 年以来评分最佳布局模子的 RMSD。

ARES 在社区范畴内的 Blind RNA 布局猜测挑衅赛「RNA Puzzles」中实现了 SOTA 效果。如下图 3 所示,A 表现 ARES 与其他要领的 Blind 猜测正确率效果比拟;B 表现 ARES 猜测的晶体布局;C 表现其他要领实现的最佳晶体布局猜测。

别的,ARES 还能进修辨认事先没有明白阐明的 RNA 布局的要害特性。下图 4A 表现 ARES 进修螺旋宽度以实现最优的碱基配对;4B 表现进修辨认要害的 RNA 特性。

就其上风而言,斯坦福大学的要领可以基于少量数据举行有用进修,降服了尺度深度神经网络的重要限定。而且该要领仅利用原子坐标作为输入,不包罗特定的 RNA 信息,是以实用于办理布局生物学、化学、质料科学等范畴的种种题目。

作者简介

配合一作 Raphael Townshend 是分子和药物设计 AI 首创公司 Atomic AI 的 CEO。现在,他在斯坦福 AI 试验室攻读博士,研究兴趣包罗呆板进修、布局生物学、高性能盘算和盘算机视觉。

通讯作者之一 Ron Dror 是斯坦福大学盘算机科学系副传授,也是斯坦福 AI 试验室所属一个研究小组的卖力人,专注于利用盘算机技能办理生物学和药物发觉的底子题目。作为高性能盘算、呆板进修、图像阐发、布局生物学和药物设计等范畴的专家,他还传授盘算机生物学和呆板进修,并为技能和制药企业提供咨询。

参考链接:

http://raphael.tc.com/

http://drorlab.stanford.edu/rondror.html

http://news.stanford.edu/2021/08/26/ai-algorithm-solves-structural-biology-challenges/

http://www.genengnews.com/news/rna-structures-predicted-with-uncanny-accuracy-by-unbiased-ai/

精彩图集