当前位置:网站首页>谷歌AlphaFold近日宣称预测出地球上几乎所有蛋白质结构
谷歌AlphaFold近日宣称预测出地球上几乎所有蛋白质结构
2022-07-30 18:57:00 【weixin_4528312】
Nature杂志近日发文说:“从今天起,预测几乎所有已知蛋白质的结构,都如同使用搜索引擎一样简单。”
7月28日,谷歌DeepMind公司与欧洲生物信息研究所(EMBL-EBI)的合作团队公布了生物学领域的一项重大飞跃。他们利用人工智能(AI)系统AlphaFold预测出超过100万个物种的2.14亿个蛋白质结构,几乎涵盖了地球上所有已知蛋白质。这一突破将加速新药开发,并为基础科学带来全新革命。

▲AlphaFold 工具预测的卵黄原蛋白(蛋黄的前体)的结构
2020年年底,当人们对AlphaFold的印象还停留在那个打败全人类的围棋高手时,这个AI系统在结构生物学领域的亮相带来了新的惊喜。当时,AlphaFold成功破解了生物学持续50年的重大难题——蛋白质折叠问题,能够根据蛋白质的氨基酸序列预测蛋白质的三维结构。
仅仅半年后,DeepMind和EMBL-EBI合作,在一篇《自然》论文中发布了由AlphaFold预测的蛋白结构数据库。这个数据库涵盖了人类和20种常用模式生物的35万个蛋白质结构,并且对98.5%的人类蛋白质结构进行了准确预测——要知道在此之前,科学界解析的蛋白质结构只覆盖了人类蛋白序列17%的氨基酸。人工智能预测蛋白质结构领域的一系列突破,也被《科学》评选为2021年的年度科学突破。
现在,DeepMind与EMBL-EBI的合作团队更进一步。AlphaFold对蛋白质结构的预测不再局限于人类与模式生物,而是拓展至涵盖了动植物、细菌等的100万个物种,预测的蛋白质结构数量也提升了数百倍。

▲AlphaFold预测的蛋白质结构,涵盖了大量动植物及微生物物种
“这个数据库涵盖了整个蛋白质宇宙,我们迈入了数字生物学的全新时代。”DeepMind的CEO Demis Hassabis博士点评道。
早在1972年,诺贝尔化学奖得主Christian Anfinsen博士就在诺奖颁奖典礼上提出,蛋白质的氨基酸结构应该能完全决定其三维结构。但由于氨基酸可能形成的蛋白质构象是个天文数字,通过计算预测蛋白质结构难度极高。而利用传统的实验手段(例如X射线晶体学)解决该问题,时间消耗以及价格都十分惊人。
对于今日公布的全新数据,DeepMind与EMBL-EBI团队表示,在超过2亿个蛋白质结构预测中,大约35%的结构具有高精度,达到了实验手段获取的结构精度;80%的结构可靠性足以用于多项后续分析。

▲在此前发表的研究中,AlphaFold预测的部分蛋白质结构
不过,目前的AlphaFold仍有提升的空间。伦敦大学学院的Tomek Wlodarski 博士提出,如何开发模型来预测蛋白质如何折叠,而不仅是预测最终的结构,是研究团队接下来要解决的问题。
DeepMind的科学团队主管Pushmeet Kohli博士也指出,现阶段他们正在提升AlphaFold的准确性与性能:“我们试图理解这些蛋白质的行为、它们如何与其他蛋白质互作。”
一年前的《自然》论文发表时,研究团队就向科研人员免费公开了AlphaFold的源代码以及数据库。目前,已有来自190个国家和地区的50多万位学者访问数据库。这些数据已经在疟疾疫苗开发、对抗抗生素耐药性与塑料污染等场景中得到应用,并且帮助研发人员加速新药研发。
此次,团队再次免费公开了最新的数据库,所有2亿多个蛋白质结构都能通过数据库下载。这份前所未有的丰富数据,将帮助我们探索生命科学的无尽奥秘,并对生物学、医药领域产生持久影响。
数据库中几乎所有已知的蛋白质也将有助于开展新的研究。 英国伦敦大学学院的Orengo 的团队已经使用 AlphaFold 数据库来识别新型蛋白质家族,他们现在将在更大规模的范围内进行这项工作。她的实验室还将使用扩展的数据库来了解具有有用特性的蛋白质的进化,或者令人担忧的物质,例如那些可能导致癌症的物质。在数据库中识别这些蛋白质的远亲可以查明它们特性的基础。
首尔国立大学的计算生物学家 Martin Steinegger 帮助开发了基于云的 AlphaFold 版本,他很高兴看到数据库的扩展。但他表示,研究人员可能仍需要自己运行网络。人们越来越多地使用 AlphaFold 来确定蛋白质如何相互作用,而这样的预测不在数据库中。通过对来自土壤、海水和其他“宏基因组”来源的遗传物质进行测序,也没有鉴定出微生物蛋白质。
Steinegger 说,扩展的 AlphaFold 数据库的一些复杂应用程序可能还依赖于下载其全部 23 TB 的内容,这对许多团队来说是不可行的。基于云的存储也可能证明成本高昂。 Steinegger 与人共同开发了一个名为 FoldSeek 的软件工具,它可以快速找到结构相似的蛋白质,并且应该能够大大压缩 AlphaFold 数据。
即使包含了所有已知的蛋白质,AlphaFold 数据库也需要随着新生物的发现而更新。随着新的结构信息可用,AlphaFold 的预测也可以改进。 Hassabis 表示,DeepMind 已承诺长期支持该数据库,他可以看到每年都会发生更新。
他希望 AlphaFold 数据库的可用性将对生命科学产生持久的影响。 “这将需要对思维进行相当大的改变。”
边栏推荐
- Does the satellite phone communicate directly with the satellite or through a ground station?
- Range.CopyFromRecordset 方法 (Excel)
- [Prometheus] An optimization record of the Prometheus federation [continued]
- 延时队列优化 (2)
- 智慧中控屏
- OneFlow源码解析:Op、Kernel与解释器
- 第4章 控制执行流程
- 卫星电话是直接与卫星通信还是通过地面站?
- DTSE Tech Talk丨第2期:1小时深度解读SaaS应用系统设计
- 3D机器视觉厂商的场景争夺战役
猜你喜欢

解决终极bug,项目最终能顺利部署上线。

(2022杭电多校四)1001-Link with Bracket Sequence II(区间动态规划)

延时队列优化 (2)

OSPF详解(4)

6块钱1斤,日本公司为何来中国收烟头?

Pytorch基础--tensorboard使用(一)

Critical Reviews | A review of the global distribution of antibiotics and resistance genes in farmland soil by Nannong Zou Jianwen's group

MySQL数据类型

6 yuan per catty, why do Japanese companies come to China to collect cigarette butts?

scrapy基本使用
随机推荐
WEBSOCKETPP使用简介+demo
Anaconda Navigator stuck on loading applications
scrapy基本使用
Recommended Books | Recommend 3 database books with rave reviews
Two-point answer naked question (plus a little pigeonhole principle)
7.30模拟赛总结
The use of @ symbol in MySql
Scrapy framework is introduced
OSPF详解(4)
ctf.show_web5
CIMC Shilian Dafeitong is the global industrial artificial intelligence AI leader, the world's top AI core technology, high generalization, high robustness, sparse sample continuous learning, industri
natural language processing nltk
AI Basics: Graphical Transformer
C# wpf 无边框窗口添加阴影效果
Common linked list problems and their Go implementation
[TypeScript]编译配置
[Summary] 1396- 60+ VSCode plugins to create a useful editor
SwiftUI iOS Boutique Open Source Project Complete Baked Food Recipe App based on SQLite (tutorial including source code)
怎么样的框架对于开发者是友好的?
JS提升:Promise中reject与then之间的关系