人工智能蛋白质结构预测领域的先锋工具“阿尔法折叠”迎来重大升级。最新公布的数据集,首次大规模整合了蛋白质复合物结构预测数据,向全球科研人员开放了数百万个由AI预测的蛋白质复合物结构。这一里程碑式的成果,由欧洲分子生物学实验室的欧洲生物信息学研究所、谷歌旗下的“深度思维”公司、英伟达以及韩国首尔大学四方携手完成,共同打造了迄今为止规模最大的蛋白质复合物预测数据集。
新数据集不仅首次系统性地纳入了蛋白质复合物结构预测数据,还新增了170万个高置信度的同源二聚体(即由两个相同蛋白质组成的复合物)结构预测。这些数据为深入理解蛋白质如何通过相互作用实现生命功能提供了坚实基础。同时,数据集还特别收录了与人类健康和疾病研究紧密相关的蛋白质,为医学研究提供了有力支持。
自2021年开放以来,“阿尔法折叠”数据集已积累了约2亿个单个蛋白质结构的预测结果。然而,蛋白质在生物体内往往并非单独发挥作用,而是通过形成复合物来行使功能。因此,预测蛋白质复合物结构的难度远高于单体结构,对计算能力的要求也极高。
为了攻克这一难题,研究团队对人类、小鼠、酵母以及结核分枝杆菌等20种研究最为深入的物种进行了系统分析,生成了约3000万个同源二聚体的预测结果。经过严格筛选,最终将约170万个高质量数据纳入数据库,为科研人员提供了宝贵资源。
科学界普遍认为,将蛋白质复合物纳入结构数据库,是从研究“单个分子结构”迈向探索“分子相互作用网络”的关键一步。研究表明,对于某些蛋白质而言,只有在以复合物形式进行建模时,才能准确获取其三维结构信息。
然而,研究团队也提醒科研人员,AI预测结果仍需谨慎对待。部分预测结构可能与真实生物状态存在差异,因此仍需通过实验手段进行验证,以确认其生物学意义。
据介绍,“阿尔法折叠”数据集未来还将继续扩展,计划纳入由两个不同蛋白质组成的异源二聚体结构预测,为科研人员提供更全面的蛋白质结构信息。