解读蛋白质折叠,即了解氨基酸的线性链如何折叠成决定生物功能的三维结构,几十年来一直是一个长期存在的问题。深入了解蛋白质结构在生物学、化学和医学等关键应用中起着核心作用。
然而,经过半个世纪的专注研究,人们仅揭示了人体中约 40 万种蛋白质中的 17% 的结构。
但得益于英国 DeepMind 开发的 AI 系统 AlphaFold,我们现在已经预测了几乎整个人类蛋白质组以及果蝇和大肠杆菌等模式生物的蛋白质结构。 此外,DeepMind 计划继续扩展该数据库,以涵盖 UniRef90 数据库中编目的 1 亿种蛋白质,并将其永久免费提供给所有科 玻利维亚手机数据 学和商业研究。
基于人工智能的计算方法可以加速、准确且可扩展地进行蛋白质折叠研究,为下游创新开辟了一系列新机遇。例如,华盛顿大学的研究人员已经在探索利用深度学习的蛋白质结构预测能力来“幻化”具有目标功能的全新合成蛋白质世界的潜力。
新一代初创企业已经围绕这一开创性突破联合起来,开发针对 COVID-19 和癌症的下一代蛋白质疗法。
大数据生物信息学中的人工智能/机器学习
后基因组时代生物大数据的指数级增长要求彻底改变传统的生物信息学和原始数据获取、存储、分发和分析的传统方法。人工智能技术强大的大数据处理能力往往是将机器学习和深度学习能力融入传统研究流程的主要推动力。
基因组数据也往往具有显著的异质性和极度分散性。在此背景下,基于 AI/ML 的新技术可以帮助简化和加速多模态源数据(包括多组学数据、临床试验数据、患者记录等)的标准化过程,并实现所有研究相关数据的综合分析。
智能技术的应用还可以打开对迄今为止超出传统数据集成和分析框架范围的新数据源的访问。例如,数字生物医学信息呈指数级增长,而缺乏将所有非结构化数据转换为结构化数据的自动化可扩展解决方案,这让很多潜在的研究价值被搁置。
生物医学领域特定的 NLP 技术为从大量文本(包括科学文献和医学/临床数据)中自动提取统计和生物信息开辟了一系列可能性。
最后,人工智能/机器学习技术及其处理大量高维数据的能力可以带来显著的突破——正如深度学习在蛋白质折叠中的应用所证明的那样——从而改变生物学研究。然而,重点必须放在创新技术在整个研究领域的应用上,从数据生成到分析和分发。