直到最近,生物信息学领域主要围绕序列数据和注释展开。事实上,随着新一代测序平台的出现,序列数据产量呈指数级增长,对大规模数据集成和分析提出了许多挑战。蛋白质结构也出现了类似的趋势,尽管规模要小得多(图 3)。这是由于不同的原因,主要原因是蛋白质结构的实证研究仍然过于昂贵,无法随着序列数据的可用性而扩大规模。
在 AlphaFold2 之前,在计算机中生成模型的主要方法是同源性建模,该方法基于具有较大序列相似性的模板生成令人满意的模型。不幸的是,这意味着所有 巴林手机数据 序列相似性不够高的情况都不会产生高质量的模型。此外,选择一个好的模板至关重要,这意味着这种方法不能轻易实现自动化。另一方面,AlphaFold2 只需要很少的输入,只需要需要建模的蛋白质序列,这有助于实现自动化。这导致了AlphaFoldDB [7] 的发布,它现在包含从 UniProt 数据库中存储的序列预测的超过 2 亿个蛋白质结构。相比之下,在撰写本文时(2023 年 2 月 21 日),PDB [8] 中只有201,515 个条目,大小约为 1,000 倍!
虽然 AlphaFold2 不能在任何标准笔记本电脑上运行,但它可以在高性能计算 (HPC) 环境中运行,并扩展到常规预测,就像我们在基于云的设置上在 BioStrand 上所做的那样。
图 3 - 每年发布的 PDB 结构数量。改编自 PDB RCSB。
预测结构模型可以替代经验模型吗?
预测蛋白质结构模型的精度挑战实验方法的前景对于加速研究具有重要意义。PDB 中的结构分辨率分布表明,大多数模型的分辨率约为 2 埃(图 4)。在 CASP14 等基准测试中,AlphaFold2 展示了这样的能力,Cα 原子的平均均方根偏差为 1.6 埃。这些早期结果支持了结构从头预测精度达到经验模型精度边界的说法。
图 4 - 结构分辨率分布(单位:埃),显示的数据包括通过 X 射线晶体学或电子显微镜解析的结构。改编自 RCSB。
最近对 AlphaFold2 预测的第一个结构数据库(365,198 个蛋白质模型)进行的审查 [9] 强调了 AlphaFold2 预测和相关输出指标的优势和局限性,这些指标给出了局部和非局部置信度得分的原子精度(参见之前的博客文章)。作者认为,对于数据库涵盖的 11 个蛋白质组,与通过同源性建模构建的结构相比,平均有 25% 的额外残基是可以自信地建模的。这些高置信度区域可用于下游建模任务(例如蛋白质-配体对接)。但是,并非所有 AlphaFold2 预测都可以信任并用于下游任务。11 个蛋白质组的数据库中大约 50% 的残基置信度较低(低 pLDDT)。有人认为这些残基通常对应于内在无序的蛋白质/区域(IDP/IDR)。论文作者使用 AlphaFold2 将其预测结果与其他预测 IDP/IDR 的工具进行比较,结果表明 AlphaFold2 的表现优于 IUPred2 等最先进的算法。作者还将 AlphaFold2 Multimer 与最先进的蛋白质/蛋白质对接算法进行了比较,并认为 AlphaFold2 在预测复合物方面的表现也优于 IUPred2,其他研究小组也证实了这一点 [10]。