2024 年 8 月 27 日,初创公司 A-Alpha Bio 发布了 AlphaSeq 数据集,这一数据集专注于蛋白质 – 蛋白质相互作用(PPI),包含超过 7.5 亿条测量结果,成为全球最大的 PPI 数据集。该数据集的发布引起了广泛关注,尤其是在生物技术和计算生物学领域。
AlphaSeq 数据集的技术细节也备受关注。该数据集的收集方法起源于 Baker 实验室在 2017 年发表的一篇论文,描述了 A-Alpha Bio 对 PPI 数据进行大规模收集和表征的基本方法。David Baker 是华盛顿大学教授、蛋白质研究所所长,他领导的团队开发的 Rosetta 算法奠定了用深度学习方法预测蛋白质结构的基础,揭开了 AlphaFold 和 ESMFold 的帷幕。
在技术层面,AlphaSeq 数据集采用了合成生物学技术,通过高通量测序和机器学习算法,对蛋白质 – 蛋白质相互作用进行了测量和分析。这些数据不仅包括了蛋白质的序列信息,还涵盖了它们的结构信息,使得研究人员能够更准确地预测蛋白质的相互作用。
与其他数据集相比,AlphaSeq 数据集具有显著的优势。传统的 PPI 数据规模相当有限,比如今年 1 月刚刚发布的 PDBbind + 数据集,总共只包含 3176 个蛋白质 – 蛋白质复合物。而 AlphaSeq 数据集包含了超过 7.5 亿条测量结果,构成了世界上最大的 PPI 数据集。
相关研究和项目也在利用 AlphaSeq 数据集。A-Alpha Bio 的 AlphaSeq 平台已经被用于测量近 1000 万个抗体 – 抗原组合在三种病原体家族中的相互作用,旨在为未来的生物威胁做好准备。此外,A-Alpha Bio 还获得了 1450 万美元的资助,以应对未来的生物威胁。这些研究和项目不仅推动了 PPI 研究的发展,也为应对未来的生物威胁提供了重要的数据支持。

