4YR企业会员
发布人:武汉佰乐博生物技术有限公司
发布日期:2026/1/30 14:16:51
如果说AlphaFold解决了蛋白质"长什么样"的问题,那么AlphaGenome正在回答一个更根本的问题:DNA 到底在做什么?
人类基因组计划完成草图已近二十五年,但对基因组的理解并未与测序速度同步推进。一个反复被提及、却始终难以破解的事实是:我们真正能够解释的 DNA 序列,仅占整个基因组的约 2%。这些区域直接编码蛋白质,结构和功能相对清晰;而剩余 98% 的非编码基因组,尽管被广泛认为承担着关键的调控功能,却长期处于"知道重要,但不知为何"的状态。
大量遗传学研究表明,绝大多数与疾病相关的遗传变异并不位于编码区。这些变异不会改变蛋白序列,却可能通过影响转录因子结合、 RNA 剪接、染色质构象或远程增强子活性,悄然改变基因表达程序,最终导致疾病发生。 然而,这些调控效应往往跨越几十万甚至上百万碱基对,具有高度的细胞类型特异性,也高度依赖空间结构, 使得传统实验方法和计算模型都难以系统解析。
过去十余年,研究人员已开发出多种基因组 AI 模型,用于预测基因表达、剪接模式或蛋白质结合位点等特定任务。但这些模型大多只能处理较短的 DNA 序列,且往往"各司其职"。在真实生物学系统中,一段 DNA 往往同时承担多种功能,其效应也并非孤立发生。科研界迫切需要一种能够"通盘理解"DNA 的统一模型。
2026 年 1 月 28日发表于 Nature 的 Advancing regulatory variant effect prediction with AlphaGenome 研究中,DeepMind 推出了全新的 DNA 序列模型 AlphaGenome,其设计目标非常明确:从原始 DNA 序列出发, 同时预测多层级基因组特征,并系统评估单碱基突变的潜在影响。

与以往模型最大的不同在于, AlphaGenome 不再在"看得远"和"看得细"之间妥协。该模型能够直接处理长达 100 万碱基对的 DNA 序列,同时保持单碱基级别的预测分辨率。这意味着研究人员可以在不切割序列、不依赖人工假设的前提下,分析远距离调控关系对局部基因功能的影响。
在模型架构上,AlphaGenome 采用了卷积神经网络与 Transformer 的融合设计。卷积层擅长捕捉局部序列模式, 能够识别类似转录因子结合基序、剪接信号等短序列"语法"; 而 Transformer模块则负责在整个序列范围内建立长距离联系,解析增强子与靶基因之间跨越数十万碱基对的调控关系。这种设计让模型既能理解 DNA 的"局部语言",又能把握整体调控语境。
更重要的是,AlphaGenome并非为单一任务而生。模型在训练过程中被统一优化,用于同时预测数千种基因组特征,涵盖基因边界、RNA剪接位点、染色质可及性、蛋白质结合位点等多个层级。 这使其成为真正意义上的通用 DNA 解读模型。

AlphaGenome模型架构、训练策略与综合性能评估体系
为了评估 AlphaGenome 的实际能力,研究团队对其进行了系统而严格的基准测试,涵盖DNA功能预测和遗传变异效应评估两大类任务。
结果显示,在 24 项 DNA序列功能预测任务中, AlphaGenome在22项中达到最先进水平;在26 项遗传变异影响预测任务中,模型在24项中表现最优。尤其值得关注的是,这些比较对象中包含了多种为特定任务高度优化的专用模型,而AlphaGenome作为一个统一模型,仍在绝大多数任务中取得领先。
在模型稳定性方面,研究团队通过严格的数据划分和跨细胞类型测试, 验证了AlphaGenome 的良好泛化能力。无论是在不同实验条件,还是在未见过的基因组区域, 模型预测结果均保持高度一致性, 显示出可靠的生物学可信度。

AlphaGenome基因组轨迹预测实例与性能深度评估
AlphaGenome 的价值并不仅体现在基准测试分数上,更体现在其对真实生物医学问题的解释能力。 在一项针对 T细胞急性淋巴细胞白血病(T-ALL)的研究案例中,研究人员关注到患者基因组中存在位于非编码区域的突变。 传统分析难以判断这些突变的功能意义,而AlphaGenome的预测结果显示, 这些突变会引入新的 MYB 转录因子结合基序,从而异常激活邻近的致癌基因 TAL1。这一预测为非编码突变如何驱动肿瘤发生提供了清晰的机制路径。

AlphaGenome对染色质可及性及SPI1转录因子结合变异效应的精准预测
在罕见遗传病研究中, AlphaGenome 同样展现出独特优势。许多疾病,如脊髓性肌萎缩症 和某些形式的囊性纤维化, 源于 RNA 剪接调控异常。 AlphaGenome 能够直接从 DNA 序列层面 预测剪接位点的位置及其表达变化趋势,为变异筛选和致病机制研究提供了新的切入点。

AlphaGenome在跨模态变异效应解析中的应用
除了解释既有变异, AlphaGenome 还展示了在合成生物学与基因治疗设计中的潜在应用价值。研究团队证明, 模型可以用于预测不同 DNA 序列设计在特定细胞类型中的调控效果,从而指导构建只在特定细胞中激活、在其他细胞中保持沉默的调控元件。
这种能力为精准基因治疗提供了新的工具路径:研究人员不再完全依赖试错式实验,而是可以在计算层面预筛选最优设计方案,大幅降低实验成本与时间消耗。

系统解析关键模型设计要素对AlphaGenome性能的影响
作者也坦率指出, AlphaGenome 并非终点。模型性能仍依赖于现有高质量表观组学数据,对极端稀有细胞状态或复杂环境刺激的预测能力仍有提升空间。 未来, 将 AlphaGenome 与单细胞、 多组学数据以及实验验证体系深度结合,将是其持续演进的关键方向。
尽管如此, AlphaGenome 已经清晰地标志着一个转变:基因组 AI 正从单项工具,迈向统一的预测平台。
如果说 DNA 是生命的源代码, 那么AlphaGenome正在成为解读这套代码的通用解释器。它让研究人员第一次有机会, 在单一模型中系统预测长 DNA 序列的多层功能 与突变后果, 推动生命科学 从"事后解释"走向"事前预测"。
这不仅是一项模型的突破,更是生物学研究方式的一次深刻升级!
相关新闻资讯