Nucleotide dependency analysis of DNA language models reveals genomic functional elements

Paper link

Abstract

本文介绍了一种新的方法,通过分析 DNA 语言模型中的核苷酸依赖关系来揭示基因组功能元素。作者发现,这种方法可以有效地识别调控元素、RNA 结构等功能元素,并且在某些任务上优于传统的序列比对方法。研究结果表明,核苷酸依赖分析可以指示人类遗传变异的有害程度,比序列比对和 DNA 语言模型重建更有效。此外,该方法还能够系统地识别转录因子结合位点,准确度与基于实验数据训练的模型相当。在 RNA 结构预测方面,该方法能够高度准确地突出 RNA 结构中的接触碱基,包括假结和三级结构接触。这项研究为解释 DNA 语言模型并发现新的基因组功能元素提供了新的途径,开辟了基因组学研究的新方向。

Introduction

介绍了基因组解释的挑战以及现有方法的局限性。强调了 DNA 语言模型作为新兴工具的潜力,但指出目前缺乏有效的解释方法。提出了核苷酸依赖分析作为一种新的方法来解释 DNA 语言模型并发现功能元素。

作者指出,尽管高通量测序技术使我们能够读取基因组,但解释 - 即解码序列中存在的信息并确定其生物学意义 - 仍然是现代遗传学的一个关键挑战。传统的序列比较方法虽然有效,但受限于可比对序列的可用性。DNA 语言模型作为一种新的技术,可以直接从大量基因组序列中捕捉进化偏好的序列元素及其排列,而无需额外的实验。

然而,如何有效地利用 DNA 语言模型来发现功能基因组元素仍然是一个挑战。本文提出的核苷酸依赖分析方法旨在解决这个问题,为基因组功能元素的发现提供了一个新的视角。

Background

DNA Language Models

DNA 语言模型是一类通过预测给定上下文的核苷酸来学习 DNA 序列模式的深度学习模型。这些模型通常基于 Transformer 架构,可以被表示为一个条件概率分布:

$P(n_i n_{<i}, \theta)$

其中 $n_i$ 是位置 i 的核苷酸,$n_{<i}$ 是 i 之前的所有核苷酸,$\theta$ 是模型参数。

这些模型能够捕捉复杂的序列模式,但其内部表示难以直接解释。本研究提出的方法旨在揭示这些模型所学到的生物学相关信息。

Sequence Conservation and Covariation

传统的序列保守性分析基于多序列比对,通过计算每个位置的信息熵来量化保守程度:

$H(i) = -\sum_{b \in {A,C,G,T}} p_i(b) \log_2 p_i(b)$

其中 $p_i(b)$ 是碱基 b 在位置 i 出现的频率。

协变分析则关注两个位置之间的相互依赖关系,常用互信息来量化:

$MI(i,j) = \sum_{b_1,b_2 \in {A,C,G,T}} p_{ij}(b_1,b_2) \log_2 \frac{p_{ij}(b_1,b_2)}{p_i(b_1)p_j(b_2)}$

这些方法在识别功能元素方面有一定效果,但受限于高质量多序列比对的可用性。

Methods

Nucleotide Dependency Analysis

核苷酸依赖分析的核心思想是量化一个位置的核苷酸变化如何影响其他位置的核苷酸预测概率。具体来说,对于位置 i 和 j,依赖度 $e_{i,j}$ 定义为:

$e_{i,j} = \max_{k_{alt} \neq k_{ref}} \max_{n \in {A,C,G,T}} \log \frac{P(n_j = n k_i = k_{alt})}{P(n_j = n k_i = k_{ref})} $

其中 $k_{ref}$ 是参考序列在位置 i 的核苷酸,$k_{alt}$ 是替代核苷酸。

这个公式计算了在位置 i 引入突变后,位置 j 的核苷酸预测概率的最大对数比值。通过计算所有位置对的依赖度,可以构建一个依赖图(dependency map)。

DNA Language Model Training

本研究使用了一个基于 Transformer 架构的 DNA 语言模型,称为 SpeciesLM。模型在来自 494 个不同物种的后生动物基因组上进行训练,特别关注每个蛋白质编码基因起始密码子上游 2000 个碱基的区域。模型使用了旋转位置编码来注入位置信息,并采用了特定的训练策略来提高效率。

模型的目标函数是最小化交叉熵损失:

$L = -\sum_{i=1}^N \log P(n_i n_{<i}, \theta)$

其中 N 是序列长度。

Evaluation Datasets and Metrics

为了评估方法的有效性,作者使用了多个数据集:

  1. ClinVar 数据库中的人类遗传变异
  2. 9 个人类启动子的饱和突变实验数据
  3. 酵母中已知的转录因子结合位点数据
  4. ArchiveII 数据库中的 RNA 结构数据

评估指标包括 ROC 曲线下面积(AUC)、Pearson 相关系数等,具体取决于任务类型。

Results

Identification of Regulatory Elements

研究发现,核苷酸依赖分析在识别转录因子结合位点方面表现出色。在酵母基因组中,该方法的 AUC 达到 0.92,与使用实验数据训练的模型相当。

对于人类启动子区域,依赖图显示出明显的块状结构,这些块与已知的调控元素(如 TATA 盒)高度重合。

RNA Structure Prediction

在 RNA 结构预测方面,核苷酸依赖分析展现出了令人印象深刻的能力。对于 tRNA 结构,该方法不仅准确识别了茎环结构,还捕捉到了三级结构接触。

在 ArchiveII 数据集上,该方法在预测 RNA 二级结构接触方面的 AUC 平均达到 0.95,优于许多专门的 RNA 结构预测工具。

Comparison with Sequence Alignment

与传统的序列比对方法相比,核苷酸依赖分析在多个任务上表现更好:

  1. 在预测 ClinVar 变异的致病性方面,依赖分析的 AUC 为 0.76,而基于 PhyloP 的保守性分数的 AUC 为 0.72。
  2. 在预测人类启动子突变的表达影响方面,依赖分析与实验结果的相关系数为 0.65,显著高于序列保守性分数(0.48)。

Novel RNA Structures in E. coli

利用核苷酸依赖分析,研究者在大肠杆菌中发现了 4 个此前未报道的 RNA 结构。这些结构通过 DMS-MaPseq 实验得到了验证,并且在进化上是保守的。

其中一个新发现的结构位于 fkpB 基因上游,包含两个茎环结构和一个假结,这种复杂的结构暗示了可能的调控功能。

Model Architecture Analysis

研究者利用核苷酸依赖分析比较了不同 DNA 语言模型架构的性能。结果表明,在多物种数据上训练的模型比仅在单一物种(如人类)上训练的模型表现更好。这一发现为未来 DNA 语言模型的设计提供了重要指导。

Discussion

Implications for Genomic Interpretation

核苷酸依赖分析方法为基因组解释提供了一个新的视角。它不仅能识别已知的功能元素,还能发现新的潜在调控区域。这种方法的一个关键优势是它不依赖于序列比对,因此可以应用于快速进化或难以比对的基因组区域。

Limitations and Future Work

尽管取得了显著成果,但该方法仍有一些局限性:

  1. 计算复杂度:对于长序列,计算全面的依赖图可能非常耗时。未来的工作可能需要开发更高效的算法或采用近似方法。
  2. 模型依赖:结果可能受特定 DNA 语言模型的影响。需要进一步研究不同模型架构和训练策略的影响。
  3. 生物学解释:虽然依赖图可以指示功能重要性,但将这些模式与具体的生物学机制联系起来仍然具有挑战性。

未来的研究方向包括:

  1. 扩展到更多物种和更长的序列。
  2. 结合其他组学数据,如染色质可及性和表观遗传修饰。
  3. 开发针对特定任务(如增强子预测)的优化方法。

Comparison with Existing Methods

核苷酸依赖分析与现有方法相比有几个独特优势:

  1. 无需多序列比对:这使得它可以应用于快速进化或难以比对的区域。
  2. 捕捉长程依赖:unlike 协变分析主要关注成对的位置,依赖分析可以揭示复杂的长程相互作用。
  3. 整合进化信息:DNA 语言模型在多物种数据上训练,隐含地整合了进化信息。

然而,这种方法也有一些潜在的劣势,如计算成本高和对训练数据的依赖。

Conclusion

核苷酸依赖分析为解释 DNA 语言模型和发现基因组功能元素提供了一个强大的新工具。它在多个任务上展现出优于或等同于现有方法的性能,包括调控元素识别、RNA 结构预测和变异影响评估。

这项工作不仅推进了我们对基因组功能的理解,还为 DNA 语言模型的设计和应用提供了新的见解。未来,这种方法有潜力成为计算基因组学中的一个重要工具,为生物学发现和医学应用铺平道路。

通过将机器学习的最新进展与传统的基因组学方法相结合,本研究展示了跨学科研究在解决复杂生物学问题中的力量,为未来的研究开辟了新的可能性。