当前位置:网站首页>Cross-species regulatory sequence activity prediction

Cross-species regulatory sequence activity prediction

2022-08-04 07:08:00 与光i

摘要

文章使用深度神经网络来学习人类和小鼠极影数据的序列,并提高了对保留序列的基因表达预测准确性。同时使用迁移学习,使得小鼠调节模型能够分析与分子表型、疾病相关的人类遗传变异。

模型

总体结构

Alt

图1

如图1所示。
首先先将人类和小鼠的DNA序列转化为one-hot编码表示,为四行二进制矩阵。之后输入到7个迭代的卷积块和最大池化层中,用于学习128bp中的序列信息。
卷积块包括如下操作:

  • 宽带为5的卷积(在第一层为15)
  • 归一化
  • GELU激活函数
  • 宽度为2的最大池化

之后使用11个扩张残差块(使用扩张卷积,每次将扩张率增加1.5倍),和输入叠加,用于在长序列中共享信息。
扩张残差块包括如下操作:

  • GELU激活函数
  • 宽度为3,扩张率为d,过滤器数量为384的扩张卷积
  • 归一化
  • GELU激活函数
  • 宽度为1,过滤器数量为768的卷积
  • 归一化
  • 0.3的dropout
  • 和输入相加

最后应用线性变换来预测人类或小鼠的数千个调节活动信号轨迹。除最后一层外,所有参数在物种之间共享。

输入输出

输入:6956个来自于encode和fantom的人和小鼠细胞的131072( = 2 17 =2^{17} =217个功能基因序列
输出:预测TF结合、DNA可访问性和转录类型

研究结论

多基因组训练对泛化准确性的影响

训练了三个独立的模型:人类和小鼠联合训练,单独训练人类,单独训练小鼠。使用相同的模型架构和超参数。每个模型训练30个epoch
结论:

  • 联合训练提⾼了 94% 的⼈类 CAGE 和 98% 的⼩⿏ CAGE 数据集(⼆项式检验 p 值 1e-16 和1e-16)的-16)的测试机准确度,确度,将分别用于人类和小鼠的平均 Pearson 相关性提⾼了 0.13 和 0.26
  • 联合训练提高了 DNase、ATAC 和ChIP的预测,但幅度较小
  • 55% 的⼈类和 96% 的⼩⿏数据集的平均测试集相关性增加

调节序列活动模型能够跨物种转移

结论:经过训练,能够预测以恶物种的调节性序列活动模型,也能够对来自另一个物种的匹配样本做出准确有效的预测。
方法:
选择人类和小鼠的小脑、肝脏和CD4+细胞,从训练集之外的所有人类基因的转录起始位点提取CAGE基因表达测量了,并计算对人类和小鼠的这种组织和细胞类型的预测。
在人类基因TSS中,观察到小鼠预测与人类观察到的信号的平均跨物种预测精度为 0.73,而人类预测与人类观察到的信号的相关性为 0.75。使用CAGE数据集的平均值对TSS数据进行归一化,对于匹配样本,观察到对于匹配样本的人类数据的小鼠预测,标准化信号的 Pearson 相关性仍然很高。 相反,与来自不同组织/细胞类型的数据相比,标准化预测导致负相关(图 3c)。 因此,这些模型已经学习了超出基线水平的组织和细胞类型特异性,并且能够跨物种转移这些知识。

小鼠训练模型能够阐明人类遗传变异

在小鼠数据上训练的模型允许人们预测:如果两个人类等位基因存在于小鼠细胞的调节环境中,它们的行为方式之间有何差异。

小鼠训练模型突出了与人类神经发育疾病相关的突变

对自闭症患者家庭进行全基因组测序,能够检测到这些后代平均有67个从头突变,其启动子略有富集。通过变异效应的预测可以区分自闭症病例和其未受影响的兄弟姐妹。
应用该模型预测每个从头突变将如何影响 357 只小鼠 CAGE 全身组织和细胞类型的信号,病例组与对照变体组相比显著多177个阴性预测。

原网站

版权声明
本文为[与光i]所创,转载请带上原文链接,感谢
https://blog.csdn.net/dawnyi_yang/article/details/126083826