当前位置:网站首页>Cross-species regulatory sequence activity prediction
Cross-species regulatory sequence activity prediction
2022-08-04 07:08:00 【与光i】
摘要
文章使用深度神经网络来学习人类和小鼠极影数据的序列,并提高了对保留序列的基因表达预测准确性。同时使用迁移学习,使得小鼠调节模型能够分析与分子表型、疾病相关的人类遗传变异。
模型
总体结构

图1
如图1所示。
首先先将人类和小鼠的DNA序列转化为one-hot编码表示,为四行二进制矩阵。之后输入到7个迭代的卷积块和最大池化层中,用于学习128bp中的序列信息。
卷积块包括如下操作:
- 宽带为5的卷积(在第一层为15)
- 归一化
- GELU激活函数
- 宽度为2的最大池化
之后使用11个扩张残差块(使用扩张卷积,每次将扩张率增加1.5倍),和输入叠加,用于在长序列中共享信息。
扩张残差块包括如下操作:
- GELU激活函数
- 宽度为3,扩张率为d,过滤器数量为384的扩张卷积
- 归一化
- GELU激活函数
- 宽度为1,过滤器数量为768的卷积
- 归一化
- 0.3的dropout
- 和输入相加
最后应用线性变换来预测人类或小鼠的数千个调节活动信号轨迹。除最后一层外,所有参数在物种之间共享。
输入输出
输入:6956个来自于encode和fantom的人和小鼠细胞的131072( = 2 17 =2^{17} =217个功能基因序列
输出:预测TF结合、DNA可访问性和转录类型
研究结论
多基因组训练对泛化准确性的影响
训练了三个独立的模型:人类和小鼠联合训练,单独训练人类,单独训练小鼠。使用相同的模型架构和超参数。每个模型训练30个epoch
结论:
- 联合训练提⾼了 94% 的⼈类 CAGE 和 98% 的⼩⿏ CAGE 数据集(⼆项式检验 p 值 1e-16 和1e-16)的-16)的测试机准确度,确度,将分别用于人类和小鼠的平均 Pearson 相关性提⾼了 0.13 和 0.26
- 联合训练提高了 DNase、ATAC 和ChIP的预测,但幅度较小
- 55% 的⼈类和 96% 的⼩⿏数据集的平均测试集相关性增加
调节序列活动模型能够跨物种转移
结论:经过训练,能够预测以恶物种的调节性序列活动模型,也能够对来自另一个物种的匹配样本做出准确有效的预测。
方法:
选择人类和小鼠的小脑、肝脏和CD4+细胞,从训练集之外的所有人类基因的转录起始位点提取CAGE基因表达测量了,并计算对人类和小鼠的这种组织和细胞类型的预测。
在人类基因TSS中,观察到小鼠预测与人类观察到的信号的平均跨物种预测精度为 0.73,而人类预测与人类观察到的信号的相关性为 0.75。使用CAGE数据集的平均值对TSS数据进行归一化,对于匹配样本,观察到对于匹配样本的人类数据的小鼠预测,标准化信号的 Pearson 相关性仍然很高。 相反,与来自不同组织/细胞类型的数据相比,标准化预测导致负相关(图 3c)。 因此,这些模型已经学习了超出基线水平的组织和细胞类型特异性,并且能够跨物种转移这些知识。
小鼠训练模型能够阐明人类遗传变异
在小鼠数据上训练的模型允许人们预测:如果两个人类等位基因存在于小鼠细胞的调节环境中,它们的行为方式之间有何差异。
小鼠训练模型突出了与人类神经发育疾病相关的突变
对自闭症患者家庭进行全基因组测序,能够检测到这些后代平均有67个从头突变,其启动子略有富集。通过变异效应的预测可以区分自闭症病例和其未受影响的兄弟姐妹。
应用该模型预测每个从头突变将如何影响 357 只小鼠 CAGE 全身组织和细胞类型的信号,病例组与对照变体组相比显著多177个阴性预测。
边栏推荐
猜你喜欢
![[Paper Notes] - Low Illumination Image Enhancement - Supervised - RetinexNet - 2018-BMVC](/img/54/685fb2620aa53416437943705d3d38.png)
[Paper Notes] - Low Illumination Image Enhancement - Supervised - RetinexNet - 2018-BMVC

C语言指针

分布式计算实验1 负载均衡

2022年7月总结

使用腾讯云发送短信 ---- 手把手教你搞定所有步骤

DropBlock: Regularization method and reproduction code for convolutional layers

2022的七夕,奉上7个精美的表白代码,同时教大家改源码快速自用

国内外知名源码商城系统盘点

高等代数_证明_两个矩阵乘积为0,则两个矩阵的秩之和小于等于n

两日总结七
随机推荐
10个程序员可以接私活的平台和一些建议,赚麻...
Secondary network security competition C module MS17-010 batch scanning
likeshop外卖点餐系统开源啦100%开源无加密
RHCSA第五天
给Unity Behavior Designer(Unity行为树) 的Can See Object 画圆锥辅助图
串口监听 - 软件方案
【学习笔记】AGC036
七夕情人节:中英文祝福短信送给你
powershell和cmd对比
MotionLayout的使用
MMDetection finetune
简析强制缓存和协商缓存
data:image/jpg;base64格式数据转化为图片
entity、domain、vo、pojo的区别与联系
设置el-table自动向下滑动(不多解释,直接代码实现)
app逆向1某联
Distributed Computing Experiment 4 Random Signal Analysis System
powershell和cmd对比
两日总结五
The sorting algorithm including selection, bubble, and insertion