当前位置:网站首页>Cross-species regulatory sequence activity prediction
Cross-species regulatory sequence activity prediction
2022-08-04 07:08:00 【与光i】
摘要
文章使用深度神经网络来学习人类和小鼠极影数据的序列,并提高了对保留序列的基因表达预测准确性。同时使用迁移学习,使得小鼠调节模型能够分析与分子表型、疾病相关的人类遗传变异。
模型
总体结构
图1
如图1所示。
首先先将人类和小鼠的DNA序列转化为one-hot编码表示,为四行二进制矩阵。之后输入到7个迭代的卷积块和最大池化层中,用于学习128bp中的序列信息。
卷积块包括如下操作:
- 宽带为5的卷积(在第一层为15)
- 归一化
- GELU激活函数
- 宽度为2的最大池化
之后使用11个扩张残差块(使用扩张卷积,每次将扩张率增加1.5倍),和输入叠加,用于在长序列中共享信息。
扩张残差块包括如下操作:
- GELU激活函数
- 宽度为3,扩张率为d,过滤器数量为384的扩张卷积
- 归一化
- GELU激活函数
- 宽度为1,过滤器数量为768的卷积
- 归一化
- 0.3的dropout
- 和输入相加
最后应用线性变换来预测人类或小鼠的数千个调节活动信号轨迹。除最后一层外,所有参数在物种之间共享。
输入输出
输入:6956个来自于encode和fantom的人和小鼠细胞的131072( = 2 17 =2^{17} =217个功能基因序列
输出:预测TF结合、DNA可访问性和转录类型
研究结论
多基因组训练对泛化准确性的影响
训练了三个独立的模型:人类和小鼠联合训练,单独训练人类,单独训练小鼠。使用相同的模型架构和超参数。每个模型训练30个epoch
结论:
- 联合训练提⾼了 94% 的⼈类 CAGE 和 98% 的⼩⿏ CAGE 数据集(⼆项式检验 p 值 1e-16 和1e-16)的-16)的测试机准确度,确度,将分别用于人类和小鼠的平均 Pearson 相关性提⾼了 0.13 和 0.26
- 联合训练提高了 DNase、ATAC 和ChIP的预测,但幅度较小
- 55% 的⼈类和 96% 的⼩⿏数据集的平均测试集相关性增加
调节序列活动模型能够跨物种转移
结论:经过训练,能够预测以恶物种的调节性序列活动模型,也能够对来自另一个物种的匹配样本做出准确有效的预测。
方法:
选择人类和小鼠的小脑、肝脏和CD4+细胞,从训练集之外的所有人类基因的转录起始位点提取CAGE基因表达测量了,并计算对人类和小鼠的这种组织和细胞类型的预测。
在人类基因TSS中,观察到小鼠预测与人类观察到的信号的平均跨物种预测精度为 0.73,而人类预测与人类观察到的信号的相关性为 0.75。使用CAGE数据集的平均值对TSS数据进行归一化,对于匹配样本,观察到对于匹配样本的人类数据的小鼠预测,标准化信号的 Pearson 相关性仍然很高。 相反,与来自不同组织/细胞类型的数据相比,标准化预测导致负相关(图 3c)。 因此,这些模型已经学习了超出基线水平的组织和细胞类型特异性,并且能够跨物种转移这些知识。
小鼠训练模型能够阐明人类遗传变异
在小鼠数据上训练的模型允许人们预测:如果两个人类等位基因存在于小鼠细胞的调节环境中,它们的行为方式之间有何差异。
小鼠训练模型突出了与人类神经发育疾病相关的突变
对自闭症患者家庭进行全基因组测序,能够检测到这些后代平均有67个从头突变,其启动子略有富集。通过变异效应的预测可以区分自闭症病例和其未受影响的兄弟姐妹。
应用该模型预测每个从头突变将如何影响 357 只小鼠 CAGE 全身组织和细胞类型的信号,病例组与对照变体组相比显著多177个阴性预测。
边栏推荐
猜你喜欢
2022年7月总结
在线问题反馈模块实战(十八):实现excel台账文件记录批量导入功能
Produce definition 产品与行业分析 勤于思考 善于总结 强于表达
七牛云上传图片和本地上传
C语言实现-华为太空人手表
小猫爪:AWR294x学习笔记02-AWR294x之DPM&IPC
The national vocational skills contest competition of network security emergency response
字节跳动岗位薪酬体系曝光,看完我真的酸了...
[Paper Notes] - Low Illumination Image Enhancement - Supervised - RetinexNet - 2018-BMVC
「PHP基础知识」转换数据类型
随机推荐
分布式计算实验3 基于PRC的书籍信息管理系统
Redis非关系型数据库
微信小程序实现活动倒计时
likeshop外卖点餐系统【100%开源无加密】
entity、domain、vo、pojo的区别与联系
中断和异常的处理与抢占式多任务
MMDeploy部署实战系列【第四章】:onnx,tensorrt模型推理
一天学会JDBC04:ResultSet的用法
2022年7月总结
【剑指Offer】二分法例题
海康VisionMaster与西门子Smart 200进行S7通信
玩转TypeScript对象、对象作为参数进行函数传递、接口和内置对象[无敌态]
Transform 相对位置变换,坐标系转换
babylon 里面加gltf 模型
LLVM编译技术应用分析
从零开始单相在线式不间断电源(UPS)(硬件)
fanuc机器人IO分配报警信号分配无效
LeetCode(剑指 Offer)- 18. 删除链表的节点
Secondary network security competition C module MS17-010 batch scanning
LeetCode 135. 分发糖果