当前位置:网站首页>学习基因富集工具DAVID(2)
学习基因富集工具DAVID(2)
2022-08-02 21:51:00 【黄思博呀】
DAVID提供的基因富集功能,主要是GO和KEGG分析:
GO(Gene Ontology GO)分析:
对上传的基因列表进行富集,从而找到和下面三类term相关的基因群:
细胞组分(Cellular Component BP):描述基因产物在细胞中的位置,例如内质网、细胞核、蛋白酶体
分子功能(Molecular Function MF):基因产物的功能,如酶的结合活性或催化活性
生物学过程(Biological Proccess BP):是指具有多个步骤的有序生物过程,细胞生长、分化、维持、凋亡以及信号传导过程。
KEGG Pathways富集分析
DAVID网页:DAVID: Functional Annotation Result Summary
完成了基因ID转换,点击①Start Analysis,返回Step2界面:
点击 ②Functional Annotation Tool(功能注释工具),进行基因富集分析
等待页面加载完毕,实际上已经完成了基因富集。
①Clear All 按钮,完成基因富集后,会自动勾选一些富集分析选项,例如GO分析会自动勾选BB,MF和BP三个富集分析;同时,Pathways会自动勾选KEGG库得到的通路富集分析,点击clear all 取消这些默认勾选
②Gene_Ontology 点击查看GO分析的富集结果
③Pathways 点击查看通路分析的富集结果(上传列表内的基因参与细胞内代谢、信号转导等通路的富集情况)
点击clear all -->点击Pathways-->勾选KEGG pathways-->点击下方的Functional Annotation Clustering 查看分析结果
①help and Manual 点击查看详细的说明(比如ease 是如何计算的)
②Similarity Term Overlap 3 挑选出Count > 3的条目
③ EASE 0.1 选择EASE得分大于0.1的条目(EASE score 就是列表中的P Value)
④ Bebjamini 勾选后,在列表中显示结果Bebjamini算法校正后的P Value,勾选其他如FDR显示相关的校正P Value
⑤ Enrichment Score 富集倍数,由基因比率/背景比率得到
⑥ 点击查看该簇基因和相关通路相关性的热图,绿色表示被报道过相关性,黑色表示尚未被报道相关性
点击右上方的download file 可以下载该列表的txt格式
在Help and manual里讲解的EASE score的算法:
2.2. EASE Score, a Modified Fisher Exact P-value
计算原始P Value的算法:
① List Total 是上传的list中带有功能注释的基因总数,Population Total是DAVID数据库内存储的带有功能注释的基因总数,List Hits 是在List Total中和这条Pathways有关的基因数目,Population Hits是在Population Total内和这条Pathways有关的基因数目。
用ease score算法计算校正后的P Value:
用R实现两个P value的计算:
计算的LH=11,LT=215,PH=93,PT=8156
#计算原始的P Value
> a=matrix(c(11,82,204,8156-215-82),nrow=2,byrow=T)
> a
[,1] [,2]
[1,] 11 82
[2,] 204 7859
> fisher.test(a)
Fisher's Exact Test for Count Data
data: a
p-value = 3.025e-05
#计算 EASE score
> a=matrix(c(11-1,82+1,204,8156-215-82),nrow=2,byrow=T)
> a
[,1] [,2]
[1,] 10 83
[2,] 204 7859
> fisher.test(a)
Fisher's Exact Test for Count Data
data: a
p-value = 0.0001513
明显,列表内的结果是这个p value的保留小数点后5位
计算 Enrichment score:
富集倍数由Fold Change列显示
list_ratio <-11/215 #计算列表基因比率
bg_ratio <- 93/8156 #计算背景比率
enrichment_score <- list_ratio/bg_ratio #计算富集倍数
> enrichment_score
[1] 4.486922
列表中的Fold change 是计算后结果的保留一位小数。
介绍Functional Annotation Chart
① clear all 去除所有的默认勾选
② 勾选 KEGG_PATHWAY,只查看KEGG PATHWAY的基因富集结果
③ 点击Functional Annotation Chart 查看KEGG数据库内匹配到的通路图表
① 上传的基因列表是网页提供的demolist2,所属的物质是人类,上传基因列表中,在david内匹配到的有372个
② 列表内在KEGG分析中匹配的所有基因数有215,和条目(term) transcriptional misregulation in cancer(癌症的转录失调通路)相关的基因有19个,点击term查看图表
图表内红色的表示我们上传基因内,和该通路transcriptional misregulation in cancer(癌症的转录失调通路)相关的基因。
图表下是一个展示参与该通路所有基因的表格,红色的是即参与通路由出现在上传列表内的基因。
KEGG分析结果可视化:
分析基因产物在细胞中活动的通路。
一般是选取前十多条更显著的数据进行可视化,太多的会导致图形较拥挤
Excel中处理kegg pathways分析数据文件:
1.将Term列的物种号码~基因注释劈开,取后面的基因注释组成新的一列description:
1.右键插入新建一列C
2.C1输入description
3.C2输入=right(B2,len(B2)-9) #B是term列
4.下拉C2列
2.筛选出PValue小于0.05的:
选中【PValue】列-->【排序和筛选】-->【筛选】-->点击【PValue】列上出现的 \
按钮【数字筛选】-->【小于】,输入0.05
3.计算PVlaue的负对数值-log10(PValue):
1.新建一列G
2.将G1输入为'-log10(PValue)' #不加''会变成#NAME?
3.在G2输入=-log10(E2) #E列是PValue列
4.下拉G2
利用前十多行的description列和count列进行绘制条柱图,图片dpi要大于300
利用前十多行的description列和-log10(FDR)进行绘制条形图,保存为矢量图
参考视频:
边栏推荐
猜你喜欢
CS5213芯片|HDMI to VGA转换头芯片资料分享
面试官:可以谈谈乐观锁和悲观锁吗
如何通过开源数据库管理工具 DBeaver 连接 TDengine
Shunted Self-Attention via Multi-Scale Token Aggregation
Flink优化的方方面面
抽象工厂模式
宝塔搭建实测-基于ThinkPHP5.1的wms进销存源码
同样月薪6K,为什么同事跳槽月薪翻倍,而你只涨了1000?
手把手教你干掉if else
【使用pyside2遇到的问题】This application failed to start because no Qt platform plugin could be initialized.
随机推荐
你离「TDengine 开发者大会」只差一条 SQL 语句!
牛客每日刷题之链表
任务四 机器学习库Scikit-learn
If the watermark according to how to realize the function
我用这一招让团队的开发效率提升了 100%!
在迁移测试中,源表、中间表、目标表的迁移规则
行业 SaaS 微服务稳定性保障实战
创建型模式 - 单例模式Singleton
win10桌面图标全部变成白色的怎么办
一群搞社区的人
wallys/new product/WiFi6 MiniPCIe Module 2T2R 2×2.4GHz 2x5GHz MT7915 MT7975
如何通过开源数据库管理工具 DBeaver 连接 TDengine
最近公共祖先(LCA)学习笔记 | P3379 【模板】最近公共祖先(LCA)题解
若依如何实现添加水印功能
不堪哥哥殴打谩骂,妹妹申请人身安全保护令获支持
gdb调试简要总结
创建型模式 - 抽象工厂模式AbstractFactory
LeetCode 2359. 找到离给定两个节点最近的节点 基环树
【学习笔记】博弈论
Teach you how to kill if else