当前位置:网站首页>WGCNA分析基本教程总结
WGCNA分析基本教程总结
2022-07-04 20:17:00 【科研小工努力搬砖】
WGCNA R包官网教程:
WGCNA: R package for performing Weighted Gene Co-expression Network Analysis
相关文章:
WGCNA: an R package for weighted correlation network analysis | BMC Bioinformatics | Full Text
加权基因共表达网络分析
Weighted correlation network analysis (WGCNA)
基于相关系数的网络分析方法,适用于多样品数据中,样本越多分析越稳定。描述不同样品之间基因关联模式的系统生物学方法。
可用于发现高度相关基因的簇(模块),使用模块特征基因或模块内枢纽基因总结此类簇,将模块与外部样本性状相互关联(使用特征基因网络方法),来度量模块成员分布,进而用于识别候选生物标记物或治疗靶点。
WGCNA优点:①充分利用了信息,利用数千或近万个变化最大的基因或全部基因的信息识别感兴趣的基因集,并与表型进行显著性关联分析;②把数千个基因与表型的关联转换为数个基因集与表型的关联,免去了多重假设检验校正的问题。
共表达网络(加权基因网络):点代表基因,边代表基因表达相关性。加权是指对相关性值进行冥次运算 (冥次的值也就是软阈值 (power, pickSoftThreshold这个函数所做的就是确定合适的power))。软阈值的筛选原则是使构建的网络更符合无标度网络特征。如果没有合适的power,一般是由于部分样品与其它样品因为某种原因差别太大导致的。解决办法:移除部分样品/查看经验值 。
无向网络的边属性计算方式为 abs(cor(genex, geney)) ^ power
;有向网络的边属性计算方式为 (1+cor(genex, geney)/2) ^ power
; sign hybrid的边属性计算方式为cor(genex, geney)^power if cor>0 else 0。
Module(模块):高度內连的基因集。在无向网络中,模块内是高度相关的基因。在有向网络中,模块内是高度正相关的基因。
把基因聚类成模块后,可以对每个模块进行三个层次的分析:
1
. 功能富集分析(GO/KEGG/GSEA)查看其功能特征是否与研究目的相符;
2
. 模块与性状进行关联分析,找出与关注性状相关度最高的模块;
3
. 模块与样本进行关联分析,找到样品特异高表达的模块。
Connectivity (连接度):类似于网络中 “度” (degree)的概念。每个基因的连接度是与其相连的基因的边属性之和
。
Module eigengene E: 给定模型的第一主成分,代表整个模型的基因表达谱。
Intramodular connectivity: 给定基因与给定模型内其他基因的关联度,判断基因所属关系。
Module membership: 给定基因表达谱与给定模型的eigengene的相关性。
Adjacency matrix (邻接矩阵):基因和基因之间的加权相关性值构成的矩阵。
TOM (Topological overlap matrix):把邻接矩阵转换为拓扑重叠矩阵,以降低噪音和假相关,获得的新距离矩阵,这个信息可拿来构建网络或绘制TOM图。
基本分析流程:
构建基因共表达网络:使用加权的表达相关性。
识别基因集:基于加权相关性,进行层级聚类分析,并根据设定标准切分聚类结果,获得不同的基因模块,用聚类树的分枝和不同颜色表示。
如果有表型信息,计算基因模块与表型的相关性,鉴定性状相关的模块。
研究模型之间的关系,从系统层面查看不同模型的互作网络。
从关键模型中选择感兴趣的驱动基因,或根据模型中已知基因的功能推测未知基因的功能。
导出TOM矩阵,绘制相关性图。
具体实战可按照链接中的文章复现进行操作,以熟悉流程。
输入数据格式:
1、基因表达矩阵:基因在行,样品在列。可使用Deseq2中varianceStabilizingTransformation
或log2(x+1)
对标准化后的数据做个转换。如果数据来自不同的批次,需要先移除批次效应 (记得上次转录组培训课讲过如何操作)。如果数据存在系统偏移,需要做下quantile normalization
。或者normalizeBetweenArrays()。
2、性状矩阵:必须是数值的连续型或者分类型(0/1)。
3、无向网络在power小于15
或有向网络power小于30
内,没有一个power值可以使无标度网络图谱结构R^2达到0.8或平均连接度降到100以下,可能是由于部分样品与其他样品差别太大造成的。这可能由批次效应
、样品异质性
或实验条件对表达影响太大
等造成, 可以通过绘制样品聚类查看分组信息、关联批次信息、处理信息和有无异常样品如果这确实是由有意义的生物变化引起的,也可以使用经验power值
参考文献:
边栏推荐
猜你喜欢
Redis:Redis配置文件相关配置、Redis的持久化
Foxit pdf editor v10.1.8 green version
Understand Alibaba cloud's secret weapon "dragon architecture" in the article "science popularization talent"
[1200. Différence absolue minimale]
华为ensp模拟器 实现多个路由器的设备可以相互访问
华为ensp模拟器 给路由器配置DHCP
MySQL --- 数据库查询 - 聚合函数的使用、聚合查询、分组查询
哈希表、哈希函数、布隆过滤器、一致性哈希
admas零件名重复
网件r7000梅林系统虚拟内存创建失败,提示USB磁盘读写速度不满足要求解决办法,有需要创建虚拟内存吗??
随机推荐
6月“墨力原创作者计划”获奖名单公布!邀您共话国产数据库
吐槽 B 站收费,是怪它没钱么?
Play the music of youth
华为ensp模拟器 DNS服务器的配置
网件r7000梅林系统5g不稳定 5g信号经常掉线解决方法
The concept and application of hash table
华为ensp模拟器 给路由器配置DHCP
数十亿公民信息遭泄漏!公有云上的数据安全还有“救”吗?
卷积神经网络在深度学习中新发展的5篇论文推荐
接口设计时的一些建议
黄金k线图中的三角形有几种?
How to solve the problem that win11 cannot write the value to the registry key?
[1200. Différence absolue minimale]
华为模拟器ensp的路由配置以及连通测试
【Try to Hack】宽字节注入
Foxit pdf editor v10.1.8 green version
杰理之AD 系列 MIDI 功能说明【篇】
Test case (TC)
admas零件名重复
扩展你的KUBECTL功能