当前位置:网站首页>WGCNA分析基本教程总结

WGCNA分析基本教程总结

2022-07-04 20:17:00 科研小工努力搬砖

WGCNA R包官网教程:

WGCNA: R package for performing Weighted Gene Co-expression Network Analysis

相关文章:

WGCNA: an R package for weighted correlation network analysis | BMC Bioinformatics | Full Text

加权基因共表达网络分析

Weighted correlation network analysis (WGCNA)

基于相关系数的网络分析方法,适用于多样品数据中,样本越多分析越稳定。描述不同样品之间基因关联模式的系统生物学方法。

可用于发现高度相关基因的簇(模块),使用模块特征基因或模块内枢纽基因总结此类簇,将模块与外部样本性状相互关联(使用特征基因网络方法),来度量模块成员分布,进而用于识别候选生物标记物或治疗靶点。

WGCNA优点:①充分利用了信息,利用数千或近万个变化最大的基因或全部基因的信息识别感兴趣的基因集,并与表型进行显著性关联分析;②把数千个基因与表型的关联转换为数个基因集与表型的关联,免去了多重假设检验校正的问题。

共表达网络(加权基因网络):点代表基因,边代表基因表达相关性。加权是指对相关性值进行冥次运算 (冥次的值也就是软阈值 (power, pickSoftThreshold这个函数所做的就是确定合适的power))。软阈值的筛选原则是使构建的网络更符合无标度网络特征。如果没有合适的power,一般是由于部分样品与其它样品因为某种原因差别太大导致的。解决办法:移除部分样品/查看经验值 。

        无向网络的边属性计算方式为 abs(cor(genex, geney)) ^ power;有向网络的边属性计算方式为 (1+cor(genex, geney)/2) ^ power; sign hybrid的边属性计算方式为cor(genex, geney)^power if cor>0 else 0。

Module(模块):高度內连的基因集。在无向网络中,模块内是高度相关的基因。在有向网络中,模块内是高度正相关的基因。

       把基因聚类成模块后,可以对每个模块进行三个层次的分析:

   1. 功能富集分析(GO/KEGG/GSEA)查看其功能特征是否与研究目的相符;

   2. 模块与性状进行关联分析,找出与关注性状相关度最高的模块;

   3. 模块与样本进行关联分析,找到样品特异高表达的模块。

Connectivity (连接度):类似于网络中 “度” (degree)的概念。每个基因的连接度是与其相连的基因的边属性之和

Module eigengene E: 给定模型的第一主成分,代表整个模型的基因表达谱

Intramodular connectivity: 给定基因与给定模型内其他基因的关联度,判断基因所属关系。

Module membership: 给定基因表达谱与给定模型的eigengene的相关性。

Adjacency matrix (邻接矩阵):基因和基因之间的加权相关性值构成的矩阵。

TOM (Topological overlap matrix):把邻接矩阵转换为拓扑重叠矩阵,以降低噪音和假相关,获得的新距离矩阵,这个信息可拿来构建网络或绘制TOM图。

基本分析流程:

  1. 构建基因共表达网络:使用加权的表达相关性。

  2. 识别基因集:基于加权相关性,进行层级聚类分析,并根据设定标准切分聚类结果,获得不同的基因模块,用聚类树的分枝和不同颜色表示。

  3. 如果有表型信息,计算基因模块与表型的相关性,鉴定性状相关的模块。

  4. 研究模型之间的关系,从系统层面查看不同模型的互作网络。

  5. 从关键模型中选择感兴趣的驱动基因,或根据模型中已知基因的功能推测未知基因的功能。

  6. 导出TOM矩阵,绘制相关性图。

 具体实战可按照链接中的文章复现进行操作,以熟悉流程。

输入数据格式:

1、基因表达矩阵:基因在行,样品在列。可使用Deseq2中varianceStabilizingTransformationlog2(x+1)对标准化后的数据做个转换。如果数据来自不同的批次,需要先移除批次效应 (记得上次转录组培训课讲过如何操作)。如果数据存在系统偏移,需要做下quantile normalization。或者normalizeBetweenArrays()。

2、性状矩阵:必须是数值的连续型或者分类型(0/1)。

3、无向网络在power小于15或有向网络power小于30内,没有一个power值可以使无标度网络图谱结构R^2达到0.8或平均连接度降到100以下,可能是由于部分样品与其他样品差别太大造成的。这可能由批次效应样品异质性实验条件对表达影响太大等造成, 可以通过绘制样品聚类查看分组信息、关联批次信息、处理信息和有无异常样品如果这确实是由有意义的生物变化引起的,也可以使用经验power

参考文献:

WGCNA分析,简单全面的最新教程 – 天下

文章复现 | WGCNA算法识别肾透明细胞癌CD8T细胞浸润相关关键基因 - 简书

原网站

版权声明
本文为[科研小工努力搬砖]所创,转载请带上原文链接,感谢
https://blog.csdn.net/weixin_57699783/article/details/125554013