当前位置:网站首页>跟着存档教程动手学RNAseq分析(二)
跟着存档教程动手学RNAseq分析(二)
2022-06-27 19:57:00 【王诗翔呀】
了解RNA提取和RNA- seq文库制备的实验过程中的步骤有助于设计RNA- seq实验,但有一些特殊的考虑因素需要强调,这些因素会极大地影响差异表达分析的质量。
这些重要的考虑包括:
- 重复的数目和重复的类型
- 避免混淆
- 解决批次效应
我们将详细讨论这些考虑事项,讨论最佳实践和最佳设计。
重复
实验的重复可以通过技术重复或生物学重复的方式进行。
img
Image credit:Klaus B., EMBO J (2015)34: 2727-2730[1]
- 技术重复:使用相同的生物样本重复技术或实验步骤,以便准确测量技术变异并在分析过程中去除。
- 生物学重复:使用相同条件下的不同生物样本,测量样本之间的生物变异。
在微阵列芯片时代,技术重复被认为是必要的;然而,在目前的RNA-Seq技术中,技术变异远低于生物变异,不需要技术重复。
相反,生物重复对于差异表达分析是绝对必要的。对小鼠或大鼠来说,确定不同的生物样本的组成可能很容易,但确定细胞系就有点困难了。这篇文章[2]对细胞系重复给出了一些非常好的建议。
对于差异表达分析,生物重复越多,对生物变异的估计就越好,对平均表达水平的估计也越精确。这导致我们的数据更准确的建模和识别更多的差异表达基因。
img
Image credit:Liu, Y., et al., Bioinformatics (2014)30(3): 301–304[3]
如上图所示,生物重复比测序深度更重要,测序深度是每个样本的总reads数。图中显示了测序深度与重复个数对差异表达基因个数的关系。值得注意的是,重复次数的增加往往比测序深度的增加返回更多的DE基因。因此,通常更多的重复比更高的测序深度更好,但需要注意的是,检测低表达的DE基因和执行转录本水平差异表达需要更高的深度。
为了确保重复之间的变化量相似,你可能希望为每个实验组设置相同的实验个体。
例如,如果你需要至少3个人来为你的对照重复获得足够的材料,至少5个人来为你的治疗重复获得足够的材料,你就可以将从对照组(3个)提取5次实验结果(就是额外从3个个体中再取2次做技术重复)。当然,你也要确保在这两种情况下汇集的个体在性别、年龄等方面是相似的。
对于批量RNA-Seq,重复几乎总是优先于更大的测序深度。然而,指导方针取决于所进行的实验和所需的分析。下面我们列出了一些关于重复和测序深度的一般指南,以帮助进行实验规划:
- 一般基因水平差异表达:
- ENCODE指南建议每个样本3千万单端reads。
- 如果有好的重复(>3),那么每个样本通常1500万reads也是足够的。
- 如果可能,花更多钱用于生物学重复。
- 通常建议reads长度>=50bp。
- 基因水平差异表达,想要检测低表达基因:
- 相似地,生物学重复比测序深度重要。
- 根据表达水平的不同,测序深度至少为3000 - 6000万次reads(从3000万次开始,重复的数量最大)。
- 通常建议reads长度>=50bp。
- Isoform-level差异表达分析:
- 对于已知的isoforms,建议每个样品至少有3000万reads且配对。
- 研究新的isoform需要更大的深度(6千万reads)。
- 还是那句话,生物学重复更重要。
- read长度越长越好。
- 对RNA质量进行细致的质量控制。注意使用高质量的制备方法,并限制对高质量的RIN样品进行分析。
- 其他类型的RNA分析(内含子,小RNA-seq等):
- 根据具体情况设定。
- 生物学重复越多越好。
注意:用于估计基因组测序深度的因子是“覆盖率”——被测序的核苷酸的数量“覆盖”基因组的次数。这个度量对于基因组(全基因组测序)来说不是精确的,但它已经足够好了,并且被广泛使用。然而,该指标不适用于转录组,因为即使你可能知道基因组中有多少%具有转录活性,基因的表达也是高度可变的。
混杂因素
一种被混淆的RNA-Seq实验是你无法区分数据中两种不同来源变异的单独的效应。
例如,我们知道性别对基因表达有很大的影响,如果我们所有的控制组小鼠都是雌性,而所有的治疗组小鼠都是雄性,那么我们的治疗效果就会被性别所混淆。我们不能把治疗的效果和性别的效果区分开来。
img
为了避免混淆因素:
- 如果可能的话,确保每种情况下的动物都是相同性别、年龄、产仔和批次的。
- 如果不可能,那么确保在不同条件下平均分配动物。
img
批次效应
批处理效应是RNA-Seq分析的一个重要问题,因为你可以看到仅由于批处理效应在表达上的显著差异。
img
Image credit:Hicks SC, et al., bioRxiv (2015)[4]
为了探索劣质批研究设计所产生的问题,这篇文章[5]重点强调了这些问题。
如何知道你是否有批次?
- 所有的RNA分离都在同一天进行吗?
- 所有文库的准备工作都在同一天进行吗?
- 对所有样本进行RNA分离/文库准备的是同一个人吗?
- 你对所有样本都使用了相同的试剂吗?
- 你是在同一地点进行RNA分离/文库制备的吗?
如果有任何一个答案是“不”,那么你就有批次效应。
有关批次效应的最佳处理策略:
- 如果可能的话,以避免分批的方式设计实验。
- 如果无法避免批次:
- 不要被批次混淆你的实验:
img
Image credit:Hicks SC, et al., bioRxiv (2015)[6]
- 将不同样本组的重复拆分为多个批次。重复的越多越好(肯定多于2个)。
img
- 在实验元数据中包含批处理信息。在分析过程中,如果没有混淆,我们可以回归出由于批处理而产生的变化,因此如果我们有这些信息,它不会影响我们的结果。
img
注:细胞系“生物”重复的样品制备“应尽可能独立进行”(成批),“这意味着细胞培养基应为每次实验新鲜制备,应使用不同的冷冻细胞储备和生长因子批次等。”然而,所有条件下的准备工作应该同时进行。
参考资料
[1]
Klaus B., EMBO J (2015)34: 2727-2730: https://dx.doi.org/10.15252%2Fembj.201592958
[2]
这篇文章: http://paasp.net/accurate-design-of-in-vitro-experiments-why-does-it-matter/
[3]
Liu, Y., et al., Bioinformatics (2014)30(3): 301–304: https://doi.org/10.1093/bioinformatics/btt688
[4]
Hicks SC, et al., bioRxiv (2015): https://www.biorxiv.org/content/early/2015/08/25/025528
[5]
这篇文章: https://f1000research.com/articles/4-121/v1
[6]
Hicks SC, et al., bioRxiv (2015): https://www.biorxiv.org/content/early/2015/08/25/025528
边栏推荐
- 九九乘法表——C语言
- CDH集群之YARN性能调优
- 最虚的华人首富更虚了
- This set of steps for performance testing using JMeter includes two salary increases and one promotion
- Memoirs of actual combat: breaking the border from webshell
- mysql 大于 小于 等于符号的表示方法
- Flask application case
- [MySQL practice] query statement demonstration
- 使用sqlite3语句后出现省略号 ... 的解决方法
- 【你真的会用ES吗】ES基础介绍(二)
猜你喜欢

Fill in the blank of rich text test

Professor of Tsinghua University: software testing has gone into a misunderstanding - "code is necessary"

“顶流爱豆制造机”携手四个产业资本,做LP

对话乔心昱:用户是魏牌的产品经理,零焦虑定义豪华

Yolov6: the fast and accurate target detection framework is open source

How to participate in openharmony code contribution

Test birds with an annual salary of 50w+ are using this: JMeter script development -- extension function
扁平数组和JSON树的转换

netERR_ CONNECTION_ Refused solution

Workflow automation low code is the key
随机推荐
Windwos 8.1系统安装vmware tool插件报错的解决方法
个人TREE ALV 模版-加快你的开发
《7天學會Go並發編程》第7天 go語言並發編程Atomic原子實戰操作含ABA問題
对话乔心昱:用户是魏牌的产品经理,零焦虑定义豪华
How to participate in openharmony code contribution
[cloud based co creation] what is informatization? What is digitalization? What are the connections and differences between the two?
元气森林的5元有矿之死
Kill the general and seize the "pointer" (Part 2)
结构化机器学习项目(二)- 机器学习策略(2)
Oracle obtains the beginning and end of the month time, and obtains the beginning and end of the previous month time
About the SQL injection of davwa, errors are reported: analysis and verification of the causes of legal mix of settlements for operation 'Union'
CUDA error:out of memory caused by insufficient video memory of 6G graphics card
Consumer finance app user insight in the first quarter of 2022 - a total of 44.79 million people
Is it safe to open a stock account through the account opening link given by the CICC securities manager? I want to open an account
Is it safe for GF futures to open an account?
九九乘法表——C语言
MONTHS_ Between function use
Educational Codeforces Round 108 (Rated for Div. 2)
Management system itclub (medium)
How many ways does selenium upload files? I don't believe you have me all!