当前位置:网站首页>SRA数据下载方法总结
SRA数据下载方法总结
2022-07-30 05:38:00 【木若知】
SRA数据常用的下载方法
研究生了,对以往的知识进行一个复习和总结吧。
SRA数据库存储了现在主要高通量测序平台的原始测序数据和和比对信息,包括了SRA、EBI、DDBJ、JGI等数据库的信息。(这里分享一个小的知识点,现在可以不只依赖NCBI进行查找和下载,国家基因组科学数据中心(NGDC)官网 已经进行了整合)。对于NGDC数据库的使用在这里就暂时不细说了,看后面有没有必要吧,使用方法更加贴合中国人的习惯的。
言归正传,现在SRA数据的下载主要有以下5个方法:
1、NCBI官方提供的SRA Toolkit工具进行下载;
2、通过链接直接下载;
3、aspera 高速下载;
4、grabseqs 工具下载;
5、运用python爬虫等工具进行辅助下载。
1、SRA Toolkit下载数据
1.1、工具的下载和配置
在ncbi官网上选择合适版本进行下载SRA Toolkit。
1.2、工具环境的配置
我这里使用windows系统进行示例。下载好后解压到本地。然后进行环境配置。具体操作如下:win+R,输入sysdm.cpl,在“高级”界面下点击环境变量,点击系统变量中的path,点击编辑,将存放sratoookit的路径复制粘贴进去,点击确定。


在电脑上进行试运行,解决其他问题。使用管理员权限打开cmd,到存放的路径下,输入bin\prefetch.exe,然后根据提示再输入vdb-config --interactive,按X退出。就可以正常使用了。
cd 360download\sratoolkit.2.11.1-win64\
bin\prefetch.exe
vdb-config --interactive
bin\prefetch.exe -h

1.3、SRA Toolkit使用方法
下载单个数据只需要运行如下代码即可:
prefeth SRR4045218 -O output #output为数据输出路径
批量进行下载时,需提前准备好相关数据的SRR编号的TXT文件。运行代码即可。
prefetch -O output --option-file SRR_Acc_List.txt

2、链接下载
通过数据库查找对应SRR号可以获取数据链接。一般都显示在“Data access”界面下。
或者也可以使用SRA Toolkit中的srapath工具获取链接。
srapath SRR4045218
获取链接后可进行以下选择:
1、直接点击链接下载,但是会很慢;
2、使用wget工具进行下载,代码如下;
wget -c -t 0 -O SRR4045218.sra https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos3/sra-pub-run-19/SRR4045218/SRR4045218.1
#-c -t 配合使用可以防止下载数据的过程中链接中断的问题,-O则可以指定下载路径和文件名。
3、aspera下载数据
aspera的使用方法就不在这里叙述了,无论是官网的使用说明或者其他博客上都会有很多,大家自己去看吧。我就只分享一下使用的代码。
下载单个数据:
ascp -T -i <path>/asperaweb_id_dsa.openssh -k 1 -l 200m [email protected]:/sra/sra-instant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra ./

批量下载数据;准备链接索引文件(sra_list.txt),运行以下代码:
ascp -T -i <path>//asperaweb_id_dsa.openssh -k 1 -l 200m --mode recv --host ftp-private.ncbi.nlm.nih.gov --user anonftp --file-list ./sra_list.txt ./
4、grabseqs下载数据
第四种下载方式的优势在于可以直接将下载的sra数据直接转换为fastq文件。该软件基于python3,可使用pip安装。
#安装
pip3 install grabseqs
#下载数据
grabseqs sra -t 6 SRR000000 SRP000000 PRJNA000000
到这里主要的方法就介绍完了,但是需要注意的是.sra格式是无法直接使用的,需要转换为fastq格式。一般使用fastq-dump --gzip --split-files SRR000000.sra进行转换。
5、其他工具辅助下载
科研就是去认知本质,不断进步。我们有了这么多的工具进行数据下载,但我们任然可以进行优化,更方便快捷的使用以利于更好的得到实验结果。比如使用爬虫爬取链接,自动生成索引文件,自动进行下载转换等。
学无止境,勇于尝试,才能不断突破。
最后
终于是写完了我研究生生活的第一篇文章,拖了三天,最后在中秋佳节写完了。身份的突然转换,总是让我有些迷茫。加油吧!彩虹总是在风雨之后才会显现!!!
边栏推荐
- Mysql8.+学习笔记
- PyCharm使用教程(较详细,图+文)
- MySQL索引从入门到深入学习
- Solve the problem that the local nacos is not configured but the localhost8848 connection exception always occurs
- postman 请求 post 调用 传 复合 json数据
- MySQL user authorization
- navicat连接MySQL报错:1045 - Access denied for user ‘root‘@‘localhost‘ (using password YES)
- [GLib] 什么是GType
- Teach you how to design a CSDN system
- [Mysql] DATEDIFF function
猜你喜欢

Mysql8.+学习笔记
![[Other] DS5](/img/20/6863bb7b58d2e60b35469ba32e5830.png)
[Other] DS5

Error: listen EADDRINUSE: address already in use 127.0.0.1:3000
![[GO Language Basics] 1. Why do I want to learn Golang and the popularization of GO language entry](/img/ac/80ab67505f7df52d92a206bc3dd50e.png)
[GO Language Basics] 1. Why do I want to learn Golang and the popularization of GO language entry

JVM 内存结构 超详细学习笔记(一)

留念 · 大学时代最后的系统设计图

MySQL fuzzy query performance optimization

微信小程序开发学习

【小程序项目开发 -- 京东商城】uni-app 商品分类页面(下)

St. Regis Takeaway Project: New dishes and dishes paged query
随机推荐
Numpy 中 np.vstack() 和 np.hstack() 简单解析
MySQL Soul 16 Questions, how many questions can you last?
【Koltin Flow(二)】Flow操作符之末端操作符
JVM之GC 调优工具 Arthas 实战使用(二)
1475. 商品折扣后的最终价格
【Koltin Flow(一)】五种创建flow的方式
图形镜像对称(示意图)
如何使用FirewallD限制网络访问
MySQL(4)
应用实践 | Apache Doris 在百度智能云计费账单系统的应用实践
MySQL 数据库基础知识(系统化一篇入门)
Personal blog system (with source code)
G巴士计数(Google Kickstart2014 Round D Problem B)(DAY 89)
机器学习—梯度下降Gradient Descent Optimization—c语言实现
MySQL的 DDL和DML和DQL的基本语法
Navicat new database
成绩排序(华中科技大学考研机试题)(DAY 87)
MySql模糊查询大全
MySQL索引从入门到深入学习
质数(清华大学机试题)(DAY 86)