当前位置:网站首页>SRA数据下载方法总结
SRA数据下载方法总结
2022-07-30 05:38:00 【木若知】
SRA数据常用的下载方法
研究生了,对以往的知识进行一个复习和总结吧。
SRA数据库存储了现在主要高通量测序平台的原始测序数据和和比对信息,包括了SRA、EBI、DDBJ、JGI等数据库的信息。(这里分享一个小的知识点,现在可以不只依赖NCBI进行查找和下载,国家基因组科学数据中心(NGDC)官网 已经进行了整合)。对于NGDC数据库的使用在这里就暂时不细说了,看后面有没有必要吧,使用方法更加贴合中国人的习惯的。
言归正传,现在SRA数据的下载主要有以下5个方法:
1、NCBI官方提供的SRA Toolkit工具进行下载;
2、通过链接直接下载;
3、aspera 高速下载;
4、grabseqs 工具下载;
5、运用python爬虫等工具进行辅助下载。
1、SRA Toolkit下载数据
1.1、工具的下载和配置
在ncbi官网上选择合适版本进行下载SRA Toolkit。
1.2、工具环境的配置
我这里使用windows系统进行示例。下载好后解压到本地。然后进行环境配置。具体操作如下:win+R,输入sysdm.cpl,在“高级”界面下点击环境变量,点击系统变量中的path,点击编辑,将存放sratoookit的路径复制粘贴进去,点击确定。


在电脑上进行试运行,解决其他问题。使用管理员权限打开cmd,到存放的路径下,输入bin\prefetch.exe,然后根据提示再输入vdb-config --interactive,按X退出。就可以正常使用了。
cd 360download\sratoolkit.2.11.1-win64\
bin\prefetch.exe
vdb-config --interactive
bin\prefetch.exe -h

1.3、SRA Toolkit使用方法
下载单个数据只需要运行如下代码即可:
prefeth SRR4045218 -O output #output为数据输出路径
批量进行下载时,需提前准备好相关数据的SRR编号的TXT文件。运行代码即可。
prefetch -O output --option-file SRR_Acc_List.txt

2、链接下载
通过数据库查找对应SRR号可以获取数据链接。一般都显示在“Data access”界面下。
或者也可以使用SRA Toolkit中的srapath工具获取链接。
srapath SRR4045218
获取链接后可进行以下选择:
1、直接点击链接下载,但是会很慢;
2、使用wget工具进行下载,代码如下;
wget -c -t 0 -O SRR4045218.sra https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos3/sra-pub-run-19/SRR4045218/SRR4045218.1
#-c -t 配合使用可以防止下载数据的过程中链接中断的问题,-O则可以指定下载路径和文件名。
3、aspera下载数据
aspera的使用方法就不在这里叙述了,无论是官网的使用说明或者其他博客上都会有很多,大家自己去看吧。我就只分享一下使用的代码。
下载单个数据:
ascp -T -i <path>/asperaweb_id_dsa.openssh -k 1 -l 200m [email protected]:/sra/sra-instant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra ./

批量下载数据;准备链接索引文件(sra_list.txt),运行以下代码:
ascp -T -i <path>//asperaweb_id_dsa.openssh -k 1 -l 200m --mode recv --host ftp-private.ncbi.nlm.nih.gov --user anonftp --file-list ./sra_list.txt ./
4、grabseqs下载数据
第四种下载方式的优势在于可以直接将下载的sra数据直接转换为fastq文件。该软件基于python3,可使用pip安装。
#安装
pip3 install grabseqs
#下载数据
grabseqs sra -t 6 SRR000000 SRP000000 PRJNA000000
到这里主要的方法就介绍完了,但是需要注意的是.sra格式是无法直接使用的,需要转换为fastq格式。一般使用fastq-dump --gzip --split-files SRR000000.sra进行转换。
5、其他工具辅助下载
科研就是去认知本质,不断进步。我们有了这么多的工具进行数据下载,但我们任然可以进行优化,更方便快捷的使用以利于更好的得到实验结果。比如使用爬虫爬取链接,自动生成索引文件,自动进行下载转换等。
学无止境,勇于尝试,才能不断突破。
最后
终于是写完了我研究生生活的第一篇文章,拖了三天,最后在中秋佳节写完了。身份的突然转换,总是让我有些迷茫。加油吧!彩虹总是在风雨之后才会显现!!!
边栏推荐
- Navicat connection MySQL error: 1045 - Access denied for user 'root'@'localhost' (using password YES)
- 2022年SQL经典面试题总结(带解析)
- MySQL Soul 16 Questions, how many questions can you last?
- navicat无法连接mysql超详细处理方法
- net start mysql MySQL service is starting. MySQL service failed to start.The service did not report any errors.
- My first understanding of MySql, and the basic syntax of DDL and DML and DQL in sql statements
- JVM之GC 调优基础知识(一)
- MySQL的 DDL和DML和DQL的基本语法
- [Mysql] CONVERT function
- Summary of SQL classic interview questions in 2022 (with analysis)
猜你喜欢

分布式事务之 Seata框架的原理和实战使用(三)

Solve the problem that the local nacos is not configured but the localhost8848 connection exception always occurs

mysql time field is set to current time by default

JVM之GC 调优工具 Arthas 实战使用(二)

The use of Conluce, an online document management system

2022年比若依更香的开源项目

MySQL的存储过程

Programmers make money and practice, teach you how to do paid courses, self-media, paid articles and paid technical courses to make money

SOA(面向服务架构)是什么?

每日练习------输出一个整数的二进制数、八进制数、十六进制数。
随机推荐
[Mysql] DATEDIFF function
839. 模拟堆
Different usage scenarios of subqueries as retrieval tables and the question of whether to add aliases
Summary of SQL classic interview questions in 2022 (with analysis)
MySQL-Explain详解
mysql高阶语句(一)
MySQL 有这一篇就够(呕心狂敲37k字,只为博君一点赞!!!)
MySql fuzzy query Daquan
SOA(面向服务架构)是什么?
PyCharm usage tutorial (more detailed, picture + text)
Seata exception: endpoint format should like ip:port
解决phpstudy无法启动MySQL服务
Ranking of grades (Huazhong University of Science and Technology postgraduate examination questions) (DAY 87)
安装Nuxt.js时出现错误:TypeError:Cannot read property ‘eslint‘ of undefined
75. 颜色分类
【飞控开发基础教程9】疯壳·开源编队无人机-PWM(电机控制)
[其他] DS5
G巴士计数(Google Kickstart2014 Round D Problem B)(DAY 89)
ClickHouse data insert, update and delete operations SQL
MySQL 灵魂 16 问,你能撑到第几问?