SRA数据的下载以及在线blast--或许与你了解的不一样

-回复 -浏览
楼主 2019-01-15 16:13:41
举报 只看此人 收藏本贴 楼主

前面记不清哪个公众号推送过一篇小麦文章“Transcriptome Association Identifies Regulators of Wheat Spike Architecture”,当时因为他们已经推送,我们也就没有推送,这篇文章刚刚正式发表在Plant Physiology,作者是王元格和Haopeng Yu,通讯作者是焦雨铃教授和王向锋教授。放上摘要,有兴趣的可以去看看原文,这里就不在解读。

里边的数据NCBI已经释放,不过是在我的提醒下。这批数据是90份小麦微核心种质的穗部RNA_seq,实在急用,于是我就催了下,没成想还真成了(见下图),这里要给NCBI点个赞


那么如何下载这些数据呢?我们前面推送的文章也提到过,下图是NCBI推荐的使用方法,除了这些呢,今天推荐一个使用FTP下载的方法。

首先我们要知道下载数据的SRA编号,记住一定是SRR开头的名字(当然还有少部分是ERR或DRR开头的)。知道了名字,就知道了下载地址:

  1. ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR442/SRR4426191/SRR4426191.sra


每次下载需要修改的是下载网址的最后3部分,即:SRR442,SRR4426191,SRR4426191.sra。再比如我需要下载:SRR3589962,则下载网址是:

  1. ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR358/SRR3589962/SRR3589962.sra


有些了ftp的下载网址,就可以使用一些支持ftp协议的软件下载了,当然最好支持断点续传功能。

linux下或mac下可以使用wget, 如:

  1. wget -c ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR358/SRR3589962/SRR3589962.sra


我这里下载速度还挺快,大概维持在4.00MB/s。

最后再说一个非主流的下载方式,一般某个SRA编号的页面有这样的一个窗口,见下图(注意图中红框圈出的部分)


点击那个"Filtered Download"按钮,跳转至如下面,选择下载序列的格式,点击左下角的Download即可下载了。此种方法适用于少量数据的下载,当然还是推荐第一种方法。

其实提交到NCBI的SRA数据也是可以进行blast的,在常规blast页面,按照下图红框圈出的进行选择和填写即可。


这个blast应该都会用,现在只要知道区间,就可以知道区间内的基因,然后可以看看该基因在群体内的变异情况,开发标记等。


后期会对这些数据比对到中国春基因组上(IWGSCv1.0),然后call SNP,注释这些SNP,最后得到一个基于基因的SNP列表。希望能够通过查询基因的名字就能知道该基因在这些材料中的序列变异信息。当然使用RNA_seq进行这样的分析还是有缺点的,有些不在穗部表达的基因就检测不到,另外就是只能检测基因的外显子部分,基因的上下游检测不到。


分析过程我会做个记录,后面会推送比较详细的分析过程。


一定要学会使用这些发表的数据,不然就比别人out了!

一定要学会使用这些发表的数据,不然就比别人out了!

一定要学会使用这些发表的数据,不然就比别人out了!

重要的话一定要说三遍


长按下方二维码即可关注或支持我们


欢迎加群交流



我要推荐
转发到