使用NCBI做BLAST,我应该选择哪个Database-技术前沿-资讯-生物在线

使用NCBI做BLAST,我应该选择哪个Database

作者:上海吉凯基因医学科技股份有限公司 2020-02-13T12:34 (访问量:6646)

NCBI (National Center for Biotechnology Information) 由美国国立卫生研究院(NIH)于1988年创办,创办NCBI的初衷是为了给分子生物学家提供一个信息储存和处理的系统。除了建有GenBank核酸序列数据库(该数据库的数据资源来自全球几大DNA数据库,其中包括日本DNA数据库DDBJ、欧洲分子生物学实验室数据库EMBL以及其它几个知名科研机构)之外,NCBI还可以提供众多功能强大的数据检索与分析工具。其中NCBI提供的BLAST工具相信访问过NCBI的每个科学研究人员都用过该序列比对工具,但是在使用BLAST工具进行序列比对时,往往都要选择一个Database进行比对,那如何选择呢?
BLAST工具一:Nucleotide BLAST


Nucleotide BLAST核苷酸与核苷酸比对工具,进行比对时,选择Standard database中具体哪一种database进行比对呢?每种database都包含哪些序列信息呢?


  1. Nucleotide collection(nr/nt)

Database描述:包含了除ESTSTSGSSWGSTSApatentHTGS以及长度超过100Mb序列以外的包含在GenBankEMBLDDBJPDBRefSeq中的所有序列。
使用环境:未知序列,在不清楚序列物种,序列来源,序列类型的情况下可优先考虑
序列类型:mixed DNA
更新时间:2019/10/03
序列数量:55908648

  1. Reference RNA sequences(refseq_rna)

Database描述:包含了refseq数据库中的NM_NR_XM_XR_序列记录,区别于Refseq mRNA
使用环境:知道序列对应的基因名称,可以考虑选择该Database进行序列比对
序列类型:cDNA
更新时间:2019/09/26
序列数量:33713514

  1. RefSeq Representative Genome Database

Database描述:该数据库以最小冗余度建立,包含了从NCBI Refseq基因组数据库中选择的参考和代表基因组,其结果是该数据库中的基因组是NCBI提供的质量好的基因组序列信息。对于真核生物,每个生物仅包含一个基因组。但是,对于其他生物,可能包括来自同一生物(例如大肠杆菌)的不同分离株的多个基因组
使用环境:判断序列大概有几个外显子组成,或者某段序列在基因组中的位置,方向等
序列类型:Genomic
更新时间:2015/09/30
序列数量:13454918

  1. RefSeq Genome Database(refseq_genomes)

Database描述:包含了所有分类物种的NCBI Refseq基因组序列。它仅包含顶层(top-level)序列,即仅包含代表基因组任何给定部分的最长序列虽然包含组装的染色体序列,但用于组装此染色体序列的任何较短序列例如重叠群(contigs)不包括在内。
使用环境:判断序列大概有几个外显子组成,或者某段序列在基因组中的位置,方向等
序列类型:Genomic
更新时间:2016/12/14
序列数量:33120025

BLAST工具二:Primer-BLAST
对于Standard database的介绍就到这里,NCBI中还有一类特殊比对工具,这里主要介绍Primer-BLAST比对工具中的各Database的区别。

  1. nr(Nucleotide collection)

Database描述:包含了除ESTSTSGSSWGSTSApatentHTGS以及长度超过100Mb序列以外的包含在GenBankEMBLDDBJPDBRefSeq中的所有序列。

2、Refseq mRNA
Database描述:只包含了NCBI Refseq 数据库中编码蛋白质的mRNA.

3、Refseq RNA
Database描述:包含了NCBI Refseq 数据库中编码蛋白质的mRNA和非编码RNA

Refseq mRNARefseq RNA区别:举例NCBI human GLYR1(Gene ID: 84656)有5个NM号,6个NR号,7个XM号,4个XR号。在使用AGTCGTCTCAACCTGCGACATGCCGCTAAGATCACCAACATC这对qPCR引物进行比对,结果为:
如果选择Refseq mRNA比对,只能比对到5个NM号和7个XM号
如果选择Refseq RNA比对,比对到5个NM号,6个NR号,7个XM号,4个XR号。

4、Refseq representative genomes
Database描述:该数据库以最小冗余度建立,包含了从NCBI Refseq基因组数据库中选择的参考和代表基因组,其结果是该数据库中的基因组是NCBI提供的质量好的基因组序列信息。

  1. Genomes for selected organisms (primary reference assembly only)

Database描述:包含了来自主要染色体装配的完整或接近完整的基因组序列,可以选择限定的物种有:apis mellifera,bos taurus ,danio rerio,dog,drosophila melanogaster,gallus gallus,human,mouse,pan troglodytes,pig,rat

Refseq representative genomesGenomes for selected organisms (primary reference assembly only)的区别:前者完全包含后者,后者Genomes for selected organisms (primary reference assembly only)不包含替代基因组,因此比Refseq representative genomes数据库具有更少的冗余。如果您不考虑替代基因组或者线粒体序列,建议在进行qPCR引物特异性比对时推荐使用Genomes for selected organisms (primary reference assembly only)
总结:选择正确的,合适的Database能够让我们非常容易的分析结果,另外,Database选择不合适可能会导致错误的判读哦,后面大家在使用BLAST工具时如果碰到此种情况,建议更换Database重新比对试试。

上海吉凯基因医学科技股份有限公司 商家主页

地 址: 上海市浦东新区张江高科技园区爱迪生路332号

联系人:

电 话: 4006210302

传 真:

Email:service@genechem.com.cn

相关咨询
ADVERTISEMENT