NCBI使用方法

上传人:jiups****uk12 文档编号:39263685 上传时间:2018-05-13 格式:DOCX 页数:8 大小:32.32KB
返回 下载 相关 举报
NCBI使用方法_第1页
第1页 / 共8页
NCBI使用方法_第2页
第2页 / 共8页
NCBI使用方法_第3页
第3页 / 共8页
NCBI使用方法_第4页
第4页 / 共8页
NCBI使用方法_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《NCBI使用方法》由会员分享,可在线阅读,更多相关《NCBI使用方法(8页珍藏版)》请在金锄头文库上搜索。

1、王路敏 1 天NCBI 使用方法作者 : 郭亚雄 NCBI NCBI (National Center for Biotechnology Information), 美国国家生物技术信息中心http:/www.ncbi.nlm.nih.gov/ NCBI 是 NIH 的国立医学图书馆(NLM)的一个分支。NCBI 提供检索的服务包括:1GenBank(NIH 遗传序列数据库):一个可以公开获得所有的 DNA 序列的注释过的收集。GenBank是由 NCBI 受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(EMBL 和 DDBJ)交换数据建立起数据库的。它同

2、日本和欧洲分子生物学实验室的 DNA 数据库共同构成了国际核酸序列数据库合作。这三个组织每天交换数据。其中的数据以指数形式增长,最近的数据为它已经有来自 47000 个物种的 30 亿个碱基。2Molecular Databases(分子数据库):Nucleotide Sequence(核酸序列库):从 NCBI 其他如 Genbank 数据库中收集整理核酸序列,提供直接的检索。 Protein Sequence (蛋白质序列库):与核酸类似,也是从 NCBI 多个不同资源中编译整理的,方便研究者的直接查询。 Structure(结构)- 关于 NCBI 结构小组的一般信息和他们的研究计划,另

3、外也可以访问三维蛋白质结构的分子模型数据库(MMDB)和用来搜索和显示结构的相关工具。MMDB:分子模型数据库 一个关于三维生物分子结构的数据库,结构来自于 X-ray 晶体衍射和 NMR 色谱分析。 Taxonomy(分类学)NCBI 的分类数据库,包括大于 7 万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。3Literature Databases(文献数据库) (1)PubMed 是 NLM 提供的一项服务,能够对 MEDLINE 上超过 1200 万条的上世纪六十年代中期至今的杂志引用和其他的生命科学期刊进行

4、访问,并可以连接到参与的出版商网络站点的全文文章和其他相关资源。 (2)PMC/PubMed Center:也是 NLM 的生命科学期刊文献的数字化存储数据库,用户可以免费获取PMC 的文章全文,除了部分期刊要求对近期的文章付费。 (3)OMIM(孟德尔人类遗传):有关人类基因和无序基因的目录数据库由 Victor A.McKusick 和他的同事共同创造和编辑的,由 NCBI 网站负责开发,其中也包括对 MEDINE 众多资源和 Entrez 系统的序列记录,以及 NCBI 中其他有关资源的链接。(4)Books:NCBI 的书库不断收集生物医学方面的书籍,提供这些书籍的出版信息、摘要、目录

5、和全文的连接,用户可以直接在检索文本框内输入一个观念就可以查询。4NCBI 提供的附加的软件工具有:开放阅读框寻觅器(ORF Finder),电子 PCR,和序列提交工具 Sequin 和 BankIt。所有的 NCBI 数据库和软件工具可以从 WWW 或 FTP 来获得。NCBI 还有 E-mail 服务器,提供用文本搜索或序列相似搜索访问数据库一种可选方法。 NCBI 网站上还提供了一些诸如研究热点问题、研究小组情况、教育培训、联系方式等信息,还提供了到 NIH、NLM 等的链接。使用方法:用户可以免费登陆 NCBI 的网站,NCBI 为使用者提供了方便的检索系统和检索方法:1Entrez

6、 是 NCBI 为用户提供整合所有数据库的访问序列,定位,分类,和结构数据的搜索和检索工具系统,同时也提供序列和染色体图谱的图形视图。用户进入系统或者进入任意一个数据库,都会看到简单检索的界面,选择数据库输入关键词即可进行查询。Entrez 也提供条件限制和高级检索、布尔逻辑查询。使用新的 Linkout 服务,外部资源可以被链接到 Entrez 记录。 2BLAST 是一个 NCBI 开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。BLAST 能够在小于 15 秒的时间内对整个 DNA 数据库执行序列搜索。NCBI Educationhttp:/www.ncbi.nlm.nih.g

7、ov/Education/index.html GenBank 数据库简介不错的内容,我来补充下GenBank 数据库简介 基本信息 : 1. GenBank 属于一个序列数据库的国际合作组织,包括 EMBL 和 DDBJ。是 NIH 遗传序列数据库,一个所有可以公开获得的 DNA 序列的注释过的收集。GenBank 同日本和欧洲分子生物学实验室的 DNA 数据库共同构成了国际核酸序列数据库合作。唯一人类基因序列集合(UniGene),人类基因组基因图谱,分类学浏览器,同国立癌症研究所合作的癌症基因组剖析计划(CGAP)等数据库。GenBank 以指数形式增长,核酸碱基数目大概每 14 个月就

8、翻一个倍。2. 纪录样本 - 关于 GenBank 的各个字段的详细描述,以及同 Entrez 搜索字段的交叉索引。3. 访问 GenBank - 通过 Entrez Nucleotides 来查询。用 accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。关于 Entrez 更多的信息请看下文。用 BLAST 来在GenBank 和其他数据库中进行序列相似搜索。用 E-mail 来访问 Entrez 和 BLAST 可以通过 Query 和BLAST 服务器。另外一种选择是可以用 FTP 下载整个的 GenBank 和更新数据。 4. 增长统计 -

9、参见公布通知的 2.2.6(每个分类的统计),2.2.7(每个物种的统计),2.2.8(GenBank增长)小节。 5. 公布通知,最新 - 最近和即将有的变化,GenBank 的分类,数据增长统计,GenBank 的引用。6. 公布通知,旧 - 同上相同,是过去公布的统计。 7. 遗传密码 - 15 个遗传密码的概要。用来确保 GenBank 中纪录的编码序列被正确的翻译。 向 GenBank 提交数据 : 1. 关于提交序列数据,收到 accession number,和对纪录作更新的一般信息。 2. BankIt - 用于一条或者少数条提交的基于 WWW 的提交工具软件。(请在提交前用

10、VecScreen 去除载体) 3. Sequin - 提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。可以独立使用,或者用基于 TCP/IP 的“network aware”模式,可以链接到其他NCBI 的资源和软件比如 Entrez 和 PowerBLAST。(请在提交前用 VecScreen 去除载体) 4. ESTs - 表达序列标签,短的、单次(测序)阅读的 cDNA 序列。也包括来自于差异显示和 RACE 实验的 cDNA 序列。 5. GSSs - 基因组调查序列,短的、单次(测序)阅读的 cDNA 序列,exon t

11、rap 获得的序列,cosmid/BAC/YAC 末端,及其他。 6. HTGs - 来自于大规模测序中心的高通量基因组序列,未完成的(阶段 0,1,2)和完成的(阶段 3)序列。(注意:完成的人类的 HTG 序列可以同时在 GenBank 和 Human Genome Sequencing 页面上访问。) 7. STSs - 序列标签位点。短的在基因组上可以被唯一操作的序列,用于产生作图位点。 8. 注:SNPs - 人类的和其他物种的遗传变异数据可以提交到 NCBI 数据库的单核苷酸多态性库中(dbSNP)。 国际核苷酸序列数据库合作组织 : 1. GenBank,DDBJ,EMBL -

12、合作计划的概述,并链接到相应的主页。GenBank,DDBJ(DNA Data Bank of Japan),and EMBL (European Molecular Biology Laboratory)数据库共享的数据是每天都交换的,因此他们是相等的。数据纪录的格式和搜索方式可能会不一样,但是 accession number,序列数据和注解都是一模一样的。即,你可以用 accession number U12345 在 GenBank,DDBJ 或EMBL 中查找相应纪录,得到的结果是完全一样的序列数据,参考内容等等2. DDBJ/EMBJ/GenBank 特性表 特性表格式和标准被合作

13、数据库用在序列记录的注释上,使得数据共享成为可能,包括详细的描述生物特性和特性限定语的附录,以及 IUPAC 规定的核苷酸和氨基酸的代号。FTP GenBank and Daily Updates: 1. GenBank 普通文件格式 参见 GenBank 记录样本和在 GenBank 公布通知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据。2. ASN.1 格式 摘要句法记号 1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全公告和日常积累或非积累更新数据。 3. FASTA 格式 定义行号后只跟随序列数据(示例),参见描述数据库的 readme 文件,包括nt.

14、Z(每天更新的非冗余 BLAST 核酸数据库,包括 GenBank+EMBL+DDBJ+PDB 序列,但是不包括EST, STS, GSS, or HTGS 序列),nr.Z(每日更新的非冗余蛋白质),est.Z, gss.Z, htg.Z, sts.Z,和其它文件。分子数据库: 1. 核酸序列1、 Entrez 核酸: 用 accession number,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜索核酸序列记录(在 GenBank + PDB 中)。更多的关于 Entrez 的信息见下。如果要检索大量数据,也可使用 Batch Entrez(批量 Entrez)。 2、 R

15、efSeq : NCBI 数据库的参考序列。校正的,非冗余集合,包括基因组 DNA contigs,已知基因的 mRNAs 和蛋白,在将来,整个的染色体。Accession numbers 用 NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和 NC_xxxxxx 的形式来表示。3、 dbEST :表达序列标签数据库,短的、单次(测序)阅读的 cDNA 序列。也包括来自于差异显示和RACE 实验的 cDNA 序列。 4、 dbGSS :基因组调查序列的数据库,短的、单次(测序)阅读的 cDNA 序列,exon trap 获得的序列,cosmid/BAC/YAC 末端,及其他。

16、 5、 dbSTS :序列标签位点的数据库,短的在基因组上可以被唯一操作的序列,用于产生作图位点。 6.、 dbSNP :单核苷酸多态性数据库,包括 SNPs,小范围的插入/缺失,多态重复单元,和微卫星变异。 2. 完整的基因组 :1、 参见下面 Genome 和 Maps 部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,viroids,质粒。 2、 发 UniGene : 被整理成簇的 EST 和全长 mRNA 序列,每一个代表一种特定已知的或假设的人类基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以 cluster 形式在 Unigene 网页下载,完整的数据可以从 FTP 站点 repository/UniGene 目录下下载。 1) 人类:UniGene 2) 小鼠:UniGene 3) 大鼠:UniGene 4) 斑马鱼:UniGene 3、 BLAST :将你的序列同核酸库中的的序列比较,检索相似的序列。(更详细的信息见下面Tools/Sequence 相似搜索部分) 蛋白序列 : 1、

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号