一步一步教你使用NCBI大数据库资源

上传人:壹****1 文档编号:431336248 上传时间:2022-11-29 格式:DOCX 页数:34 大小:37.30KB
返回 下载 相关 举报
一步一步教你使用NCBI大数据库资源_第1页
第1页 / 共34页
一步一步教你使用NCBI大数据库资源_第2页
第2页 / 共34页
一步一步教你使用NCBI大数据库资源_第3页
第3页 / 共34页
一步一步教你使用NCBI大数据库资源_第4页
第4页 / 共34页
一步一步教你使用NCBI大数据库资源_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《一步一步教你使用NCBI大数据库资源》由会员分享,可在线阅读,更多相关《一步一步教你使用NCBI大数据库资源(34页珍藏版)》请在金锄头文库上搜索。

1、一步一步教你使用 NCBI 数据库资源随着ncbi数据库各种资源的涌现,NCBI已经成为科研 工作者必不可少的资料查找,数据分析的工具。那么 NCBI 数据如何使用,新手入门一步一步教你认识和使用 NCBI 数 据库。一 综合数据库NCBI数据库集美国国立生物技术信息中心(NationalCenter for Biotechnology I nformat i on) ,即我们所熟知 的NCBI是由美国国立卫生研究院(NIH)于1988年创办。创 办 NCBI 的初衷是为了给分子生物学家提供一个信息储存和 处理的系统。除了建有 GenBank 核酸序列数据库(该数据库 的数据资源来自全球几大D

2、NA数据库,其中包括日本DNA数 据库DDBJ、欧洲分子生物学实验室数据库EMBL以及其它几 个知名科研机构)之外, NCBI 还可以提供众多功能强大的数 据检索与分析工具。目前,NCBI提供的资源有Entrez、Entrez ProgrammingUtilities、 MyNCBI 、 PubMed、 PubMed Centra l 、 EntrezGene、 NCBITaxonomyBrowser、 BLAST、 BLASTLink (BLink) 、 ElectronicPCR 等共计 36 种功能,而且都可以在 NCBI 的主页 www.ncbi.nlm.nih.gov 上找到相应链接

3、,其中 多半是由 BLAST 功能发展而来的。1 NCBI 最新进展1.1 PubMed 搜索功能的增强去年,NCBI对PubMed进行了几项改进工作,改动最大的 是搜索界面和摘要浏览界面。其中,搜索界面中新增了“Advanced Search”选项(这实际上是对以往“Limits”和 “Preview/lndex功能的整合),并且增加了一个新的窗口, 用户可以在此窗口下通过“论文作者名”、“论文所属杂志名 称”、“论文出版日期”等限定条件进行搜索。而且,“论文 作者名”和“论文所属杂志名称”还设有文本框自动填充功 能。现在,在PubMed数据库中进行文本搜索的同时还可以 立即通过两个“内容传

4、感器(content sensors)”进行分析。 一个“内容传感器”是根据作者姓名、所属杂志名称或杂志 名缩写、出版日期、卷号或刊号等信息进行分析,然后将符 合条件的搜索结果排列到结果列表的顶端。另一个“内容传 感器”是根据文章是否与用户给出的条件,例如是否与某种 药物相关,在 NCBI 的新增数据库 PubMedClinicalQ&A 中进行搜索,然后给出搜索结果。1.2 新增 primer-BLAST 分析工具2008年,NCBI新增了设计、分析PCR引物的工具 Primer-BLAST。Primer-BLAST的引物设计功能是基于NCBI 现有的 Primer3 程序发展而来的

5、, Primer3 程序可以为一段 DNA模板序列设计PCR引物。Primer-BLAST在设计出引物之 后还在某些相应数据库中进行 BLAST 搜索,因此可以得到特 异性引物,扩增出目的片段。用户在给出DNA模板的同时还 可以限定正向引物或反向引物,这样, NCBI 就只会给出另一 条引物。如果用户给出了模板DNA和两条引物序列, Primer-BLAST就只会运行BLAST程序,帮助用户对引物进行 分析。用户也可以只给出两条引物而不给出模板序列,这时 Primer-BLAST会通过BLAST程序分析出与这对引物最匹配的 模板序列。 Primer-BLAST 进行 BLAST 搜索的数据库包

6、括 RefSeq mRNA、 BLAST nr 和 12 种模式生物基因组数据库。1.3 BLAST 的改进及更新NCBI 对 BLAST 进行了全新的改版,推出了最新的 web BLAST report。在最新的BLAST比对结果页面中,“图形化 概要(Graphic Summary) ”、“ 具体描述(Descriptions)” 以 及“序列比对(Alignments) 等部分页面都可以展开和收起。 此外,网页上还提供了 “结果输出格式选项(Formatting) ” 和“结果下载选项(download)”,在下载选项中还新增了 CSV 格式下载。这样,读者可以轻松地将 BLAST 的比

7、对结果输入 到表格处理软件中去。另外, BLAST 比对结果页面上的“Alignments部分还提供了每一条命中序列在Entrez GENE 中的相关信息,这些信息包括基因名称、来源物种以及在 PubMed 数据库中与该基因有关条目的数目等。“BLAST tree”结果输出模式可以测量不同序列间的距 离,自动收起亚类信息等。现在,可以以 Newick 格式或 Nexus 格式下载 BLAST tree 结果,也可以在进化树图中选择任一 节点重新构树。最后还要向读者介绍 ncbi blast 的一个新 网址:URL: blast.ncbi.nlm.nih.gov。NCBI 建议读者都使 用这个网

8、址登陆NCBI BLAST,因为该BLAST使用更多的计算 机进行分析,也具有更强的系统容错能力。1.4 Entrez Gene 改进及更新基因组注释工作当中有一项重要的工作就是定位基因重 叠群序列(contig sequences),即在染色体中找出某个基因 的定位。实际上基因组测序工作就是将许多基因重叠序列彼 此拼接,最后拼出“完整(中间会有一些缝隙)”的基因组图 谱。这项工作可以直接将某个基因与某段基因重叠群序列对 应起来,但不能直接将该基因与染色体联系起来,而这恰恰 是生物学家最感兴趣的地方。因此,为了能让用户在搜索基 因的同时,也能了解到一些该基因在染色体中的定位情况, Entrez

9、 Gene推出了新的“Limits”服务,用户可以使用该 服务在基因组范围内进行基因搜索。用户可以在某个物种染 色体的某个区域里进行基因搜索。Entrez Gene 会按以下三种顺序对搜索出的基因进行排 序:1. 按照基因名排序。2. 按照相关性排序,即按照结果与用户搜索所使用的关 键词,例如基因名称等的匹配程度排序。3. 按照基因重要性排序,即按照该基因在 PubMed、Homologene、Protein Clusters、Online Mendelian Inheritance inMan(OMIM)或 Bookshelf 中文献数量的多少 进行排序。2 ENTREZ 搜索系统2.1 E

10、ntrezEntrez数据库是一个整合了多个数据库的综合检索系统, 它包含了 35 个不同数据库的信息,共收录有超过 350,000,000条记录(表1)。Entrez数据库支持使用简单的 布尔查询(Boolean queries)方式进行文本搜索,可以下载 不同格式的数据资料,还可以按照生物学关系提供与其它相 关记录的链接。这些链接给出的都是最简要的信息,例如会 给出一条序列和报道该序列的论文摘要,或者会给出一条蛋 白质序列的编码 DNA 序列或该蛋白质的 3D 结构图。这种通 过计算机运算,即基于比较序列相似性或 PubMed 中摘要的 相似性,所给出的相关链接信息可以以最快的速度提供给用

11、 户大量的相关信息。还有一种叫做“LinkOut”的功能将这 种链接功能扩展到了与外部数据库,例如各物种基因组数据 库之间的链接。 Entrez 中搜索到的数据可以以多种格式输 出,也可以打包下载或逐个下载。2.2 My NCBIMy NCBI 功能是为了方便用户储存个人配置信息,例如搜索 条件、LinkOut参数或文件出处等而设的。用户登陆自己的 My NCBI 帐户后,就可以进行保存搜索设置、管理邮件等操 作了。MyNCBI中有一种称作“Collections”的功能可以让 用户储存搜索结果和文献结果。 BLAST 中也设有类似的功能, 这样用户就可以使用同一条件进行多次比对了。2.3 E

12、ntrez programming utilities(E-Utilities)E-Utilities(Entrez 应用程序)由 8 种服务器程序组成,借 助 E-Utilities 可以设置一套标准参数进行搜索、链接和下 载数据(表2)。用户可以到NCBI主页上的Entrez Tools 链接中了解更多有关 E-Utilities 的信息。 2.4 TaxonomyNCBI Taxonomy(分类)数据库在Entrez生物学数据库中起 到了组织中心的作用。该数据库为每一个分类学上的节点, 从超界节点(superkingdoms)到亚种节点(subspecies),提 供数据链接服务。分类数

13、据库以每月增加 2200个新分类单 位的速度在增长,共收录有将近 300,000种物种信息,这些 信息为“属(genus)”级别,或者虽然未达到“属(genus)” 级别,但在 Entrez 至少收录有一条该物种的核酸序列或蛋 白质序列信息。使用 Taxonomy 网页可以了解该物种在分类学上的地位,也可以在某一物种范围内对 Entrez 数据库进 行搜索。3 BLAST 序列相似性搜索程序BLAST 程序是一种进行序列相似性搜索的程序,它可以对 核酸序列或蛋白质序列进行分析。经过 BLAST 程序比对之后 会得到各种序列结果,例如转录体序列(UniGene)信息、基 因序列(Gene)信息、

14、3D结构信息(MMDB)或芯片信息(GEO)等。 用户也可以使用My NCBI功能保留BLAST中设定的搜索题目、 近期搜索结果和搜索参数等信息。还有一种 BLAST 程序 BLAST2Sequences 程序,它可以对两条 DNA 序列或蛋白质序 列进行比对,并获得一个点对点的比对结果。 BLAST 程序也 可以作为一个独立的程序下载到本地计算机上使用,用户可 以到 ftp.ncbi.nih.gov/blast/executables/LATEST/下载 (表 3) 。3.1 BLASTBLAST默认的比对信息数据库包括NCBI中的人类基因组数据 库和人类RefSeq数据库。比对之后,BLA

15、ST会按照评分高低、 序列相似度对结果进行排序,另外BLAST还可以对小鼠数据 库以及其它数据库进行比对。蛋白质序列的默认数据库包括GenBank非冗余数据库、 RefSeq、 Swiss-Prot 、 PDB、 PIR 和 PRF 等。此外,还包括这 些数据库下的子数据库以及其它一些专利数据库和诸如核 酸数据库等环境样品数据库(environmental samples)。3.2 BLAST output formats标准的BLAST输出格式包括默认的配对比对格式(default pairwise al ignment) 、搜索定位的多序列比对格式 (query-anchoredmulti

16、plesequencealignmentformats)、 简单的可解析的Hit Table格式以及按照分类学给出的报告 格式等。一种叫做“按照同一性进行配对(Pairwise with identities) ”的格式能更好地突出目标序列与检索序列之 间的差别。而Web BLAST中提供的树状浏览格式则会按照搜 索出的目标序列与检索序列之间的距离不同将这些目标序 列进行聚类,形成一幅树状图来显示结果。 BLAST 比对之后 给出的每一种格式的比对结果都会有一个分值和E值。用户 也可以设定一个 E 值的阈值来筛选比对结果。3.3 MegaBLASTMegaBLAST也是一种BLAST程序,不过它主要是用来在非常 相似的序列之间(来自同一物种)比对同源性的。使用者通过 网页使用 MegaBLAST 进行批量比对操作,这比使用标准的BLAST程序要快10倍。MegaBLAST在NCBI基因组BLAST页 面下是默

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 建筑资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号