GenBankDNA序列库

上传人:jiups****uk12 文档编号:39261414 上传时间:2018-05-13 格式:DOC 页数:9 大小:225.50KB
返回 下载 相关 举报
GenBankDNA序列库_第1页
第1页 / 共9页
GenBankDNA序列库_第2页
第2页 / 共9页
GenBankDNA序列库_第3页
第3页 / 共9页
GenBankDNA序列库_第4页
第4页 / 共9页
GenBankDNA序列库_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《GenBankDNA序列库》由会员分享,可在线阅读,更多相关《GenBankDNA序列库(9页珍藏版)》请在金锄头文库上搜索。

1、GenBankDNA 序列库序列库编辑:刘慧萍 陈梅红GenBank 简介GenBank 检索与查询方式向 GenBank 递交数据GenBank 概况概况(http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html) GenBank 是什么是什么? GenBank 是 NIH 的基因序列数据库,是所有公开的 DNA 序列的集合 ( Nucleic Acids Research 1998 Jan 1;26(1):1-7). 截至 1998 年 12 月,GenBank 大约收集了 2,162,000,000 个碱基、3,044,000 个序列。作为示例,

2、你可以察看一下 neurofibromatosis gene 的 纪录。也可以阅读关于当前版本的 Genbank 的完整的 release notes (发布说明)。每两个月会发布一个新的版本( release)。GenBank 也是国际核酸序列数据库协作(International Nucleotide Sequence Database Collaboration)的一部分,国际核酸序列数据库协作由以下几个部分组成:日本 DNA 数据库(DNA DataBank of Japan (DDBJ)),欧洲分子生物学实验室( the European Molecular Biology Labo

3、ratory (EMBL))和 NCBI 的 GenBank ,这三个组 织每天都交换数据。向向 GenBank 提交数据提交数据 许多杂志要求在文章发表之前提供相应序列的基因数据库的提交信息(submission of sequence information),因为这样的话,一个序列访问号码 (accession number)就可以出现在文章中。NCBI 有一个 WWW 形式的表格叫做 BankIt,它 提供了一种快速而简便的序列提交方法。另一种方法是使用 Sequin,NCBI 开发的 新的可以独立运行于 MAC, PC, and UNIX 平台的序列递交软件,可以从 FTP 获得 它

4、,使用 Sequin 时,用于直接提交的输出文件可以通过 E-mail 发送到 NCBI,也 可以将数据文件拷贝到软盘上邮寄给 NCBI。Authorin 是一个就的独立使用于 MACs 和 PC 的软件,仍然可以用来格式化输出你的提交文件,不过我们还是建 议用户改为使用 BankIt or Sequin。还有一种改进的程序用来进行批量提交序列,比如 EST, STS, 和 HTG 序列。更新或者修改一个序列更新或者修改一个序列 任何时候都可以对 GenBank 的纪录进行更新或者修改,采用 BankIt 或 Sequin 的 格式,通过一个电子的 表格,或者作为 E-mail 的正文,需要更

5、新的序列的 accession number 一定要在主题行(subject line)中给出,E-mail 发送到: updatencbi.nlm.nih.gov 操作操作 GenBank GenBank 可以从这里通过多种方法检索。新的进展新的进展 NCBI 在不断的开发新的工具和增强已有的工具来提高提交序列和检索 GenBank 的能力,想得到最新的消息的最简单的办法是阅读 NCBI News,NCBI News 也可 以免费订阅。修改于 December 14, 1998 GenBank 简介简介GenBank 包含所有已知的核苷酸及蛋白质序列、以及与之相关的生物学信息和参考文 献,是

6、美国生物技术信息中心(NCBI)建立并维护的,是世界上的权威序列数据库。数据库序列的来源为作者直接递交或间接查寻文献所得,并与世界上其他公开发 行的 数据库,如 EMBL,DDBJ 交换每日更新的数据。GenBank 发展极为迅速,仅 1995 年一年里增加的序列数据量,即超过以往 14 年的 累 加数目。1995 年的 90.0 版本含有 492,483 个不同的序列,总长度超过 353,713,490 个 碱基。 其中 54%是人(Homosapiens)的序列,此外还包括线虫(C.elegans)、酵母 (S.cerevisiae)、小 家鼠(Mus musculus)等 15,500

7、种生物的 DNA 序列。GenBank 每条数据包含对序列的精确描述,序列来源生物的科学名称及树状分 类,以 及特征数据栏,提供序列的蛋白编码区和具有特殊生物学意义的位点,如转录 单位 (transcription units)、突变或修饰位点(sites of mutationsor modifications)及重复序列(repeats), 还提供特定序列编码的蛋白质序列。参考文 献还给出其在 MEDLINE 上的特定标识号。在 GenBank 中,分枝数据库 dbEST 和 dbSTS 的发展最为迅速。GenBank 与其它核苷 酸 序列库 EMBL、DDBJ 和 LANL 等,以及知名

8、的蛋白质数据库 SWISS- PROT、PIR、PRF 和 PDB 等建立了综合数据库(Integrated Database,ID)。NCBI 已经建 立了自己的生物大分 子三维结构库分子结构模型库 MMDB(Molecular Modeling Database)。GenBank 检索与查询方式检索与查询方式 GenBank 数据记录检索数据记录检索GenBank 数据可用文本检索系统(基本检索(GenBank、GenBank Updates)、高级检索) 、ENTREZ 高级检索系统进行检索。ENTREZ 系统 可以用来检索核酸与蛋白质序列、 MEDLINE 相关文献或专利(PubMed

9、)、 基因组及 MMDB 分子结构模型库信息。GenBank 序列查询序列查询GenBank 最常用的查询是序列局部相似性查询(BLAST),可通 过 WWW 途径或 E- mail 途径查询。向向 GenBank 递交数据递交数据GenBank 数据的一个主要来源是通过作者直接递交;目前许多期刊也希望刊登的 文章 中的 DNA 或氨基酸序列能在发表前输入数据库。NCBI 为此设计了方便、快捷的数 据递 交软件:BankIt 和 Sequin。以前使用的 Authorin 软件已被 Sequin 替代,但仍可使 用。如 果没有上述软件,可向 NCBI(Email: infoncbi.nlm.n

10、ih.gov)索取 Email 递交表。数据递交后,作者将收到一个数据存取号,表明递交的数据已被接收,此号可作 为以 后向数据库查询时的凭据,作者可将其列入发表文章中。作者可要求对其递交数 据在正式 发表前暂不公开,待文章发表后应尽快通知数据库(Email: updatencbi.nlm.nih.gov),否则 将延误数据的公开。NCBI 允许作者对已被收入数据库的数据进行修改、添加或删减。作者可通过 BankIt、Sequin 或 Email 方式进行修改,注意应将数据存取号与修改内容一并通知数 据库。由于三大核酸数据库 GenBank、EMBL、DDBJ 之间每日都互相交换数据,因此作者

11、无论在哪里发表数据,只需要向其中任意一个本人认为最方便的数据库递交数据即可。BankIt 直接通过 WWW 进行简便、快捷的递交。Sequin 可供 MAC、PCWindows、UNIX 用户使用的递交软件,可输入有关数据的详 细资料。最近修改于:有任何建议与意见请与主持人刘慧萍联系。BLAST 序列相似性查询序列相似性查询编写 朱峰 陈梅红什么是 Blast 相似性分析? 如何查询 Blast? 查询入口:基本查询、高级查询 示例 什么是什么是 Blast 相似性分析?相似性分析?BLAST 是“局部相似性基本查询工具”(Basic Local Alignment Search Tool)的

12、 缩写,包 括一系列查询程序(见表 1),是十分方便及强大的查询工具。用户可通过 e-mail 得到 BLAST 的文件及帮助,地址为:blast-help ncbi.nlm.nih.gov。表 1. BLAST 系列程序程程 序序 待查序列待查序列 数据库数据库 序列序列 评评 价价 举例举例 BLASTN核酸(双链)核 酸1.优化参数提高速度,不敏感 2.不针对相关性较远的编码 区3.自动检查待查序列的互补 链 1,4BLASTX核 酸6 个翻译读框 蛋 白1.对于有潜在移码错误的初 步 序列十分适用,如 EST 及 其 它“单一通过”序列 2.适用于 14 种不同遗传密码3.有 65 种

13、打分模式4.具有 SEG 或 XNU 算法的低复 杂的滤过选择 2,6BLASTP蛋 白蛋 白1.65 种打分模式 2.低一复杂性滤过选择 3TBLASTN蛋 白核 酸6 个翻 译读框1.输入双链 EST 来查询 2.常用于发现尚未记录的开 放 读框及移码错误3.14 种不同遗传密码4.65 种打分模式5.具有 SEG 或 XNU 算法的低复 杂度的滤过选择 5TBLASTX核 酸6 个翻译读框核 酸6 个翻 译读框1.查询依赖于双链 EST,双链 STS 及 Alu(e-mail 服务除 外)2.14 种不同遗传密码3.65 种打分模式4.具有 SEG 或 XNU 算法的低复 杂度的滤过选择

14、 每天,全世界的科学家应用“相似性”数据库查询达几千次之多。其基本操作是 输入一 个待查序列(核酸或氨基酸序列),将之与数据库中所有已知序列相比,通过比 较与查询序 列相似性的高低,将之在“击中序列目录”(hit list)中排序。查询结果 可为阳性、阴性或结 果不确切。查询的目的在于寻找与待查序列有足够相似性的序 列,以提供功能相似的估价。 若查出的序列功能不详,则可通过查询在其它生物体内 该序列的同源序列或多基因家族来 探讨其功能。数据库查询的原理很简单,但已经发展了多种方法来验证查询的准确性,包括序 列一 致打分系统及分子生物学基本原理:蛋白质和基因常常由不同结构和功能结构域 组成,而

15、这些结构域通过综合多种序列而得到。统计学方法在相似性查询中尤为重 要,尤其是当数 据库足够大及足够新时,查询才有意义,这一点是由众多的研究工作 保障的,每周数据库 都会增加数以千计的新的序列。如何检索如何检索 Blast?通过 Internet,利用 BLAST 提交待查序列的远程服务有诸多优点,提交待查序列 的方 法有 3 种:用 E-mail、委托程序或 WWW 界面(基本检索、高级检索)提交序列,但 均 由以下四个部分构成: 1.要执行的 BLAST 命令;2.查询的数据库名称;3.格及修饰物;4.查序列。 在很短的几分钟之内,你就会收到查询的结果。接着你将评估是否有任何令人感 兴趣 的

16、发现,这一过程包括以下两步:首先,确定查询结果具有统计学意义。要知道对于任一待查序列,所有数据库均 会给 出一些序列的目录,但它们不一定具有生物学意义。问题在于相似性达到什么程 度对用户来说具有意义。对于任一数据库给出的匹配项,BLAST 会产生 P 值,以评定序 列的相似 性。其次,假设有十分有意义的查出项,则可在数据库中搜索该序列以得到注解,该 注解 常含有更为详细的有关功能、表达及其他信息。数据库记录也会提供一些相关文 献。基本 过程是应用该序列的存取号,从数据库中得到记录及应用 e-mail 或 Internet 来得到相关的 文献。NCBI 的搜索服务器为 World Wide Web/Mosaic。最近修改于: BLASTBLAST 高级查询高级查询此为 BLAST 2.0 version( 详见 ) 请先选择检索程序(请先选择检索程序(ProgramProgram)和检索数据库()和检索数据库(DatabaseDatabase): :程序(Program) blastn数据库(Da

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号