GenBankDNA序列库编辑:刘慧萍 陈梅红 GenBank简介 GenBank检索与查询方式 向GenBank递交数据GenBank 概况(http://www.ncbi.nlm.nih.gov/Web/Genbank/index.html) · GenBank 是什么? GenBank 是 NIH 的基因序列数据库,是所有公开的DNA序列的集合 ( Nucleic Acids Research 1998 Jan 1;26(1):1-7). 截至1998年12月,GenBank大约收集了 2,162,000,000 个碱基、3,044,000 个序列作为示例,你可以察看一下 neurofibromatosis gene的 纪录也可以阅读关于当前版本的Genbank的完整的 release notes (发布说明)每两个月会发布一个新的版本( release)GenBank 也是国际核酸序列数据库协作(International Nucleotide Sequence Database Collaboration)的一部分,国际核酸序列数据库协作由以下几个部分组成:日本DNA数据库(DNA DataBank of Japan (DDBJ)),欧洲分子生物学实验室( the European Molecular Biology Laboratory (EMBL))和 NCBI的GenBank ,这三个组织每天都交换数据。
· 向GenBank提交数据 许多杂志要求在文章发表之前提供相应序列的基因数据库的提交信息(submission of sequence information),因为这样的话,一个序列访问号码 (accession number)就可以出现在文章中NCBI有一个WWW形式的表格叫做 BankIt,它提供了一种快速而简便的序列提交方法另一种方法是使用 Sequin,NCBI开发的新的可以独立运行于MAC, PC, and UNIX平台的序列递交软件,可以从FTP获得它,使用 Sequin时,用于直接提交的输出文件可以通过 E-mail 发送到NCBI,也可以将数据文件拷贝到软盘上邮寄给NCBIAuthorin是一个就的独立使用于MACs 和 PC 的软件,仍然可以用来格式化输出你的提交文件,不过我们还是建议用户改为使用 BankIt or Sequin还有一种改进的程序用来进行批量提交序列,比如 EST, STS, 和 HTG 序列· 更新或者修改一个序列 任何时候都可以对GenBank的纪录进行更新或者修改,采用BankIt 或 Sequin的格式,通过一个电子的 表格,或者作为E-mail的正文,需要更新的序列的 accession number 一定要在主题行(subject line)中给出,E-mail发送到: update@ncbi.nlm.nih.gov · 操作 GenBank GenBank可以从这里通过多种方法检索。
· 新的进展 NCBI 在不断的开发新的工具和增强已有的工具来提高提交序列和检索 GenBank的能力,想得到最新的消息的最简单的办法是阅读 NCBI News,NCBI News 也可以免费订阅修改于 December 14, 1998 GenBank简介 GenBank包含所有已知的核苷酸及蛋白质序列、以及与之相关的生物学信息和参考文献,是美国生物技术信息中心(NCBI)建立并维护的,是世界上的权威序列数据库 数据库序列的来源为作者直接递交或间接查寻文献所得,并与世界上其他公开发 行的数据库,如EMBL,DDBJ交换每日更新的数据 GenBank发展极为迅速,仅1995年一年里增加的序列数据量,即超过以往14年的 累加数目1995年的90.0版本含有492,483个不同的序列,总长度超过353,713,490个 碱基其中54%是人(Homosapiens)的序列,此外还包括线虫(C.elegans)、酵母 (S.cerevisiae)、小家鼠(Mus musculus)等15,500种生物的DNA序列 GenBank每条数据包含对序列的精确描述,序列来源生物的科学名称及树状分 类,以及特征数据栏,提供序列的蛋白编码区和具有特殊生物学意义的位点,如转录 单位(transcription units)、突变或修饰位点(sites of mutationsor modifications)及重复序列(repeats),还提供特定序列编码的蛋白质序列。
参考文 献还给出其在MEDLINE上的特定标识号 在GenBank中,分枝数据库dbEST和dbSTS的发展最为迅速GenBank与其它核苷酸 序列库EMBL、DDBJ和LANL等,以及知名的蛋白质数据库SWISS-PROT、PIR、PRF和PDB 等建立了综合数据库(Integrated Database,ID)NCBI已经建立了自己的生物大分 子三维结构库-分子结构模型库MMDB(Molecular Modeling Database)GenBank检索与查询方式 GenBank数据记录检索 GenBank数据可用文本检索系统(基本检索(GenBank、GenBank Updates)、高级检索)、ENTREZ高级检索系统进行检索ENTREZ系统 可以用来检索核酸与蛋白质序列、MEDLINE相关文献或专利(PubMed)、 基因组及MMDB分子结构模型库信息 GenBank序列查询 GenBank最常用的查询是序列局部相似性查询(BLAST),可通 过WWW途径或E-mail途径查询向GenBank递交数据 GenBank数据的一个主要来源是通过作者直接递交;目前许多期刊也希望刊登的 文章中的DNA或氨基酸序列能在发表前输入数据库。
NCBI为此设计了方便、快捷的数 据递交软件:BankIt和Sequin以前使用的Authorin软件已被Sequin替代,但仍可使 用如果没有上述软件,可向NCBI(Email: info@ncbi.nlm.nih.gov)索取Email递交表 数据递交后,作者将收到一个数据存取号,表明递交的数据已被接收,此号可作 为以后向数据库查询时的凭据,作者可将其列入发表文章中作者可要求对其递交数 据在正式发表前暂不公开,待文章发表后应尽快通知数据库(Email: update@ncbi.nlm.nih.gov),否则将延误数据的公开 NCBI允许作者对已被收入数据库的数据进行修改、添加或删减作者可通过 BankIt、Sequin或Email方式进行修改,注意应将数据存取号与修改内容一并通知数 据库 由于三大核酸数据库GenBank、EMBL、DDBJ之间每日都互相交换数据,因此作者 无论在哪里发表数据,只需要向其中任意一个本人认为最方便的数据库递交数据即可 BankIt 直接通过WWW进行简便、快捷的递交 Sequin 可供MAC、PC\Windows、UNIX用户使用的递交软件,可输入有关数据的详细资料。
最近修改于:有任何建议与意见请与主持人刘慧萍联系 BLAST序列相似性查询编写 朱峰 陈梅红· 什么是Blast相似性分析? · 如何查询Blast? · 查询入口:基本查询、高级查询 · 示例 什么是Blast相似性分析? BLAST是“局部相似性基本查询工具”(Basic Local Alignment Search Tool)的 缩写,包括一系列查询程序(见表1),是十分方便及强大的查询工具用户可通过 e-mail得到BLAST的文件及帮助,地址为:blast-help @ ncbi.nlm.nih.gov 表1. BLAST系列程序程 序 待查序列 数据库序列 评 价 举例 BLASTN 核酸(双链) 核 酸 1.优化参数提高速度,不敏感 2.不针对相关性较远的编码 区3.自动检查待查序列的互补 链 1,4 BLASTX 核 酸6个翻译读框 蛋 白 1.对于有潜在移码错误的初 步序列十分适用,如EST及 其它“单一通过”序列 2.适用于14种不同遗传密码3.有65种打分模式4.具有SEG或XNU算法的低复 杂的滤过选择 2,6 BLASTP 蛋 白 蛋 白 1.65种打分模式 2.低一复杂性滤过选择 3 TBLASTN 蛋 白 核 酸6个翻译读框 1.输入双链EST来查询 2.常用于发现尚未记录的开 放读框及移码错误3.14种不同遗传密码4.65种打分模式5.具有SEG或XNU算法的低复 杂度的滤过选择 5 TBLASTX 核 酸6个翻译读框 核 酸6个翻译读框 1.查询依赖于双链EST,双链 STS及Alu(e-mail服务除 外)2.14种不同遗传密码3.65种打分模式4.具有SEG或XNU算法的低复 杂度的滤过选择 每天,全世界的科学家应用“相似性”数据库查询达几千次之多。
其基本操作是 输入一个待查序列(核酸或氨基酸序列),将之与数据库中所有已知序列相比,通过比 较与查询序列相似性的高低,将之在“击中序列目录”(hit list)中排序查询结果 可为阳性、阴性或结果不确切查询的目的在于寻找与待查序列有足够相似性的序 列,以提供功能相似的估价若查出的序列功能不详,则可通过查询在其它生物体内 该序列的同源序列或多基因家族来探讨其功能 数据库查询的原理很简单,但已经发展了多种方法来验证查询的准确性,包括序 列一致打分系统及分子生物学基本原理:蛋白质和基因常常由不同结构和功能结构域 组成,而这些结构域通过综合多种序列而得到统计学方法在相似性查询中尤为重 要,尤其是当数据库足够大及足够新时,查询才有意义,这一点是由众多的研究工作 保障的,每周数据库都会增加数以千计的新的序列 如何检索Blast? 通过Internet,利用BLAST提交待查序列的远程服务有诸多优点,提交待查序列 的方法有3种:用E-mail、委托程序或WWW界面(基本检索、高级检索)提交序列,但 均由以下四个部分构成: 1.要执行的BLAST命令; 2.查询的数据库名称; 3.格及修饰物; 4.查序列。
在很短的几分钟之内,你就会收到查询的结果接着你将评估是否有任何令人感 兴趣的发现,这一过程包括以下两步: 首先,确定查询结果具有统计学意义要知道对于任一待查序列,所有数据库均 会给出一些序列的目录,但它们不一定具有生物学意义问题在于相似性达到什么程 度对用户来说具有意义对于任一数据库给出的匹配项,BLAST会产生P值,以评定序 列的相似性 其次,假设有十分有意义的查出项,则可在数据库中搜索该序列以得到注解,该 注解常含有更为详细的有关功能、表达及其他信息数据库记录也会提供一些相关文 献基本过程是应用该序列的存取号,从数据库中得到记录及应用e-mail或Internet 来得到相关的文献NCBI的搜索服务器为World Wide Web/Mosaic最近修改于: BLAST 高。