GenBankDNA序列库.doc

pu****.1

实名认证

店铺

DOC

225.50KB

约9页

文档ID:549565113

1/9页

点击查看更多>>

文本预览下载提示常见问题

GenBankDNA序列库编辑：刘慧萍　陈梅红　　GenBank简介　　GenBank检索与查询方式　　向GenBank递交数据GenBank 概况（http://www.ncbi.nlm.nih.gov/Web/Genbank/index.html） · GenBank 是什么? GenBank 是 NIH 的基因序列数据库，是所有公开的DNA序列的集合 ( Nucleic Acids Research 1998 Jan 1;26(1):1-7). 截至1998年12月，GenBank大约收集了 2,162,000,000 个碱基、3,044,000 个序列作为示例，你可以察看一下 neurofibromatosis gene的纪录也可以阅读关于当前版本的Genbank的完整的 release notes （发布说明）每两个月会发布一个新的版本（ release）GenBank 也是国际核酸序列数据库协作（International Nucleotide Sequence Database Collaboration）的一部分，国际核酸序列数据库协作由以下几个部分组成：日本DNA数据库（DNA DataBank of Japan (DDBJ)），欧洲分子生物学实验室（ the European Molecular Biology Laboratory (EMBL)）和 NCBI的GenBank ，这三个组织每天都交换数据。

· 向GenBank提交数据许多杂志要求在文章发表之前提供相应序列的基因数据库的提交信息（submission of sequence information），因为这样的话，一个序列访问号码（accession number）就可以出现在文章中NCBI有一个WWW形式的表格叫做 BankIt，它提供了一种快速而简便的序列提交方法另一种方法是使用 Sequin，NCBI开发的新的可以独立运行于MAC, PC, and UNIX平台的序列递交软件，可以从FTP获得它，使用 Sequin时，用于直接提交的输出文件可以通过 E-mail 发送到NCBI，也可以将数据文件拷贝到软盘上邮寄给NCBIAuthorin是一个就的独立使用于MACs 和 PC 的软件，仍然可以用来格式化输出你的提交文件，不过我们还是建议用户改为使用 BankIt or Sequin还有一种改进的程序用来进行批量提交序列，比如 EST, STS, 和 HTG 序列· 更新或者修改一个序列任何时候都可以对GenBank的纪录进行更新或者修改，采用BankIt 或 Sequin的格式，通过一个电子的表格，或者作为E-mail的正文，需要更新的序列的 accession number 一定要在主题行（subject line）中给出，E-mail发送到： update@ncbi.nlm.nih.gov · 操作 GenBank GenBank可以从这里通过多种方法检索。

· 新的进展 NCBI 在不断的开发新的工具和增强已有的工具来提高提交序列和检索 GenBank的能力，想得到最新的消息的最简单的办法是阅读 NCBI News，NCBI News 也可以免费订阅修改于 December 14, 1998 GenBank简介　　GenBank包含所有已知的核苷酸及蛋白质序列、以及与之相关的生物学信息和参考文献，是美国生物技术信息中心（NCBI）建立并维护的，是世界上的权威序列数据库　　数据库序列的来源为作者直接递交或间接查寻文献所得，并与世界上其他公开发行的数据库，如EMBL，DDBJ交换每日更新的数据　　GenBank发展极为迅速，仅1995年一年里增加的序列数据量，即超过以往14年的累加数目1995年的90.0版本含有492,483个不同的序列，总长度超过353,713,490个碱基其中54%是人(Homosapiens)的序列，此外还包括线虫（C.elegans)、酵母 (S.cerevisiae)、小家鼠（Mus musculus)等15，500种生物的DNA序列　　GenBank每条数据包含对序列的精确描述，序列来源生物的科学名称及树状分类，以及特征数据栏，提供序列的蛋白编码区和具有特殊生物学意义的位点，如转录单位(transcription units)、突变或修饰位点(sites of mutationsor modifications)及重复序列(repeats），还提供特定序列编码的蛋白质序列。

参考文献还给出其在MEDLINE上的特定标识号　　在GenBank中，分枝数据库dbEST和dbSTS的发展最为迅速GenBank与其它核苷酸序列库EMBL、DDBJ和LANL等，以及知名的蛋白质数据库SWISS-PROT、PIR、PRF和PDB 等建立了综合数据库（Integrated Database，ID)NCBI已经建立了自己的生物大分子三维结构库－分子结构模型库MMDB（Molecular Modeling Database)GenBank检索与查询方式　　　GenBank数据记录检索　　GenBank数据可用文本检索系统（基本检索(GenBank、GenBank Updates)、高级检索）、ENTREZ高级检索系统进行检索ENTREZ系统可以用来检索核酸与蛋白质序列、MEDLINE相关文献或专利（PubMed）、基因组及MMDB分子结构模型库信息　　GenBank序列查询　　GenBank最常用的查询是序列局部相似性查询（BLAST），可通过WWW途径或E-mail途径查询向GenBank递交数据　　GenBank数据的一个主要来源是通过作者直接递交；目前许多期刊也希望刊登的文章中的DNA或氨基酸序列能在发表前输入数据库。

NCBI为此设计了方便、快捷的数据递交软件：BankIt和Sequin以前使用的Authorin软件已被Sequin替代，但仍可使用如果没有上述软件，可向NCBI(Email: info@ncbi.nlm.nih.gov)索取Email递交表　　数据递交后，作者将收到一个数据存取号，表明递交的数据已被接收，此号可作为以后向数据库查询时的凭据，作者可将其列入发表文章中作者可要求对其递交数据在正式发表前暂不公开，待文章发表后应尽快通知数据库(Email: update@ncbi.nlm.nih.gov)，否则将延误数据的公开　　NCBI允许作者对已被收入数据库的数据进行修改、添加或删减作者可通过 BankIt、Sequin或Email方式进行修改，注意应将数据存取号与修改内容一并通知数据库　　由于三大核酸数据库GenBank、EMBL、DDBJ之间每日都互相交换数据，因此作者无论在哪里发表数据，只需要向其中任意一个本人认为最方便的数据库递交数据即可　　BankIt　直接通过WWW进行简便、快捷的递交　　Sequin　可供MAC、PC\Windows、UNIX用户使用的递交软件，可输入有关数据的详细资料。

最近修改于:有任何建议与意见请与主持人刘慧萍联系　 BLAST序列相似性查询编写　朱峰　陈梅红· 什么是Blast相似性分析？ · 如何查询Blast？ · 查询入口：基本查询、高级查询 · 示例什么是Blast相似性分析？　　BLAST是“局部相似性基本查询工具”(Basic Local Alignment Search Tool)的缩写，包括一系列查询程序(见表1)，是十分方便及强大的查询工具用户可通过 e-mail得到BLAST的文件及帮助，地址为：blast-help @ ncbi.nlm.nih.gov　　表1. BLAST系列程序程序待查序列数据库序列评价举例 BLASTN　　核酸(双链)　　核酸　　 1.优化参数提高速度,不敏感 2.不针对相关性较远的编码　区3.自动检查待查序列的互补　链 1，4　　 BLASTX　　　核酸6个翻译读框蛋白　　　 1.对于有潜在移码错误的初　步序列十分适用，如EST及　其它“单一通过”序列 2.适用于14种不同遗传密码3.有65种打分模式4.具有SEG或XNU算法的低复　杂的滤过选择 2，6　　　 BLASTP　蛋白　蛋白　 1.65种打分模式 2.低一复杂性滤过选择 3　 TBLASTN　　　　蛋白　　　　核酸6个翻译读框　　　 1.输入双链EST来查询 2.常用于发现尚未记录的开　放读框及移码错误3.14种不同遗传密码4.65种打分模式5.具有SEG或XNU算法的低复　杂度的滤过选择 5　　　　 TBLASTX　　　　核酸6个翻译读框　　　核酸6个翻译读框　　　 1.查询依赖于双链EST，双链　STS及Alu(e-mail服务除　外)2.14种不同遗传密码3.65种打分模式4.具有SEG或XNU算法的低复　杂度的滤过选择　　　　　　　　每天，全世界的科学家应用“相似性”数据库查询达几千次之多。

其基本操作是输入一个待查序列(核酸或氨基酸序列)，将之与数据库中所有已知序列相比，通过比较与查询序列相似性的高低，将之在“击中序列目录”(hit list)中排序查询结果可为阳性、阴性或结果不确切查询的目的在于寻找与待查序列有足够相似性的序列，以提供功能相似的估价若查出的序列功能不详，则可通过查询在其它生物体内该序列的同源序列或多基因家族来探讨其功能　　数据库查询的原理很简单，但已经发展了多种方法来验证查询的准确性，包括序列一致打分系统及分子生物学基本原理：蛋白质和基因常常由不同结构和功能结构域组成，而这些结构域通过综合多种序列而得到统计学方法在相似性查询中尤为重要，尤其是当数据库足够大及足够新时，查询才有意义，这一点是由众多的研究工作保障的，每周数据库都会增加数以千计的新的序列　如何检索Blast？　　通过Internet，利用BLAST提交待查序列的远程服务有诸多优点，提交待查序列的方法有3种：用E-mail、委托程序或WWW界面（基本检索、高级检索）提交序列，但均由以下四个部分构成：　　1.要执行的BLAST命令；　　2.查询的数据库名称；　　3.格及修饰物；　　4.查序列。

　　在很短的几分钟之内，你就会收到查询的结果接着你将评估是否有任何令人感兴趣的发现，这一过程包括以下两步：　　首先，确定查询结果具有统计学意义要知道对于任一待查序列，所有数据库均会给出一些序列的目录，但它们不一定具有生物学意义问题在于相似性达到什么程度对用户来说具有意义对于任一数据库给出的匹配项，BLAST会产生P值，以评定序列的相似性　　其次，假设有十分有意义的查出项，则可在数据库中搜索该序列以得到注解，该注解常含有更为详细的有关功能、表达及其他信息数据库记录也会提供一些相关文献基本过程是应用该序列的存取号，从数据库中得到记录及应用e-mail或Internet 来得到相关的文献NCBI的搜索服务器为World Wide Web/Mosaic最近修改于: BLAST 高。

下载提示

点击查看常见问题

相似文档

正为您匹配相似的精品文档