NCBI数据库及其资源的获取 【摘 要】NCBI是美国的一个大型生物信息学系统,它主要通过 NCBI网站为全世界的科学家服务,它拥有多种数据库查询工具,以及多种数据库分析资源,对于我们查询文献、人类基因组信息、基因表达、蛋白质结构、肿瘤遗传信息,以及不同种属遗传信息等等有特别大的帮助,是一个特别重要的生物医学资源 【关键词】NCBI;数据库;检索 目前,有一些大型生物学数据库包含了众多的生物学资源,我们可以便利地从国际互联网上查询,不仅便利了思想和资料的沟通,削减了很多重复性的工作,也供应了一种新的工作方式和思维方式,其中最常用的是美国的National Center forBiotechnology Information[1]美国国家生物技术信息中心是美国国立卫生探讨院的国立医学图书馆的一个分支NLM于11018年11月4日建立国家生物技术信息中心,简称NCBI除了维护GenBank数据库外,它还供应基于Gen-Bank和多种生物学数据库的检索和分析服务[2] 1 NCBI的主要任务 NCBI为储存和分析分子生物学、生物化学、遗传学学问创建自动化系统;从事探讨基于计算机的信息处理过程的高级方法,用于分析生物学上重要的分子和化合物的结构与功能;促进生物学探讨人员和医护人员应用数据库和软件; 努力协作以获得世界范围内的生物技术信息。
2 NCBI的安排 NCBI有一个多学科的探讨小组包括计算机科学家,分子生物学家,数学家,生物化学家,试验物理学家,和结构生物学家,集中于计算分子生物学的基本的和应用的探讨这些探讨者不仅仅在基础科学上做出重要贡献,而且往往成为应用探讨活动产生新方法的源泉他们一起用数学和计算的方法探讨在分子水平上的基本的生物医学问题这些问题包括基因的组织,序列的分析,和结构的预料目前探讨安排的一些代表是:检测和分析基因组织,重复序列形式,蛋白domain和结构单元,建立人类基因组的基因图谱,HIV感染的动力学数学模型,数据库搜寻中的序列错误影响的分析,开发新的数据库搜寻和多重序列对齐算法,建立非冗余序列数据库,序列相像性的统计显著性评估的数学模型和文本检索的矢量模型另外,NCBI探讨者还坚持推动与NIH内部其他探讨所及很多科学院和政府的探讨试验室的合作 3 NCBI供应检索的服务 NCBI数据库的检索方法很简洁,在检索框中输入检索词,检索词间默认逻辑关系为AND,通过下拉菜单选择记录的显示格式,通常选择GenBank Report格式或FASTA Report格式当选择GenBank Report格式后,屏幕显示较完整的基因记录,其内容包括:基因位点、基因定义、基因存取号、核酸编号、关键词、 来源、组织分类、参考文献、 著者、题目、期刊Journal)、Medline存取号、序列特征、基因、CDS、等位基因 对等的肽、计算碱基数、原序列。
而FASTA Report格式仅包括检出序列的简要特征描述 3.1 GenBank Gen bank由NCBI建立和维护该数据库包含了全部已知的核苷酸序列和蛋白质序列,以及相关的文献著作和生物学注释数据涉及7万多个物种,其中56%是人类的基因组序列数据来源于测序工作者提交的序列、测序中心提交的大量EST序列和其它测序数据每条Gen bank数据记录都包含了对序列的简要描述、科学命名、物种分类名称、参考文献、序列特征表以及序列本身序列特征表里包含对序列生物学特征注释,如:编码区、转录单元、重复区域、突变位点或修饰位点等全部数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被各自分成若干个文件 GenBank是由NCBI受过分子生物学高级训练的工作人员通过来自各个试验室递交的序列和同国际核酸序列数据库交换数据建立起数据库的它同日本和欧洲分子生物学试验室的DNA数据库共同构成了国际核酸序列数据库合作这三个组织每天交换数据其中的数据以指数形式增长,核酸碱基数目也许每14个月就翻一个倍最近,GenBank拥有来自47,000个物种的30亿个碱基。
GenBank的宗旨是激励科研团体对DNA序列的获得,从而促进数据库中DNA序列的丰富和更新,所以NCBI对GenBank的数据运用与发送没有任何限制用户可从GenBank主页上下载Banklt、Sequin以及VecScreen等便于提交和更新探讨成果的应用软件其页面上的简洁检索界面供应19种相关检索选项,分别是:PubMed、Protein、Nucleotide、Structure、Genome、PMC、LocusLink、PopSet、OMIM、Taxonomy、Books、ProbeSet、3D Domains、UniSTS、Domains、SNP、Journals、UniGene、NCBI Web Site GenBank可以与DNA Star软件结合运用,进行基因序列分析和比对大型数据库分成若干子库,有很多好处首先,可以把数据库查询限定在某一特定部分,以便加快查询速度其次,基因组安排快速测序得到的大量序列尚未加以注释,将它们单独分类,有利于数据库查询和搜寻时“有的放矢”GenBank将这些数据按高通量基因组序列、表达序列标记、序列标记位点和基因组概览序列单独分类。
尽管这些数据尚未加以注释,它们依旧是GenBank的重要组成部分 完整的GenBank数据库包括序列文件,索引文件以及其它有关文件索引文件是依据数据库中作者、参考文献等子段建立的,用于数据库查询GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库,其数据格式为FastAGenBank曾以CD-ROM光盘的形式分发,价格比较便宜随着数据库容量的增长,一套最新版的GenBank须要12张光盘存放,不仅生产成本很高,也不便于运用现在,光盘分发的方式已经停止,可以通过网络下载GenBank数据库 假如在文献中看到过你感爱好的基因,而且文中还提到了该基因在Genbank中的ID号,进入NCBI ,在Search后的下拉框中选择Nucleotide,把Genbank ID号输入GO前面的文本框中,点“GO”,即可以检索到所需序列 3.2 Molecular Databases 3.2.1 Nucleotide Sequence:从NCBI其他如Genbank数据库中收集整理核酸序列,供应干脆的检索该数据库与日本DNA数据库和英国Hinxton Hall的欧洲分子生物学试验室数据库三部分数据组成国际核酸序列联合数据库中心。
这三个组织联合组成国际核苷酸序列数据库协作体,每天交换各自数据库中的新增序列记录实现数据共享其中的序列数据也通过与基因组序列数据库合作获得;专利序列数据通过与美国专利与商标局、国际专利局合作获得 3.2.2 Protein Sequence :与核酸类似,也是从NCBI多个不同资源中编译整理的,便利探讨者的干脆查询该序列库中的资料来至Genbank和其他的蛋白序列库如PIR、SWISS-PROT 、PROSITE 、PDB 、SCOP等 3.2.3 Structure即结构数据库或称分子模型数据库,包含来自X线晶体学和三维结构的试验数据MMDB的数据从PDB获得NCBI已经将结构数据交叉链接到书目信息、序列数据库和NCBI的Taxonomy中运用NCBI的3D结构阅读器和Cn3D,可以很简单地从Entrez获得分子的分子结构间相互作用的图像 3.2.4 Taxonomy——NCBI的分类数据库,包括大于7万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列其目的是为序列数据库建立一个一样的种系发生分类学可以按生物学门类进行检索或阅读其核苷酸序列、蛋白质序列、结构等。
3.3 Literature Databases 3.3.1 PubMed系统是由NLM的NCBI开发的用于检索MEDLINE、PreMEDLINE数据库的网上检索系统从19101年6月起,PubMed在网上免费向用户开放它具有收录范围广泛、更新速度快、检索系统完备、链接广泛的特点PubMed系统包含三个数据库:MEDLINE、PreMEDLINE和Record supplied by Publisher能够对MEDLINE上超过1200万条的上世纪六十年头中期至今的杂志引用和其他的生命科学期刊进行访问,并可以连接到参加的出版商网络站点的全文文章和其他相关资源 基本检索功能 自动词语匹配功能 可以实现词语的自动转换和匹配,主要通过4个表来进行:MeSH转换表、刊名转换表、短语表、著者索引表在检索提问栏内输入一个或若干个检索词,系统将依次到以上4个表中进行词语匹配,直到找到相匹配的词为止 截词功能 可以运用"*"作为通配符进行截词检索系统只检索前150个词形改变 词组检索功能也叫强制检索功能很多短语可以通过自动词语匹配功能检索,但是当所键入的短语没有所对应的匹配词组时,如single cell,系统将会分别检索single和cell,然后用AND将其组配起来。
可以运用""强制系统把single cell当成一个不行分割的词组进行检索 布尔检索 PubMed支持布尔逻辑检索,运算符号必需大写,分别是:逻辑与AND,逻辑或OR,逻辑非NOT运算依次是从左到右执行,可以通过变更运算次序 限定检索 有字段限定检索;日期和日期范围的限定检索;其它限定检索 协助检索功能 Limits 限定的主要功能是进行限定检索 Preview/Index 可实现在显示检索结果前显示检索结果的数量;加词检索;特定字段加词检索;从索引表中选择检索词 History 主要用于查看检索策略和检索结果的数量 3.3.2 PMC/PubMed Center:也是NLM的生命科学期刊文献的数字化存储数据库,用户可以免费获得PMC的文章全文,除了部分期刊要求对近期的文章付费 3.3.3 OMIM:是人类基因与疾病基因的书目数据库,该数据库包括原文信息、图片和参考信息有关人类基因和无序基因的书目数据库由Victor A.McKusick和他的同事共同创建和编辑的,由NCBI网站负责开发,其中也包括对MEDINE众多资源和Entrez系统的序列记录,以及NCBI中其他有关资源的链接。
该数据库在人类遗传方面具有特别重要的应用价值 3.3.4 Books:NCBI的书库不断收集生物医学方面的书籍,供应这些书籍的出版信息、摘要、书目和全文的连接,用户可以干脆在检索文本框内输入一个观念就可以查询 4 NCBI供应的附加软件工具 开放阅读框寻找器,电子PCR,和序列提交工具Sequin和BankIt全部的NCBI数据库和软件工具可以从WWW或FTP来获得NCBI还有E-mail服务器,供应用文本搜寻或序列相像搜寻访问数据库一种可选方法 NCBI网站上还供应了一些诸如探讨热点问题、探讨小组状况、教化培训、联系方式等信息,还供应了到NIH、NLM等的链接 5 结束语 领悟无声但精妙的生命细胞的语言是现代分子生物学的追求通过只有四个字母来代表DNA化学亚基的字母表,出现了生命过程的语法,其最困难形式就是人类阐明和运用这些字母来组成新的“单词和短语”是分子生物学领域的中心焦点数目浩大的分子数据和这些数据的隐秘而精细的模式使得计算机化的数据库和分析方法成为肯定的必需发觉新的手段去处理这些数据的容量和困难性,并且为探讨人员供应更好的便利来获得分。