文档详情

ncbi使用手册模版

博****1
实名认证
店铺
DOCX
57.32KB
约30页
文档ID:527750527
ncbi使用手册模版_第1页
1/30

n c b i 使用手册-CAL-FENGHAI.Network Information Technology Company.2023YEARNCBI 资源介绍本文名目:NCBI(美国国立生物技术信息中心) 简介NCBI 站点地图NCBI 癌症基因组争论NCBI-Coffee Break NCBI-基因和疾病NCBI-UniGeneCluster of Orthologous Groups of proteins〔COG〕介绍Gene Expression Omnibus 〔GEO〕介绍LocusLink 介绍关于 RefSeq:NCBI 参考序列NCBI(美国国立生物技术信息中心)简介介绍理解自然无声但精妙的关于生命细胞的语言是现代分子生物学的要求通过只有四个字母来代表 DNA 化学亚基的字母表,消灭了生命过程的语法,其最简单形式就是人类说明和使用这些字母来组成的“单词和短语”是分子生物学领域的中心焦点数目巨大的分子数据和这些数据的隐秘而精细的模式使得计算机化的数据库和分析方法成为确定的必需挑战在于觉察的手段去处理这些数据的容量和简单性,并且为争论人员供给更好的便利来获得分析和计算的工具,以便推动对我们遗传之物和其在安康和疾病中角色的理解。

国立中心的建立后来的参议员 Claude Pepper 意识到信息计算机化过程方法对指导生物医学争论的重要性,发起了在 1988 年 11 月 4 日建立国立生物技术信息中心〔NCBI〕的立法NCBI 是在 NIH 的国立医学图书馆〔NLM〕的一个分支NLM 是由于它在10创立和维护生物信息学数据库方面的阅历被选择的,而且这可以建立一个内部的关于计算分子生物学的争论打算NCBI 的任务是进展的信息学技术来帮助对那些掌握安康和疾病的根本分子和遗传过程的理解它的使命包括四项任 务:建立关于分子生物学,生物化学,和遗传学学问的存储和分析的自动系统实行关于用于分析生物学重要分子和复合物的构造和功能的基于计算机的信息处理的,先进方法的争论加速生物技术争论者和医药治疗人员对数据库和软件的使用全世界范围内的生物技术信息收集的合作努力NCBI 通过下面的打算来实现它的四工程的: 根本争论NCBI 有一个多学科的争论小组包括计算机科学家,分子生物学家,数学家,生物化学家,试验物理学家,和构造生物学家,集中于计算分子生物学的根本的和应用的争论这些争论者不仅仅在根底科学上做出重要奉献,而且往往成为应用争论活动产生方法的源泉。

他们一起用数学和计算的方法争论在分子水平上的根本的生物医学问题这些问题包括基因的组织,序列的分析,和构造的推测目前争论打算的一些代表是:检测和分析基因组织,重复序列形式, 蛋白 domain 和构造单元,建立人类基因组的基因图谱,HIV 感染的动力学数学模型,数据库搜寻中的序列错误影响的分析,开发的数据库搜寻和多重序列对齐算法,建立非冗余序列数据库,序列相像性的统计显著性评估的数学模 型,和文本检索的矢量模型另外,NCBI 争论者还坚持推动与 NIH 内部其他争论所及很多科学院和政府的争论试验室的合作数据库和软件在 1992 年 10 月,NCBI 担当起对 GenBank DNA 序列数据库的责任NCBI 受过分子生物学高级训练的工作人员通过来自各个试验室递交的序列和同国际核酸序列数据库〔EMBL 和 DDBJ〕交换数据建立起数据库同美国专利和商标局的安排使得专利的序列信息也被整合GenBank 是 NIH 遗传序列数据库,一个全部可以公开获得的 DNA 序列的注释过的收集GenBank 同日本和欧洲分子生物学试验室的 DNA 数据库共同构成了国际核酸序列数据库合作这三个组织每天交换数据。

GenBank 以指数形式增长,核酸碱基数目或许每 14 个月就翻一个倍最近,GenBank 拥有来自 47,000 个物种的 30 亿个碱基孟德尔人类遗传〔OMIM〕,三维蛋白质构造的分子模型数据库〔MMDB〕,唯一人类基因序列集合〔UniGene〕,人类基因组基因图谱,分类学扫瞄器,同国立癌症争论所合作的癌症基因组剖析打算〔CGAP〕Entrez 是 NCBI 的为用户供给整合的访问序列,定位,分类,和构造数据的搜寻和检索系统Entrez 同时也供给序列和染色体图谱的图形视图Entrez 是一个用以整合 NCBI 数据库中信息的搜寻和检索工具这些数据库包括核酸序列,蛋白序列,大分子构造,全基因组,和通过 PubMed 检索的 MEDLINEEntrez 的一个强大和独特的特点是检索相关的序列,构造,和参考文献的力量杂志文献通过 PubMed 获得,PubMed 是一个网络搜寻界面,可以供给对在 MEDLINE 上的九百万杂志引用的访问,包含了链接到参与的出版商网络站点的全文文 章BLAST 是一个 NCBI 开发的序列相像搜寻程序,还可作为鉴别基因和遗传特点的手段BLAST 能够在小于 15 秒的时间内对整个 DNA 数据库执行序列搜寻。

NCBI供给的附加的软件工具有:开放阅读框查找器〔ORF Finder〕,电子 PCR,和序列提交工具,Sequin 和 BankIt全部的 NCBI 数据库和软件工具可以从 WWW 或FTP 来获得NCBI 还有 E-mail 效劳器,供给用文本搜寻或序列相像搜寻访问数据库一种可选方法教育和训练NCBI 通过赞助会议,研讨会,和系列演讲来培育在应用于分子生物学和遗传学的计算机领域的科学沟通一个科学访问学者工程已经成立,来培育同外部科学家的合作作为 NIH 内部的局部争论工程,也供给博士后工作位置NCBI 站点地图---关于 Database 的一般介绍GenBank Overview根本信息什么是 GenBankGenBank 是一个有来自于 70,000 多种生物的核苷酸序列的数据库每条纪录都有编码区〔CDS〕特征的注释,还包括氨基酸的翻译GenBank 属于一个序列数据库的国际合作组织,包括EMBL 和 DDBJ纪录样本 - 关于 GenBank 的各个字段的具体描述,以及同Entrez 搜寻字段的穿插索引访问 GenBank - 通过 Entrez Nucleotides 来查询。

用accession number,作者姓名,物种,基因/蛋白名字,还有很多其他的文本术语来查询关于 Entrez 更多的信息请看下文用 BLAST 来在 GenBank 和其他数据库中进展序列相像搜寻用 E-mail 来访问Entrez 和 BLAST 可以通过Query 和 BLAST 效劳器另外一种选择是可以用 FTP 下载整个的 GenBank 和更数据增长统计 - 参见公布通知的 2.2.6〔每个分类的统计〕,2.2.7〔每个物种的统计〕,2.2.8〔GenBank 增长〕小节公布通知,最 - 最近和马上有的变化,GenBank 的分类,数据增长统计,GenBank 的引用公布通知,旧 - 同上一样,是过去公布的统计遗传密码 - 15 个遗传密码的概要用来确保GenBank 中纪录的编码序列被正确的翻译〔向〕GenBank 提交〔数据〕关于提交序列数据,收到 accession number,和对纪录作更的一般信息BankIt - 用于一条或者少数条提交的基于WWW 的提交工具软件〔请在提交前用 VecScreen 去除载体〕Sequin - 提交软件程序,用于一条或者很多条的提交,长序列,完整基因组, alignments,人群/种系/突变争论的提交。

可以独立使用,或者用基于 TCP/IP 的“network aware模”式,可以链接到其他 NCBI 的资源和软件比方 Entrez 和PowerBLAST〔请在提交前用VecScreen 去除载体〕ESTs - 表达序列标签,短的、单次〔测序〕阅读的 cDNA 序列也包括来自于差异显示和 RACE 试验的 cDNA 序列GSSs - 基因组调查序列,短的、单次〔测序〕阅读的 cDNA 序列,exon trap 获得的序列,cosmid/BAC/YAC 末端,及其他HTGs - 来自于大规模测序中心的高通量基因组序列,未完成的〔阶段 0,1, 2〕和完成的〔阶段 3〕序列〔留意:完成的人类的 HTG 序列可以同时在GenBank 和 Human Genome Sequencing 页面问〕STSs - 序列标签位点短的在基因组上可以被唯一操作的序列,用于产生作图位点注:SNPs - 人类的和其他物种的遗传变异数据可以提交到 NCBI 数据库的单核苷酸多态性库中〔dbSNP〕国际核苷酸序列数据库合作组织GenBank,DDBJ,EMBL - 合作打算的概述,并链接到相应的主页GenBank,DDBJ〔DNA Data Bank of Japan〕,and EMBL 〔European Molecular Biology Laboratory〕数据库共享的数据是每天都交换的,因此他们是相等的。

数据纪录的格式和搜寻方式可能会不一样,但是 accession number,序列数据和注解都是一模一样的即,你可以用accession number U12345 在 GenBank,DDBJ 或 EMBL 中查找相应纪录,得到的结果是完全一样的序列数据,参考内容等等DDBJ/EMBJ/GenBank 特性表 — 特性表格式和标准被合作数据库用在序列记录的注释上,使得数据共享成为可能,包括具体的描述生物特性和特性限定语的附录,以及 IUPAC 规定的核苷酸和氨基酸的代号FTP GenBank and Daily UpdatesGenBank 一般文件格式 — 参见 GenBank 记录样本和在GenBank 公布通知中的具体描述,下载大多数最近的完全公告和日常积存或非积存更数据ASN.1 格式 — 摘要句法记号 1,国际标准组织〔ISO〕数据表示格式,下载大多数最近的完全公告和日常积存或非积存更数据FASTA 格式 — 定义行号后只跟随序列数据〔例如〕,参见描述数据库的readme 文件,包括 nt.Z〔每天更的非冗余 BLAST 核酸数据库,包括GenBank+EMBL+DDBJ+PDB 序列,但是不包括 EST, STS, GSS, or HTGS 序列〕,nr.Z〔每日更的非冗余蛋白质〕,est.Z, gss.Z, htg.Z, sts.Z,和其它文件。

核酸序列Entrez 核酸 — 用 accession number,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜寻核酸序列记录〔在 GenBank + PDB 中〕更多的关于 Entrez 的信息见下假设要检索大量数据,也可使用 Batch Entrez〔批量Entrez〕RefSeq — NCBI 数据库的参考序列校正的,非冗余集合,包括基因组 DNA contigs,基因的 mRNAs 和蛋白,在将来,整个的染色体Accession numbers 用 NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和 NC_xxxxxx 的形式来表示dbEST — 表达序列标签数据库,短的、单次〔测序〕阅读的。

下载提示
相似文档
正为您匹配相似的精品文档
相关文档