生物信息学NCBI数据库

资源描述

《生物信息学NCBI数据库》由会员分享，可在线阅读，更多相关《生物信息学NCBI数据库（71页珍藏版）》请在金锄头文库上搜索。

1、生物信息学课件吴晓龙讲述内容讲述内容一、生物信息学和我的实验室一、生物信息学和我的实验室二、二、NCBI数据库数据库一、生物信息学和我的实验室一、生物信息学和我的实验室生物信息学生物信息学（Bioinformatics）是在生命科学的研究中，以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一，同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学（Genomics）和蛋白质组学（Proteomics）两方面，具体说就是从核酸和蛋白质序列出发，分析序列中表达的结构功能的生物信息。1、生物信息学介绍具体而言，生物信息学作为一门新的学

2、科领域，它是把基因组DNA序列信息分析作为源头，在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测，然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学，蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。主要研究方向1、序列比对2、蛋白质结构比对和预测3、基因识别非编码区分析研究4、分子进化和比较基因组学6、遗传密码的起源7、基于结构的药物设计8、生物系统的建模和仿真简单重复序列简单重复序列(Simple Sequence Repeats，SSRs)也称微卫星序列(Microsatellites)或短串联重复序列(Short Tandem Repeats，STRs)

3、，是由1-6个碱基对组成的串联重复DNA片段。SSRs在真核和原核生物的基因组中分布广泛、数量丰富, 并具有较高的突变频率。如: (A)n、 (ACG)n、(ATCG)、(ACCCTT)n 2、我的实验室简单重复序列与人类疾病简单重复序列是广泛分布在人类基因组中的，尽管其中很多功能都不太清楚，但是既然存在总有它存在的意义。下面总结了一些人类基因组中由于SSR扩增或变异所引起的相关疾病我们实验是近几年发的文章NCBI数据库 1、国外的重要生物信息中心 2、NCBI介绍 1、国外重要生物信息中心17NCBI美国国家生物技术信息中心(National Center for Biotechn

4、ology Information)前身是NIH所属的一个研究所的计算生物学研究室,1988年独立为NCBI,形式上属于国家医学图书馆(National Library of Medicine/NLM)管理着许多著名数据库,如GenBank、Medline、dbSNP、COG、OMIM等提供Entrez、BLAST等服务http:/www.ncbi.nlm.nih.gov NCBI homepage19EBI欧洲生物信息学研究所(European Bioinformatics Institute)1994年建于英国剑桥,前身是德国海德堡的欧洲分子生物学实验室的信息服务部门EBI接收了原来EMB

5、L数据库的管理和维护是欧洲分子生物学网(EMBnet)的一个特别节点http:/www.ebi.ac.uk/ (主页)http:/www2.ebi.ac.uk/ (工具)http:/www3.ebi.ac.uk/ (服务)20EMBL homepage21NIG日本国立遗传学研究所(National Institute of Genetics)创立于1949年7月1日,属文部省管辖信息服务始于1984年维护管理着DDBJ1987年1月发行DDBJ第一版http:/www.nig.ac.jp22DDBJ homepage23国际核苷酸序列数据库联盟International Nucleotide

6、 Sequence Database Collaboration (INSDC)包括GenBank美 http:/www.ncbi.nlm.nih.gov/GenbankEMBL欧 http:/www.ebi.ac.uk/embl/ DDBJ日 http:/www.ddbj.nig.ac.jp/ 每天这三个数据库作数据同步操作在任何一个数据库操作(查找、投递数据等)是等效的24TIGR基因组研究所(The Institute for Genomic Research)是重要的测序中心1992年建立1995年参与完成首次全基因组测序(流感嗜血杆菌)拥有世界最大的cDNA数据库之一http:/ww

7、w.tigr.org/25基因图谱数据库 RHdb (辐射杂交; 人、鼠)，GDB (人类)，GeneMap (人类; NCBI)生物医学文献数据库 MEDLINE38003800多种生物医学期刊多种生物医学期刊 ( (通过通过PubMedPubMed查询查询) ) SCISCI ISI ISI提供的文献引用检索提供的文献引用检索 ( (收费收费) )人类基因组相关数据库 GDBGDB( (人类基因组人类基因组) )， OMIMOMIM( (遗传遗传, ,变异变异) ) ，HGVbase HGVbase 瑞典瑞典 ( (变异变异, ,双等位序列双等位序列) )其他模式生物的基因组数据库 DOG

8、S （ Database of Genome Sizes 丹麦综合）线虫 ACeDB, Sanger 果蝇 FlyBase, Berkeley 小鼠 MGD, Japan 酵母 Stanford, MIPS 大肠杆菌 WISCDNA结构数据库 CUTG (Codon Usage Tabulated from GenBank, 密码子使用频度表) 日 EPD (Eukaryotic Promotor Database, 真核生物启动子数据库) 欧 TRANSFAC (真核生物基因表达调控因子的数据库) 德 RepBase (重复序列), MicroSatellite (微卫星), COMPE

9、L (复合元件), MPDB (分子探针), NDB (晶体), VectorDB (载体), EID (外显内含子)26BioSinowww.biosino.org是中国自主开发的核酸序列公共数据库发表我国学者提供的核酸序列,并接受注册登记有CDNAP和DDIB两个产品http:/www.cdnap.org/http:/www.biosino.org/DIDWeb/index.htmlNCBI介绍 NCBI 美国国家生物技术信息中心(National Center for Biotechnology Information)前身是NIH所属的一个研究所的计算生物学研究室,1988年独立为NC

10、BI,形式上属于国家医学图书馆(National Library of Medicine/NLM)管理着许多著名数据库,如GenBank、Medline、dbSNP、OMIM等提供Entrez、BLAST等服务http:/www.ncbi.nlm.nih.gov 它的使命包括四项任务：1.建立关于分子生物学，生物化学，和遗传学知识的存储和分析的自动系统。2.实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的，先进方法的研究。3.加速生物技术研究者和医药治疗人员对数据库和软件的使用。 4.全世界范围内的生物技术信息收集的合作努力。 NCBI数据库介绍 Nucleoti

11、de 美国国立卫生研究院GenBank。 Genome 即基因组数据库，提供了多种基因组、完全染色体、 Contiged 序列图谱以及一体化基因物理图谱。 Pubmed 文献数据库。 Structures 即结构数据库或称分子模型数据库(MMDB)，包含来自 X线晶体学和三维结构的实验数据。MMDB的数据从 PDB(Protein Data Bank)获得。 Taxonomy 即生物学门类数据库，可以按生物学门类进行检索或浏览其核苷酸序列、蛋白质序列、结构等。 31Nucleotide and genomeNucleotide 该数据库由国际核苷酸序列数据库成员美国国立卫生研究院GenBan

12、k、日本DNA数据库(DDBJ)和英国Hinxton Hall的欧洲分子生物学实验室数据库(EMBL)三部分数据组成。这三个组织联合组成国际核苷酸序列数据库协作体，每天交换各自数据库中的新增序列记录实现数据共享。其中的核酸序列数据也通过与基因组序列数据库(GSDB)合作获取。选择数据库输入关键字NCBI主页进入Entrez检索Entrez简介 Entrez是个全局的生物医学搜索引擎，他可以检索的数据库主要包括三类：（1）文献数据库：PubMed，PubMed Central， Journals,Books,OMIM,OMIA。（2）序列数据库：Nucleotide,Protein,Ge

13、nome, Strcture,SNP。（3）其他数据库：Taxonomy，Gene， Probe,PopSet等无对应结果相关的结果Entrez检索的结果 Entrez 功能强大，在于它的大多数记录可相互链接，既可在同一数据库内链接，也可在数据库之间进行链接。Entrez browser来查询各种数据(集成搜索工具)基因组的相关的信息查看详细结果详细结果序列部分注释部分下载格式选择注释部分基因位点（Locus）、基因定义（Definition）、基因存取号（Accession)、关键词（Keywords）、来源（Source）、组织分类（Organism）、参考文献（Reference）、

14、著者（Author）、题目（Title）、期刊（Journal）、序列特征（Features）、基因（Gene）、蛋白质编码序列CDS(cDNA）、5非翻译区（5UTR）、 3非翻译区3UTR）、mRNA的polyA位置（polyA_site）、信使RNA（ mRNA ）、外显子（ exon ）、内含子（ intron ）、原序列（Origin）。常用序列格式：FASTA格式 1.定义：在生物信息学中，FASTA格式（又称为Pearson格式），是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码，且允许序列前添加序列名及注释。通常核苷酸符号大小

15、写均可，而氨基酸常用大写字母。 2.特点：简单使用最多例子(单序列)：gi|9629267|ref|NC_001798.1| Human herpesvirus 2, complete genomeAGTCCCCGTCCTGCCGCGCGGGGGCGGGCGCGGGAAAAAAGCCGCGCGGGGGCGCCCGCGGGAAGGCAGCCCCGCGGCGCGCGGGGGGAGGGGCGGCGCCCGCGGGGGAGCGGCCGGCTCCGGGGGAGGGACGGGGAAGG.多序列FASTA sequence1, E. colisequence1, E. colictgcgagNcgcg

16、cgatgatagMMM-ctgcgagNcgcgcgatgatagMMM-NNNngnnatgancgcggcgagcatgtagcatgctaNNNngnnatgancgcggcgagcatgtagcatgctagctgtcgcgagcactUgaURRRrrrtrrrcggccgagatcaggcgatgcatgcgcgctgtcgcgagcactUgaURRRrrrtrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVagvcgtaagggagcagcgagcgacgagcacagca

17、tgctagctagatgcatgctaVagvcgtaggcagccgccggcagccgcc sequence2, B. subtilissequence2, B. subtilisctgcgagNcgcgcgatgatagctgactNntnatganncgcggcgagcatgtagcactgcgagNcgcgcgatgatagctgactNntnatganncgcggcgagcatgtagcatgctagctgtcgcgagcactUctURRRrrrcrrrcggccgagatcaggcgatgcatgctagctgtcgcgagcactUctURRRrrrcrrrcggccgag

18、atcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVcgtgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVcgvcgtaggcagccgccvcgtaggcagccgcc sequence3, B. nattosequence3, B. nattoctgcgagNcgcgcgatgatagMcgatcccnatgannncgcggcgagcatgtagcactgcgagNcgcgcgatgatagMcgatcccnatgannncgcggcgagcatgtag

19、catgctagctgtcgcgagcactUggURRRrrrggrrcggccgagatcaggcgatgcatgctagctgtcgcgagcactUggURRRrrrggrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVaatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVaavcgtaggcagccgccvcgtaggcagccgcc42FASTA序列格式中的核苷酸表示法A A腺嘌呤腺嘌呤( (a adenosine)denos

20、ine)MMA A或或C(aC(ammino)ino)C C胞嘧啶胞嘧啶( (c cytidineytidine) )S SGG或或C(C(s strong)trong)GG鸟嘌呤鸟嘌呤( (g guanineuanine) )WWA A或或T(T(wweak)eak)T T胸腺嘧啶胸腺嘧啶( (t thymidine)hymidine)B BGG或或T T或或C CUU尿嘧啶尿嘧啶( (u uridineridine) )DDGG或或A A或或T TR RGG或或A(puA(pur rine)ine)HHA A或或C C或或T TY YT T或或C(pC(py yrimidine)rimid

21、ine)V VGG或或C C或或A AK KGG或或T(T(k keto)eto)NNA A或或GG或或C C或或T(aT(an ny)y) 不确定长度不确定长度间隔间隔43FASTA序列格式中的氨基酸表示法A A丙丙 ( (a alanine)lanine)P P脯脯 ( (p proline)roline)B BDD或或NNQQ谷氨酰胺谷氨酰胺(glutamine)(glutamine)C C半胱半胱 ( (c cystineystine) )R R精精 (a(ar rginine)ginine)DD天冬天冬(asparticaci(asparticacid d) )S S丝丝 ( (s

22、serine)erine)E E谷谷 (g(glutamicacidlutamicacid) )T T苏苏 ( (t threonine)hreonine)F F苯丙苯丙( (phphenylalanine)enylalanine)UU硒代半胱硒代半胱( (selenocysteineselenocysteine) )GG甘甘 ( (g glycine)lycine)V V缬缬( (v valinealine) )HH组组 ( (h histidine)istidine)WW色色 ( (tryptophantryptophan) )I I异亮异亮 ( (i isoleucinesoleucin

23、e) )Y Y酪酪 ( (t ty yrosinerosine) )K K赖赖 ( (lysinelysine) )Z ZEE或或QQL L亮亮 ( (l leucineeucine) )X X任何氨基任何氨基 (any)(any)MM甲硫甲硫 ( (mmethionineethionine) )* *翻译终止翻译终止( (translationstoptranslationstop) )NN天冬酰胺天冬酰胺( (asparagiasparagin ne e) ) 不确定长度不确定长度间隔间隔44GenBank查询已知收录号(accession number)的情况选数据库选数据库输入收录号输

24、入收录号查询结果摘要查询结果摘要点击查看详细结果点击查看详细结果45向GenBank投递序列GenBank提供多种工具投递序列,如BankIt (网上投递)适于少量的、注释简单的序列投递Sequin (本地投递;软件)适于大量的、复杂的序列投递可投递变异、种系发生、群体数据集图形界面操作选项多、功能强可向GenBank, EMBL, DDBJ中的任一数据库投递PubMedPubMed查找文献选择PubMed文献数据库PubMed主页输入关键词PubMed查询结果所有结果查看摘要免费文章增加筛选条件显示单篇文章摘要链接到原杂志原文章所在杂志PDF格式下载下载页面保存53关键词的选择不是特殊情况，

25、尽量使用名词原形，不使用复数、所有格等尽量使用专业用语，不使用the, of, and, research等常用词作为关键词为了减少遗漏，使用尽可能少而精的关键词Blast序列比对序列比对（sequence alignment）也称联配、队排，是生物信息学中最常用和最经典的手段。通过序列比对，可以推测基因和蛋白质的进化演变规律，或者推测基因和蛋白质的结构和功能。对于两个序列之间的比对，称之为双序列比对或成对比对。对于多序列之间的比对，称之为多序列比对。主要有BLAST和Clustal X 两种工具。Blast比对BLAST比对是Basic Local Alignment Search Tool

26、(基本局部比对搜索工具)的英文简称，是一种序列类似性检索工具。NCBI提供了网络版BIAST搜索线服务。还提供了BLAST搜索程序和下载链接。有5个子程序。主要的blast程序程序名查询序列数据库搜索方法Blastn核酸核酸核酸序列搜索逐一核酸数据库中的序列Blastp蛋白质蛋白质蛋白质序列搜索逐一蛋白质数据库中的序列Blastx核酸蛋白质核酸序列6框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。Tblastn蛋白质核酸蛋白质序列和核酸数据库中的核酸序列6框翻译后的蛋白质序列逐一比对。TBlastx核酸核酸核酸序列6框翻译成蛋白质序列，再和核酸数据库中的核酸序列6框翻译成的蛋白质序列逐一进

27、行比对。Blast结果给出的信息Blast结果会列出跟查询序列相似性比较高，符合限定要求的序列结果，根据这些结果可以获取以下一些信息。1.查询序列可能具有某种功能2.查询序列可能是来源于某个物种3.查询序列可能是某种功能基因的同源基因这些信息都可以应用到后续分析中。从主页进入blast点此进入blast主页Blast主页核酸序列比对参数设置输入需要比对的序列数据库选择程序选择比对或选择fasta格式的文件在此输入序列或序列登录号（AC）结果解读结果有三部分组成： 1. 结果总览 2. 序列比对结果的描述 3.各序列比对的详情1.结果总览红、粉、绿、蓝、黑五种颜色，红色同源性最高，排在最上面，

28、其他依次降低，黑色最低。每一条线代表搜索匹配的一条序列；2.比对结果描述与目标序列同源性最高的结果在最上面，E值最低，score最大，点击序列号可以查看详细信息。点击score可以打开对应的比对详细信息。转录产物序列基因序列匹配序列表带有genbank的链接，点击可以进入相应的genbank序列目标序列描述部分匹配情况，分值，e值Blast程序评价序列相似性的两个数据Score：使用打分矩阵对匹配的片段进行打分，这是对各对氨基酸残基（或碱基）打分求和的结果，一般来说，匹配片段越长、相似性越高则Score值越大。E value:在相同长度的情况下，两个氨基酸残基（或碱基）随机排列的序列进行打分

29、，得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。3、各序列比对详情因申请者提交的要求不同，行列输出有不同的形式，系统默认的是配对行列输出，即查询序列与数据库中匹配的序列垂直对应。空位部分代表查询序列与检索匹配序列不一致。双序列比对 Blast比对后，当在数据库中搜索到多个显著相似的序列时，目的序列是否与数据库中检索到的序列真正有关联，这时就需要进行双序列比对（pairwise alignment）。通过双序列比对分析，可以找出两序列之间的最大相似性匹配，进而判断两者是否具有同源性。Blast主页双序列比对Thank you and questions调课通知第11周周五 5、6节调到 13周周五7、8节 6舍411第12周周三1、2节调到 13周周三3、4节 6舍41171 以上有不当之处，请大家给与批评指正，以上有不当之处，请大家给与批评指正，谢谢大家！谢谢大家！

展开阅读全文

生物信息学NCBI数据库

最新文档