生物信息学及其相关数据库

上传人:新** 文档编号:568470571 上传时间:2024-07-24 格式:PPT 页数:62 大小:3.28MB
返回 下载 相关 举报
生物信息学及其相关数据库_第1页
第1页 / 共62页
生物信息学及其相关数据库_第2页
第2页 / 共62页
生物信息学及其相关数据库_第3页
第3页 / 共62页
生物信息学及其相关数据库_第4页
第4页 / 共62页
生物信息学及其相关数据库_第5页
第5页 / 共62页
点击查看更多>>
资源描述

《生物信息学及其相关数据库》由会员分享,可在线阅读,更多相关《生物信息学及其相关数据库(62页珍藏版)》请在金锄头文库上搜索。

1、生物信息学及其相关数据库生物信息学及其相关数据库 1 1 生物信息学的概念生物信息学的概念 生物信息学是生物学与计算机科学及应用数生物信息学是生物学与计算机科学及应用数学等学科相互交叉而形成的一门新兴学科。它通学等学科相互交叉而形成的一门新兴学科。它通过对生物学实验数据的获取、加工、存储、检索过对生物学实验数据的获取、加工、存储、检索与分析,进而达到提取数据所蕴含的生物学意义与分析,进而达到提取数据所蕴含的生物学意义的目的,它由数据库、计算机网络和应用软件三的目的,它由数据库、计算机网络和应用软件三大部分构成。大部分构成。 序列图谱序列图谱物理图谱物理图谱遗传图谱遗传图谱基因图谱基因图谱基因组

2、测序完成生物及基因数目预测基因组测序完成生物及基因数目预测 生物生物 基因组大小基因组大小 完成时间完成时间 预计基因数目预计基因数目 酵母12.1Mb19966,034线虫97Mb199819,099果蝇180Mb200013,061拟南芥 125Mb200025,498人类3000Mb200126,000-38,000水稻460Mb200144,000-65,000 150多个物种的基因组测序完成/正在进行中2 生物信息学的重要研究内容生物信息学的重要研究内容2.1 2.1 大规模基因组测序中的信息分析大规模基因组测序中的信息分析2.2 2.2 大规模基因功能表达谱的分析大规模基因功能表达

3、谱的分析目前建立的数据库目前建立的数据库1 1、核酸序列数据库、核酸序列数据库NCBI数据库数据库DDBJ数据库数据库2 2、蛋白质序列数据库、蛋白质序列数据库蛋白质的一级数据库蛋白质的一级数据库蛋白质的二级数据库蛋白质的二级数据库蛋白质的三级数据库蛋白质的三级数据库3 3、结构数据库、结构数据库4 4、基因组数据库、基因组数据库一、核酸序列数据库一、核酸序列数据库1、NCBI数据库数据库(National Center for Biotechnology information ) 美国国家生物技术信息中心美国国家生物技术信息中心(NCBI) 有一系列的有一系列的生物信息学数据库其集成系统生

4、物信息学数据库其集成系统Entrez包括:包括: 序列报告数据库序列报告数据库 Nucleotide 蛋白质信息数据库蛋白质信息数据库 Protien 结构数据库结构数据库 Structure 基因组数据库基因组数据库 Genoma 遗传信息知识库遗传信息知识库 OMIM等等 1.2 NCBI1.2 NCBI上常用的生物学资源上常用的生物学资源 常用的生物学资源主要有以下几种:常用的生物学资源主要有以下几种:1.2.1 GeneBank数据库数据库 GeneBank数据库由数据库由17个子库组成,存有超过个子库组成,存有超过105000个不同的生物体的核苦酸序列,每条个不同的生物体的核苦酸序列

5、,每条GeneBank数据记录包含了对序列的简要描述,它的数据记录包含了对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,科学命名,物种分类名称,参考文献,序列特征表,以及序列本身的碱基组成。以及序列本身的碱基组成。 1.2.2 EST数据库数据库 对对cDNA文库克隆的随机测序所得到的两端各文库克隆的随机测序所得到的两端各200-400bp左右的序列被称为表达序列标记左右的序列被称为表达序列标记(EST)。在。在GeneBank等的等的EST数据库中有存有包括人、鼠、牛、数据库中有存有包括人、鼠、牛、猪、狗、线虫、水稻、果蝇等的大量的猪、狗、线虫、水稻、果蝇等的大量的EST

6、序列。序列。1.2 NCBI1.2 NCBI上常用的生物学资源上常用的生物学资源 其中常用的生物学资源主要有以下几种:其中常用的生物学资源主要有以下几种:1.2.3 UniGene数据库数据库 被整理成簇的被整理成簇的EST和全长和全长mRNA序列序列 1.2.4 电子电子PCR(E-PCR) 1.2.5 BLAST家族家族 1.2.6 Entrez信息检索系统信息检索系统 1.2 NCBI上常用的生物学资源上常用的生物学资源 BLAST家族家族 BLAST是目前最常用的是目前最常用的DNA和蛋白质序列数据库搜索算法。和蛋白质序列数据库搜索算法。BLASTP:比较一个查询蛋白序列和一个蛋白序列

7、数据库:比较一个查询蛋白序列和一个蛋白序列数据库BPASTN:比较一个核酸查询序列和一个核酸序列数据库:比较一个核酸查询序列和一个核酸序列数据库BLASTX:比较一个查询核酸序列和一个蛋白序列数据库,:比较一个查询核酸序列和一个蛋白序列数据库,能用此方法发现一个未知核酸序列的潜在翻译产物能用此方法发现一个未知核酸序列的潜在翻译产物TBLASTN:比较一个查询蛋白序列和一个核酸序列数据库:比较一个查询蛋白序列和一个核酸序列数据库TBLASTX:将:将DNA查询序列和核酸序列库中的序列全部翻查询序列和核酸序列库中的序列全部翻译成蛋白质序列,然后进行蛋白质序列比较译成蛋白质序列,然后进行蛋白质序列比

8、较BLAST Search Page3. Enter a nucleotide or protein sequence. The sequences can be copied and pasted into the window. 1. Select desired Program. See Program list below for descriptions. 2. Select desired Database. See Database list below for options. 4. Hit the button to “Run BLAST” search BLAST Resu

9、lts Summary Page Select the link to view the pairwise alignment of the query sequence to the respective BLAST database entry.Select a Sequence to view the corresponding Ensembl Protein Report. Indicates the expected valueSelect the sequence accession to view detailed information on the corresponding

10、 sequence entry with the best match.(Follow the genome browser - Slide 5 )BLAST Results: Alignment sectionPairwise sequence alignment of the query sequence to the respective BLAST database entry. Summary of the alignment scores, expected values and percent identitiesBLAST databasesThere are a number

11、 of sequence datasets available for Rice, Maize, Sorgum, Wheat and Barley cereals in Gramene BLAST searches. 2 DDBJ数据库数据库 DDBJ (DNA Data bank Japan)数据库创建数据库创建于于1984年,由日本国立遗传学研究所遗传信息年,由日本国立遗传学研究所遗传信息中心维护。截至中心维护。截至2002年年6月,共收录月,共收录17260693条记录,条记录,20158357982个序列。该数据库格式个序列。该数据库格式与与GenBank一致。一致。 DDBJ数据库主

12、页除了数据数据库主页除了数据库检索功能外,还有数据提交、数据分析等功库检索功能外,还有数据提交、数据分析等功能能. 二、蛋白数据库资源二、蛋白数据库资源 2.1 蛋白质的一级数据库蛋白质的一级数据库 蛋白质的一级数据库是收集其氨基酸序蛋白质的一级数据库是收集其氨基酸序列的数据库,有列的数据库,有SWISS-PROT和和PIR等。等。 SWISS-PROT是一个加注释的蛋白序列是一个加注释的蛋白序列库。蛋白序列来自于库。蛋白序列来自于NCBI核酸数据库的核核酸数据库的核酸序列翻译,注释来源于文献记录或由序列酸序列翻译,注释来源于文献记录或由序列提交者提供。提交者提供。 2.2 蛋白质的二级数据库

13、蛋白质的二级数据库 二级数据库或称为模式数据库。其资源二级数据库或称为模式数据库。其资源是建立在对一级数据库的序列分析基础上是建立在对一级数据库的序列分析基础上的。结构和功能未知的序列通过模式数据的。结构和功能未知的序列通过模式数据库的搜索,以确定是否含有某种预制的特库的搜索,以确定是否含有某种预制的特征,从而推测其所属的蛋白质家族。常用征,从而推测其所属的蛋白质家族。常用的模式数据库有的模式数据库有PROSITE、BLOCKS、PROFILE等。等。 PROSITE是最早的模式数据库。它的构建是最早的模式数据库。它的构建方法是单基序法,也就是说一个特定家族方法是单基序法,也就是说一个特定家族

14、以序列比对中单个最保守序列为特征,此以序列比对中单个最保守序列为特征,此保守区域通常也是功能重要区。保守区域通常也是功能重要区。 BLOCKS是最早利用多基序法建立的数据是最早利用多基序法建立的数据库,是以库,是以PROSITE中已识别的蛋白质家族中已识别的蛋白质家族为基础构建而成。为基础构建而成。 PROFILE是用全结构域比对法建立的。是用全结构域比对法建立的。 Searching the Protein Database1. Search by entering a term. 2. Search by Pfam or PROSITE (See Slide 9 for more info

15、). 3. Browse by Gene Ontology (See Slide 12 for more info). oror4. Search by sequence homology (See Slide 15 for more info). orClick at HELP on the protein search section for more informationSelect “Wildcard” for a broader search. Describes the type of experiments carried out to ascertain the protei

16、ns function, e.g. ISS: Inferred from sequence or structural similarity.Select to view the Protein General Information Page.Search by either a protein or gene name, a subspecies, a cultivar/germplasm, the Gramene/Swissprot Accession number or the Swissprot ID. Results for term searchIf the protein is

17、 an enzyme and has a recognized Enzyme Commission (EC) number, select to view more information about the enzyme. Recognized symbol for the gene encoding this protein.Select to view the location of the gene in the rice genome (Genome Browser tutorial available also). Cross references to GenBank and S

18、WISSPROT protein entries.Select to retrieve the sequence in FASTA format.Protein General Information PageSelect to view more information on the function, process, or cellular component association from the Gene Ontology (GO) Database (Ontology tutorial available also). Select to view the reference s

19、ource used to assign the GO term. Next view in Protein: Gene ontology associationsIn order to find the homologs from the already selected species, select to link to the National Center for Biotechnology Informations (NCBI) BLink display. By default the views show the alignments by taxonomic proximit

20、y and not BLAST score (BLAST tutorial available also).In order to find the structural homologs, select to link to the NCBIs PDB and Univ. College Londons SAS database of protein structures. Since there is a limitation on structural homologs, it is not uncommon to have no hits. Next view in Protein:

21、Similarity to other proteinsIdentifies the Protein family. Select to view more details from Pfam/PROSITE. Select to view a list of all the protein entries that belong to this Protein family or share the PROSITE domain. Select to view physiochemical properties at ProtParam. Identifies any important f

22、eatures found on the protein molecule, the feature start and stop position, and the reference and experiment type used in ascertaining the location and type of feature.Next view in Protein: Associated featuresSelect to search for more references in the literature database that were not cited in the

23、curation (Literature tutorial available also). Final view in Protein: Literature referencesSearch by either a Pfam / PROSITE Class or an identifier such as PF00281. Note: Some proteins do not have associations to Pfam and PROSITE features. This will restrict your search. Search by Pfam or PROSITEAct

24、ual name of the Pfam/PROSITE Class. Pfam/PROSITE Accession. Select to display all the protein entries that are either members of that Protein Family or carry that PROSITE recognized domain. Results for Pfam or PROSITE SearchProtein Name as recorded in Gramene. Select to view the Gramene Protein Gene

25、ral Information Page. Select to view the SWISSPROT protein entry page. Select to view the GenBank (NCBI) protein entry page. Select to view the Pfam/PROSITE annotation.Select to view the Pfam/PROSITE database for more information on the protein family or the Domain.Proteins associated to a given Pfa

26、m or PROSITE class1. Paste desired sequence in either FASTA or raw format. 2. Select the Program “blastp.”3. Select Rice_Swissprot database or Rice_japonica_Genemodel_Prtoteins4. Select “Run BLAST.”5. On the BLAST results page, select the accession that gives you the best hit. This will link you to

27、the respective Protein General Information Page. Search by sequence homology to proteins(BLAST tutorial available also.)2.3 蛋白质的三级数据库蛋白质的三级数据库PDB(Protein Daba Bank)是目前最重要的蛋是目前最重要的蛋白质三级结构数据库白质三级结构数据库. 82:x线晶体衍射线晶体衍射 16:核磁共振法:核磁共振法2:是通过理论建模:是通过理论建模 三、基因表达调控分析三、基因表达调控分析 基因正确的表达有赖于一个复杂的调控基因正确的表达有赖于一个复杂的

28、调控系统,而转录因子与转录因子结合部位的系统,而转录因子与转录因子结合部位的相互作用是这一系统的重要组成部分。不相互作用是这一系统的重要组成部分。不同的转录因子对外界环境的各种刺激或不同的转录因子对外界环境的各种刺激或不同发育阶段的各种信号做出反应,结合于同发育阶段的各种信号做出反应,结合于转录调控元件,激活或抑制基因的转录,转录调控元件,激活或抑制基因的转录,从而控制不同基因的表达从而控制不同基因的表达 。确定单个基因调控元件的传统实验方法确定单个基因调控元件的传统实验方法产生一组缺失重建体产生一组缺失重建体 确定启动转录所必需的确定启动转录所必需的最短序列最短序列DNAseI超敏感位点研究

29、超敏感位点研究 确定转录因子结合的确定转录因子结合的区域区域DNA足迹和凝胶阻滞实验足迹和凝胶阻滞实验 确定结合不同调控确定结合不同调控蛋白的调控元件序列蛋白的调控元件序列3.1 确定启动子确定启动子通常确定启动子的算法可以分成两种通常确定启动子的算法可以分成两种一种根据启动子区各种转录信号,如一种根据启动子区各种转录信号,如TATA box、CAAT box结合对这些保守信号及信号间保守的空间结合对这些保守信号及信号间保守的空间排列顺序的识别进行预测。如排列顺序的识别进行预测。如PROMOTER20;另一种方法根据启动子区序列的特征进行预测。另一种方法根据启动子区序列的特征进行预测。Prom

30、oter Inspector从一组序列中提取出启动子区的从一组序列中提取出启动子区的环境特征,并将外显子、内含子和环境特征,并将外显子、内含子和3端非翻译区的特端非翻译区的特征与启动子区加以区分,从而在基因组中确定启动征与启动子区加以区分,从而在基因组中确定启动子位置。子位置。3.2 转录因子结合部位预测转录因子结合部位预测 启动子区确定后,可以通过计算机搜索数启动子区确定后,可以通过计算机搜索数据库寻找转录因子结合部位。大多数转录据库寻找转录因子结合部位。大多数转录因子结合于短而简并的序列,这些序列在因子结合于短而简并的序列,这些序列在基因组中非常常见。基因组中非常常见。 TRANCFAC数

31、据库从发表的文献中收集了数据库从发表的文献中收集了转录因子、转录因子结合部位及结合部位转录因子、转录因子结合部位及结合部位序列信息。目前很多转录因子结合部位的序列信息。目前很多转录因子结合部位的预测都是以这个数据库为基础进行的。预测都是以这个数据库为基础进行的。 转录因子的作用并不只限于单个基因。转录因子的作用并不只限于单个基因。大多数转录因子在多个基因的启动子中都大多数转录因子在多个基因的启动子中都有其相应的结合部位,调节这些基因的表有其相应的结合部位,调节这些基因的表达。因此,那些具有共同的转录调控元件,达。因此,那些具有共同的转录调控元件,结合一些共同的转录因子,从而对共同的结合一些共同

32、的转录因子,从而对共同的信号通路发生反应的基因被认为是共转录信号通路发生反应的基因被认为是共转录基因。目前已经有很多研究利用基因芯片基因。目前已经有很多研究利用基因芯片技术,确定对不同转录因子或外界刺激发技术,确定对不同转录因子或外界刺激发生差异表达的基因。生差异表达的基因。 四、生物信息学与基因组研究相关四、生物信息学与基因组研究相关的数据库及软件的数据库及软件4.1 相关数据库相关数据库进入生物学数据库的检索工具:进入生物学数据库的检索工具: Entrez: http:/www3.ncbi.nlm.nih.gov/ Entrez /index.html SRS:http:/www.ebi.

33、ac.uk/srs/srsc基因序列数据库:基因序列数据库: GenBank:http:/www. ncbi.nlm.nih.gov/ EMBL:http:/www.ebi.ac.uk DDBJ:http:/www.nig.ac.jp GSDB:http:/www.ncgr.org四、生物信息学与基因组研究相关四、生物信息学与基因组研究相关的数据库及软件的数据库及软件蛋白质结构及序列数据库蛋白质结构及序列数据库:蛋白质序列蛋白质序列 PIR:http:/www.gdb.org/dna/proteins/pir.html SwissProt:http:/expasy.hcuge.ch/sprot

34、/sprot.top.html蛋白质三维结构蛋白质三维结构 Swiss 3D-IMAGE:http:/expasy.hcuge.ch/pub/graphics二维蛋白胶二维蛋白胶 Swiss 3D:http:/ expasy.hcuge.ch/ch2d/ch2d.top.html蛋白质三级结构数据库蛋白质三级结构数据库 PDB:http:/www.pdb.bnl.gov蛋白质保守的模序和图形蛋白质保守的模序和图形 PROSITE:http:/www. expasy.hcuge.ch/sprot/prosite.html Blocks:http:/www.blocks.fhcrc.org生物信息

35、中心及生物信息学:生物信息中心及生物信息学: John Hopkins bioinformatics Web Server:http:/www.gdb.org/hopkins.html Bio SCAN: http:/genome.cs.unc.edu Gmu Bio informatics Database List:http:/www.science.gmu.edu/michaels/Bioinformatics/database.html OMIM: http:/ www.gdb.org/omimdoc/omimtop.html四、生物信息学与基因组研究相关四、生物信息学与基因组研究相关

36、的数据库及软件的数据库及软件4.3 相关软件相关软件4.3.1 DNA序列测序软件序列测序软件 Staden程序包程序包: http:/www.mrclmb.cam.ac.uk/pubseq/downloads.html4.3.2 DNA序列分析软件序列分析软件 DNA序列显示和注释工具:序列显示和注释工具:Artemis:http:/www.sanger.ac.uk/software/Artemis/ 基因判认工具:基因判认工具:Genescan:http:/genomic.stanford.edu/GENSCAN.html4.3.3 PCR和测序所需引物的设计程序和测序所需引物的设计程序

37、primer 5.0 : http:/www.genome.wwi.mit.edu/cgi-bin/primer/info.cgi/ Primer Design:Ftp:/ftp.chemie.unimarburg.de(/pub/PrimerDesign/四、生物信息学与基因组研究相关四、生物信息学与基因组研究相关的数据库及软件的数据库及软件4.3.4 序列相似性和同源比较:序列相似性和同源比较:同源比较最常用的软件:同源比较最常用的软件:CLUSTAL(Ftp:/ftp.igbmc.ustrasbg.fr/pub/clustalw相似性比较最常用的软件:相似性比较最常用的软件:BLAST(

38、http:/www.ncbi.nlm.nih.gov/blast/) FASTA(http:/www2.ebiac.uk/fasta3/)4.3.5 系统进化树构建和稳定性分析系统进化树构建和稳定性分析 PYLIP:http:/evolution.genetics.washington.edu/phylit.html MEGAT: http:/www.bio.psu.edu/faculty/nei/imeg四、生物信息学与基因组研究相关四、生物信息学与基因组研究相关的数据库及软件的数据库及软件The Rice PIPELINE: a unification tool for plant fun

39、ctional genomics Junshi Yazaki, Keiichi Kojima1, Kouji Suzuki1, Naoki Kishimoto and Shoshi Kikuchi*http:/cdna01.dna.affrc.go.jp/PIPE/Nucleic Acids Research, 2004, Vol. 32, D383-D387International Rice Genome Sequencing Project The rice genome sequence highly accurate level (99.99%) Syngenta and the B

40、eijing Genomics Institute the whole genome sequence of a monocot plant (O.sativa) and a dicot (A.thaliana).the Rice Genome Project of Japan 30 000 full-length cDNAs 8987 EST 3200 DNA 50 000 transposon insertion linesNIAS homepage www.nias.affrc.go.jp/index_e.htmlUnified tool cdna01.dna.affrc.go.jp/P

41、IPE/Genome map & sequence rgp.dna.affrc.go.jp/giot/INE.htmlFull length cDNA cdna01.dna.affrc.go.jp/cDNA/Expression profile red.dna.affrc.go.jp/RED/Mutant line tos.nias.affrc.go.jp/Plant cis element www.dna.affrc.go.jp/htdocs/PLACE/Genome resource www.dna.affrc.go.jp/Rice Microarray Opening Site micr

42、oarray.rice.dna.affrc.go.jpGenome consortium rgp.dna.affrc.go.jp/IRGSP/Genome research program rgp.dna.affrc.go.jp/Genome database www.shigen.nig.ac.jp/rice/oryzabase/Genome annotation system RiceGAAS.dna.affrc.go.jp/Genome annotation rgp.dna.affrc.go.jp/RiceHMM/FEATURES OF THE TOOLKOME, INE, RED, T

43、os17, PLACEinput of any clone sequence, clone name, GenBank accession number, or keyword. a multiple BLAST search resultthe two rice cultivarsINTEGRATED DATABASES IN RICE PIPELINE INE(Genome map & sequence): a database that integrates the genetic map, physical map and sequencing information of the r

44、ice genome.Integrated maps are presented for each chromosome. A marker search leads directly to the data available on specific DNA clones. This information can be used to identify gene function and elucidate chromosome structure.INTEGRATED DATABASES IN RICE PIPELINE KOME(Full length cDNA) a database

45、 of rice full-length cDNAs of 28 469 unique genes full sequencing nucleotide analysis amino acid analysis GO classification digital mapping on the genome sequences of indica and japonica cultivarsINTEGRATED DATABASES IN RICE PIPELINE PLACE(Plant cis element): motifs found in plant cis-acting regulat

46、ory DNA elements, from previously published reports(vascular plants only). A cis-element search can be performed to excise 1000 bp of genomic sequence upstream from the 5 termini of each full-length cDNA clone and search about 300 cis elements known from plants. INTEGRATED DATABASES IN RICE PIPELINE

47、 The rice retrotransposon Tos17: insertional mutagenesis of rice. NIAS has collected 15111 flanking sequences with Tos17 insertions in about 3765 mutant lines from about 50000 insertion lines. The Tos17 mutant panel database enables the user to link flanking sequences with phenotype information by u

48、sing BLAST. users can perform gene function analysis by computer and reverse genetics. INTEGRATED DATABASES IN RICE PIPELINE RED(Expression profile ): contains normalized expression data derived from experiments using various RNAs hybridized to the Rice 9000 cDNA Array. All of the expression data ar

49、e shown as values of the expression ratio. INTEGRATED DATABASES IN RICE PIPELINE RMOS (Rice Microarray Opening Site) : includes information on microarray system, including microarray design, EST clone information linked with the full-length cDNA information of KOME, and our experimental system and p

50、rotocols.FEATURES OF THE TOOLa multiple BLAST search result Full-length cDNA BLASTN Result; Full-length cDNA Longest ORF BLASTX Result; a cis-element search; a gene expression profile; phenotype information; domain search results; Gene ontology (GO) classification;INFORMATION FLOWCHARTRICE GENOMICS

51、IN JAPANRice and A.thaliana will continue to be used in research because of their importance in the genetic improvement of crops. Genes for controlling heading date, growth and development, and genes involved in adaptation to Fe deficiency and control of our quality already been isolated from O.sativa at NIAS by using various functional genomics tools and materials. This rice research will continue to help unlock the genetic secrets of plants and develop rice as a better food resource world-wide.谢谢各位!谢谢各位!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号