生物信息数据库1117(骄阳书苑)

上传人:工**** 文档编号:571873049 上传时间:2024-08-12 格式:PPT 页数:78 大小:3.29MB
返回 下载 相关 举报
生物信息数据库1117(骄阳书苑)_第1页
第1页 / 共78页
生物信息数据库1117(骄阳书苑)_第2页
第2页 / 共78页
生物信息数据库1117(骄阳书苑)_第3页
第3页 / 共78页
生物信息数据库1117(骄阳书苑)_第4页
第4页 / 共78页
生物信息数据库1117(骄阳书苑)_第5页
第5页 / 共78页
点击查看更多>>
资源描述

《生物信息数据库1117(骄阳书苑)》由会员分享,可在线阅读,更多相关《生物信息数据库1117(骄阳书苑)(78页珍藏版)》请在金锄头文库上搜索。

1、分子生物信息数据库简介分子生物信息数据库简介1专业课堂一级数据库一级数据库一级数据库一级数据库 直接来源于实验获得的原始数据直接来源于实验获得的原始数据,只经过简单的归类、整理只经过简单的归类、整理和注释。和注释。 一级核酸数据库:一级核酸数据库:GenBank数据库、数据库、EMBL数据库、数据库、DDBJ数据库数据库 一级蛋白质序列数据库:一级蛋白质序列数据库:SWISS-PROT库、库、PIR库库 一级蛋白质结构数据库:一级蛋白质结构数据库:PDB数据库数据库二级数据库二级数据库二级数据库二级数据库 在一级数据库、实验数据和理论分析的基础上,针对不同的在一级数据库、实验数据和理论分析的基

2、础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据研究内容和需要,对生物学知识和信息的进一步整理得到的数据库。库。 人类基因组图谱库人类基因组图谱库GDB、转录因子和结合位点库、转录因子和结合位点库TRANSFAC、蛋白质序列功能位点数据库蛋白质序列功能位点数据库Prosite等。等。2专业课堂生物分子数据库几个明显的特征:生物分子数据库几个明显的特征:(1 1)数据库的更新速度不断加快)数据库的更新速度不断加快 数据量呈指数增长趋势数据量呈指数增长趋势 (2 2)数据库使用频率增长更快)数据库使用频率增长更快 (3 3)数据库的复杂程度不断增加)数据库的复杂程度不断增加

3、 (4 4)数据库网络化)数据库网络化 (5 5)面向应用)面向应用(6 6)先进的软硬件配置)先进的软硬件配置3专业课堂建立分子生物信息数据库的流程图建立分子生物信息数据库的流程图4专业课堂一一. 核酸序列数据库核酸序列数据库5专业课堂三大核酸序列数据库三大核酸序列数据库rGenBankhttp:/www.ncbi.nlm.nih.gov/Genbank/index.htmlrEMBL(European Melecular Biology Laboratory)http:/www.ebi.ac.uk/embl/rDDBJ(DNA Data Bank of Japan)http:/www.dd

4、bj.nig.ac.jp/index-e.html6专业课堂GenBankr1982.4 由由Los Alamos National Lab创建创建rNCBI (National Center for Biotechnology Information)rNIH (National Institute of Health)r 数据库查询工具:数据库查询工具:Entrezr 数据提交工具:数据提交工具: Sequinr Nucleic Acids Research, 2008 Jan;36(Database issue):D25-307专业课堂8专业课堂GenBank中测序最多的中测序最多的20

5、个物种个物种v173.0,2009.099专业课堂10专业课堂Refseqr1. 提供高质量的,无冗余的,完整的序列提供高质量的,无冗余的,完整的序列信息;信息;r2. 包括基因组的包括基因组的DNA,转录成的转录成的RNA以及蛋以及蛋白质序列信息。白质序列信息。r3. 序列文件的标识符:序列文件的标识符:mRNA序列:序列:NM_001158非编码非编码RNA:NR_002769蛋白质序列:蛋白质序列: NP_001159r http:/www.ncbi.nlm.nih.gov/RefSeq/11专业课堂GenBank VS. RefSeq12专业课堂13专业课堂EMBLr1982.3 由德

6、国科隆大学收集整理由德国科隆大学收集整理rEBI(European Bioinformatics Institute)r 数据库查询工具:数据库查询工具:SAS (开源开源)r数据提交工具:数据提交工具:WebIn, Sequinrhttp:/www.ebi.ac.uk/embl/14专业课堂15专业课堂DDBJr创建于创建于1986年年rNIG(National Institute of Genetics)r 数据库查询工具:数据库查询工具:SASr数据提交工具:数据提交工具: Sequinr http:/www.ddbj.nig.ac.jp/index-e.html16专业课堂17专业课堂

7、INSDCr1998年,年,GenBank、EMBL和和DDBJ共同共同成立了国际核酸序列数据库协会成立了国际核酸序列数据库协会(International Nucleotide Sequence Database Collaboration,INSDC)r三大核酸数据库之间每天将新测定或更新三大核酸数据库之间每天将新测定或更新的数据进行交换共享,保证数据信息的完的数据进行交换共享,保证数据信息的完整与同步,每两个月更新一次版本。整与同步,每两个月更新一次版本。rhttp:/www.insdc.org/18专业课堂19专业课堂三大核酸数据库之间的联系三大核酸数据库之间的联系20专业课堂二二.

8、蛋白质序列数据库蛋白质序列数据库21专业课堂蛋白质序列数据库蛋白质序列数据库rPIRhttp:/pir.georgetown.edu/rSwissProthttp:/www.expasy.ch/sprot/rTrEMBLhttp:/www.expasy.ch/sprot/22专业课堂PIRr1984年,蛋白质信息资源(年,蛋白质信息资源(Protein Information Resource,PIR)计划由美国)计划由美国国家医学研究基金会(国家医学研究基金会(NREF)正式启动)正式启动r1988年,日本的国际蛋白质信息数据库年,日本的国际蛋白质信息数据库(JIPID)和德国慕尼黑蛋白质序

9、列信息中)和德国慕尼黑蛋白质序列信息中心(心(MIPS)加入)加入PIRr非冗余、高质量注释、全面分类非冗余、高质量注释、全面分类23专业课堂Swiss-Protr1986年,由瑞士日内瓦大学创建。年,由瑞士日内瓦大学创建。rSIB(Swiss Institute of Bioinformatics)rExPASy(Expert Protein Analysis System)r所有序列条目均经过有经验的分子生物学所有序列条目均经过有经验的分子生物学家和蛋白质化学家审核,因此又称为蛋白家和蛋白质化学家审核,因此又称为蛋白质专家库质专家库24专业课堂TrEMBLr1996年创建,意为年创建,意为

10、“Translation of EMBL”r从从EMBL的的cDNA序列翻译而来,包含序列翻译而来,包含EMBL数据库中所有核酸编码序列信息数据库中所有核酸编码序列信息25专业课堂ExPASyhttp:/www.expasy.org/http:/www.expasy.org/26专业课堂ExPASy Proteomics Toolshttp:/www.expasy.org/tools/http:/www.expasy.org/tools/27专业课堂28专业课堂UniProtr2002年在年在NIH资助下将资助下将PIR、Swiss-Prot和和TrEMBL合并为合并为UniProt(Univ

11、ersal Protein Resource)r具有全世界最全面的蛋白质分类信息具有全世界最全面的蛋白质分类信息r包含三个子库包含三个子库UniProtKB(UniProt Knowledgebase)UniRef(UniProt Reference Clusters)UniParc(Uniprot Archive)rhttp:/www.uniprot.org29专业课堂30专业课堂UniProtKBrUniProt Knowledgebase(UniProtKB):): Release 15.4 , 16-Jun-2009 ,包括:,包括:Swiss-Prot Release 57.4 :

12、497293 entries TrEMBL Release 40.4 : 9145906 entries r包含蛋白质序列全面的信息,提供准确、包含蛋白质序列全面的信息,提供准确、丰富的序列与功能注释。丰富的序列与功能注释。r记录以记录以6位字母和数字组成,例:位字母和数字组成,例:Q5K8D3 31专业课堂32专业课堂Swiss-Prot Release 57.433专业课堂34专业课堂TrEMBL Release 40.435专业课堂UniRefrUniProt Refefence Clusters (UniRef)r通过通过CD-HIT算法把非常相似的序列聚类算法把非常相似的序列聚类r根

13、据序列根据序列Identity=100%,Identity90%, Identity50%进行聚类合并,形成进行聚类合并,形成UniRef100、UniRef90和和UniRef50三个子三个子库,加速同源搜索。库,加速同源搜索。r记录以记录以UniRefXX开头加开头加UniProtKB的的Accession表示,例:表示,例:UniRef90_O70405 36专业课堂UniParcrUniProt Archive (UniParc)r存储所有公共数据库中有效的蛋白质序列存储所有公共数据库中有效的蛋白质序列数据,包括序列的来源及来源数据库的链数据,包括序列的来源及来源数据库的链接。接。r记

14、录所有蛋白质的当前状态和历史信息记录所有蛋白质的当前状态和历史信息r记录以记录以UPI开头,例:开头,例:UPI000005E9D0 37专业课堂三三. 蛋白质结构数据库蛋白质结构数据库38专业课堂PDB网址:网址:http:/www.rcsb.org/pdb(美国美国)(1)PDB (Protein Data Bank) http:/www.rcsb.org u 由由 Brookhaven National Laboratories 创办创办 v 蛋白质蛋白质 v 核酸核酸 v 其它其它 u 57,706 个结构图(个结构图(2009.5.20)39专业课堂40专业课堂41专业课堂42专业课

15、堂wwPDBr2003年,年,PDB(RCSB),),MSD-EBI(EBI),),PDBj(Japan)组建了全球)组建了全球范围的范围的PDB库(库(worldwide PDB,wwPDB)r数据共享,统一数据格式数据共享,统一数据格式r数据集中存储,尚未提供数据检索服务数据集中存储,尚未提供数据检索服务rhttp:/www.wwpdb.org/43专业课堂44专业课堂显示分子结构(显示分子结构(RasMol RasMol , ChemView ChemView )45专业课堂四四. 基因组数据库基因组数据库46专业课堂基因组数据库基因组数据库r收集某些生物整个基因组序列的数据库收集某些生

16、物整个基因组序列的数据库r基因组计划基因组计划Human Genome Projecthttp:/www.sanger.ac.uk/HGP/C. elegans Projecthttp:/www.sanger.ac.uk/Projects/C_elegans/r从从GenBank中选择同一物种的核酸信息组中选择同一物种的核酸信息组成的二级库成的二级库47专业课堂部分生物基因组计划网址部分生物基因组计划网址部分生物基因组计划网址部分生物基因组计划网址 老鼠老鼠(Mouse) http:/www.informatics.jax.org/mgd.html 小鼠小鼠(Rat) http:/ratmap

17、.gen.gu.se 狗狗(Dog) http:/mendel.berkeley.edu/dog.html 牛牛(Cow) http:/locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl 猪猪(Pig) http:/www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html 羊羊(Sheep) http:/dirk.invermay.cri.nz 鸡鸡(Chicken) http:/www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html 斑马鱼斑马鱼(Zebra fish) ht

18、tp:/zfish.uoregon.edu 线虫线虫(C. elegans) http:/www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html 果蝇果蝇(Drosophila) http:/morgan.harvard.edu 蚊子蚊子(Mosquito) http:/klab.agsci.colostate.edu 拟南芥拟南芥(Arabidopsis) http:/genome-www.stanford.edu/Arabidopsis 棉花棉花(Cotton) http:/algodon.tamu.edu 玉米玉米(Maize) http

19、:/www.agron.missouri.edu 水稻水稻(Rice) http:/www.staff.or.jp 大豆大豆(Soya) http:/mendel.agron.iastate.edu:8000/main.html 树树(Trees) http:/s27w007.pswfs.gov 48专业课堂二级数据库简介二级数据库简介 二级数据库的形式:大多以二级数据库的形式:大多以web界面为基础,具有文字信界面为基础,具有文字信息、表格、图形、图表等方式显示数据库内容;息、表格、图形、图表等方式显示数据库内容; 一级数据库与二级数据库之间并无明确的界限。一级数据库与二级数据库之间并无明确

20、的界限。 (例如:(例如:GDB、AceDB、SCOP、CATH等都已经具有二级数据库的特等都已经具有二级数据库的特色)色)49专业课堂 E. coliE. coli基因组数据库基因组数据库基因组数据库基因组数据库ColibriColibri 德国德国Pastear研究所建立。研究所建立。 除除具具有有浏浏览览、检检索索、搜搜寻寻功功能能外外,还还对对环环状状基基因因组组实实现现可可视化。视化。 网址网址:http:/ TransFac (TransFac (真核生物基因转录调控因子数据库真核生物基因转录调控因子数据库真核生物基因转录调控因子数据库真核生物基因转录调控因子数据库) ) 德国生物

21、工程研究所开发维护,始建于德国生物工程研究所开发维护,始建于1988年。年。 包包括括顺顺式式调调控控位位点点、基基因因、转转录录因因子子、细细胞胞来来源源、分分类类和和调控位点核苷酸分布调控位点核苷酸分布6个子库。个子库。TransFac的网址的网址:http:/ A) A) 基因组信息二级数据库基因组信息二级数据库基因组信息二级数据库基因组信息二级数据库50专业课堂ColiBri网址网址:http:/ Prosite (Prosite (蛋白质序列功能位点数据库蛋白质序列功能位点数据库蛋白质序列功能位点数据库蛋白质序列功能位点数据库) ) 始建于始建于1990年代初,由瑞典生物信息学研究所

22、年代初,由瑞典生物信息学研究所SIB负责维护。负责维护。 基基于于对对蛋蛋白白质质家家族族中中同同源源序序列列多多重重序序列列比比对对得得到到的的保保守守区区域,这些区域通常与生物学功能相关。域,这些区域通常与生物学功能相关。 数数据据库库包包括括两两个个数数据据库库文文件件:数数据据文文件件Prosite;说说明明文文件件PrositeDoc。B) B) 蛋白质序列二级数据库蛋白质序列二级数据库蛋白质序列二级数据库蛋白质序列二级数据库Prosite网址网址:http:/cn.expasy.org/prosite53专业课堂54专业课堂 DSSP (Definition of Secondar

23、y Structure of Proteins)DSSP (Definition of Secondary Structure of Proteins) 蛋白质二级结构构象参数数据库蛋白质二级结构构象参数数据库 DSSP的网址的网址:http:/www.cmbi.kun.nl/gv/dssp/ FSSP (Families of Structural Similar Proteins) FSSP (Families of Structural Similar Proteins) 蛋白质家族数据库蛋白质家族数据库 FSSP的网址:的网址:http:/www2.embl-ebi.ac.uk/dal

24、l/fssp/ HSSP(Homology Derived Secondary Structure of Proteins) HSSP(Homology Derived Secondary Structure of Proteins) 同源蛋白质数据库同源蛋白质数据库 HSSP的网址:的网址: http:/www.cmbi.kun.nl/gv/hssp/ C) C) 蛋白质结构二级数据库蛋白质结构二级数据库蛋白质结构二级数据库蛋白质结构二级数据库55专业课堂其他数据库其他数据库56专业课堂酶和代谢数据库酶和代谢数据库(1)KEGG (Kyoto Encyclopedia of Genes an

25、d Genomes) u 各种代谢、遗传等路径图各种代谢、遗传等路径图 u 可检索参于可检索参于各种各种路径的基因路径的基因KEGG主页主页http:/www.genome.ad.jp/kegg/点击点击“KEGG PATHWAY” “PATHWAY”网页点击任何代谢路径(网页点击任何代谢路径(Metabolism),),如糖酵解如糖酵解/糖原异生途径糖原异生途径(Glycolysis/Gluconeogenesis)u 检索检索Metabolism(1)57专业课堂u 检索检索Genetic Information Processing(2)KEGG主页点击主页点击“KEGG PATHWAY

26、” “PATHWAY”网页点击任何遗传信息网页点击任何遗传信息(Genetic Information Processing)路径,)路径,如如 Protein export 路径路径可以查看参加这一路径蛋白质的可以查看参加这一路径蛋白质的信息信息 58专业课堂u 检索检索Environmental Information Processing(3)KEGG主页点击主页点击“KEGG PATHWAY” “PATHWAY”网页点击任何网页点击任何Environmental Information Processing 路径,如路径,如 MAPK signaling pathway 路径路径可以查

27、看与这一路径相连的可以查看与这一路径相连的其它信号路径其它信号路径或参加这一路径的或参加这一路径的蛋白质信息蛋白质信息 59专业课堂u 检索检索Celluar Processes(4)KEGG主页点击主页点击“KEGG PATHWAY” “PATHWAY”网页点击任何网页点击任何Cellular Processes 路径,如路径,如 Cell cycle 路径路径可以查看与这一路径相连的其它信号路径可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息或参加这一路径的蛋白质信息 60专业课堂数据库格式简介数据库格式简介 历史原因:没有完全统一的数据库格式;历史原因:没有完全统一的数据库

28、格式; 了解所用数据库格式的重要性了解所用数据库格式的重要性 一般由两部分组成:一般由两部分组成: 文字注释文字注释 内容(序列,内容(序列,)61专业课堂一个数据库记录一个数据库记录(entry)一般由两部分组成:一般由两部分组成: 1. 原始序列数据原始序列数据(sequence data) 2. 描述这些数据生物学信息的注释描述这些数据生物学信息的注释(annotation)注释中包含的信息与相应的序列数据同样重要和有应用价值注释中包含的信息与相应的序列数据同样重要和有应用价值数据的完整性和注释工作量:数据的完整性和注释工作量: 1. 序列数据广,序列注释不够完整序列数据广,序列注释不够

29、完整 2. 库数据面窄,序列注释全面库数据面窄,序列注释全面数据库的动态更新:数据库的动态更新: 1. 不断增加不断增加 2. 不断修正不断修正62专业课堂序列数据的文件格式序列数据的文件格式r1. DNA/RNA/氨基酸代码的标识氨基酸代码的标识r2. GenBank数据格式数据格式r3. UniProtr4. FASTA63专业课堂DNA代码代码64专业课堂氨基酸代码氨基酸代码65专业课堂GenBank数据格式数据格式 (1)子库类型子库类型GenInfo Identifier66专业课堂GenBank数据格式数据格式 (2)67专业课堂GenBank数据格式数据格式 (3)68专业课堂G

30、enBank子库类型子库类型69专业课堂EMBL标识字GenBank标识字含义IDLOCUS序列名称DEDEFINITION序列简单说明ACACCESSION唯一的序列编号SVVERSION序列版本号KWKEYWORDS与序列相关的关键词OSSOURCE序列来源的物种名OCORGANISM序列来源的物种学名和分类学位置DT建立日期RNREFERENCE相关文献编号或提交注册信息RAAUTHORS相关文献作者或提交序列作者RTTITLE相关文献题目RLJOURNAL相关文献刊物名或作者单位RXMEDLINE相关文献Medline引文代码RCREMARK相关文献注释RP相关文献其它注释CCCOMM

31、ENT关于序列的注释信息DR相关数据库交叉引用号FHFEATURES序列特征表起始FT序列特征表子项SQBASE CONTENT序列长度、碱基数目统计数空格ORIGIN序列/序列结束标志、空行EMBLEMBL和和和和GenBankGenBank数据库的行识别标志比较数据库的行识别标志比较数据库的行识别标志比较数据库的行识别标志比较70专业课堂FASTA格式格式71专业课堂关键词关键词 名词、描述性词、词组名词、描述性词、词组 序列注册号序列注册号 (Accession number) 检索体系检索体系 Entrez Sequence Retrieval System (SRS) Integra

32、ted database retrieval system (DBGET)如何获得序列数据如何获得序列数据72专业课堂在线获取序列(在线获取序列( entrez) Entrez是基于Web界面的综合生物信息数据库检索系统。 http:/www.ncbi.nlm.nih.gov/entrez 利用Entrez系统,用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。 73专业课堂8大类大类44个与个与 Entre

33、ze 体系相连的体系相连的数据库数据库 u“Nucleotide Sequences” databases (15) u“Protein Sequences” databses (4) u“Structures” databases (5) u“Genes” databases (4) u“Gene Expression” databases (4) u“Taxonomy” databases (2) u“Genomes” databases (6) u“Literature” databases (4)74专业课堂Entrez的特点的特点rEntrez是面向生物学家的数据库查询系统,其特点之

34、一是使用十分方便。它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机的结合在一起,通过超文本链接,用户可以从一个数据库直接转入另外一个数据库rEntrez的另一个特点是把数据库和应用程序结合在一起。例如,通过“Related sequence”工具,可以直接找到与查询所得蛋白质序列同源的其它蛋白质。查询得到的蛋白质三维结构,可以通过在用户计算机上安装的Cn3D软件直接显示分子图形。rEntrez系统的开发基于特殊的数据模型NCBI ANS.1 (Abstract Syntax Notation),在对于文献摘要中的关键字查询时,不仅考虑了查询对象和数据库中单词的实际匹配,而且考虑了意

35、义相近的匹配。在查询文献数据库摘要得到结果后,可以通过点击“Related Articles”继续查找相关文献。75专业课堂向数据库提交和修改核苷酸和蛋白质序列向数据库提交和修改核苷酸和蛋白质序列 提交:提交:Submission 修改:修改:Update 数据库中的数据由大家无偿提供,共同享用数据库中的数据由大家无偿提供,共同享用76专业课堂http:/www.ncbi.nlm.nih.gov/Genbank/index.htmlAuthorsSequinBankItSequence dataGenBankAccession number2 daysDraftrecord序列提交77专业课堂

36、序列提交工具(sequin) 大量的序列提交大量的序列提交可以由可以由SequinSequin程序完成。程序完成。SequinSequin程序能方便的编辑和程序能方便的编辑和处理复杂注释,并包含一系列内建的检查函数来提高序列的质量保证。它还处理复杂注释,并包含一系列内建的检查函数来提高序列的质量保证。它还被设计用于提交来自系统进化、种群和突变研究的序列,可以加入比对的数被设计用于提交来自系统进化、种群和突变研究的序列,可以加入比对的数据。据。SequinSequin除了用于编辑和修改序列数据记录,还可以用于序列的分析,任除了用于编辑和修改序列数据记录,还可以用于序列的分析,任何以何以FASTA

37、FASTA或或ASN.1ASN.1格式序列为输入数据的序列分析程序都可以整合到格式序列为输入数据的序列分析程序都可以整合到SequinSequin程序下。程序下。在不同操作系统下运行的在不同操作系统下运行的SequinSequin程序都可以在程序都可以在ftp:/ncbi.nlm.nih.gov/sequin/ftp:/ncbi.nlm.nih.gov/sequin/下找到,下找到,SequinSequin的使用说明可详见其网页。的使用说明可详见其网页。 http:/www.ncbi.nih.gov/Sequin/index.htmlhttp:/www.ncbi.nih.gov/Sequin/index.html78专业课堂

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号