分子生物信息数据库简介分子生物信息数据库简介一级数据库一级数据库一级数据库一级数据库 直接来源于实验获得的原始数据直接来源于实验获得的原始数据,,只经过简单的归类、整理只经过简单的归类、整理和注释 一级核酸数据库:一级核酸数据库:GenBank数据库、数据库、EMBL数据库、数据库、DDBJ数据库数据库 一级蛋白质序列数据库:一级蛋白质序列数据库:SWISS-PROT库、库、PIR库库 一级蛋白质结构数据库:一级蛋白质结构数据库:PDB数据库数据库二级数据库二级数据库二级数据库二级数据库 在在一级数据库、实验数据和理论分析的基础上,针对不同的一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据研究内容和需要,对生物学知识和信息的进一步整理得到的数据库 人类基因组图谱库人类基因组图谱库GDB、、转录因子和结合位点库转录因子和结合位点库TRANSFAC、、蛋白质序列功能位点数据库蛋白质序列功能位点数据库Prosite等生物分子数据库几个明显的特征:生物分子数据库几个明显的特征:((1 1)数据库的更新速度不断加快)数据库的更新速度不断加快 数据量呈指数增长趋势数据量呈指数增长趋势 ((2 2)数据库使用频率增长更快)数据库使用频率增长更快 ((3 3)数据库的复杂程度不断增加)数据库的复杂程度不断增加 ((4 4)数据库网络化)数据库网络化 ((5 5)面向应用)面向应用((6 6)先进的软硬件配置)先进的软硬件配置建立分子生物信息数据库的流程图建立分子生物信息数据库的流程图一一. 核酸序列数据库核酸序列数据库三大核酸序列数据库三大核酸序列数据库rGenBankhttp://www.ncbi.nlm.nih.gov/Genbank/index.htmlrEMBL((European Melecular Biology Laboratory))http://www.ebi.ac.uk/embl/rDDBJ((DNA Data Bank of Japan))http://www.ddbj.nig.ac.jp/index-e.htmlGenBankr1982.4 由由Los Alamos National Lab创建创建rNCBI (National Center for Biotechnology Information)rNIH (National Institute of Health)r 数据库查询工具:数据库查询工具:Entrezr 数据提交工具:数据提交工具: Sequinr Nucleic Acids Research, 2008 Jan;36(Database issue):D25-30GenBank中测序最多的中测序最多的20个物种个物种v173.0,,2009.09Refseqr1. 提供高质量的,无冗余的,完整的序列提供高质量的,无冗余的,完整的序列信息;信息;r2. 包括基因组的包括基因组的DNA,转录成的转录成的RNA以及蛋以及蛋白质序列信息。
白质序列信息r3. 序列文件的标识符:序列文件的标识符:ØmRNA序列:序列:NM_001158Ø非编码非编码RNA::NR_002769Ø蛋白质序列:蛋白质序列: NP_001159r http://www.ncbi.nlm.nih.gov/RefSeq/GenBank VS. RefSeqEMBLr1982.3 由德国科隆大学收集整理由德国科隆大学收集整理rEBI((European Bioinformatics Institute))r 数据库查询工具:数据库查询工具:SAS (开源开源)r数据提交工具:数据提交工具:WebIn,, Sequinrhttp://www.ebi.ac.uk/embl/DDBJr创建于创建于1986年年rNIG((National Institute of Genetics))r 数据库查询工具:数据库查询工具:SASr数据提交工具:数据提交工具: Sequinr http://www.ddbj.nig.ac.jp/index-e.htmlINSDCr1998年,年,GenBank、、EMBL和和DDBJ共同共同成立了国际核酸序列数据库协会成立了国际核酸序列数据库协会((International Nucleotide Sequence Database Collaboration,INSDC))r三大核酸数据库之间每天将新测定或更新三大核酸数据库之间每天将新测定或更新的数据进行交换共享,保证数据信息的完的数据进行交换共享,保证数据信息的完整与同步,每两个月更新一次版本。
整与同步,每两个月更新一次版本rhttp://www.insdc.org/三大核酸数据库之间的联系三大核酸数据库之间的联系二二. 蛋白质序列数据库蛋白质序列数据库蛋白质序列数据库蛋白质序列数据库rPIRhttp://pir.georgetown.edu/rSwissProthttp://www.expasy.ch/sprot/rTrEMBLhttp://www.expasy.ch/sprot/PIRr1984年,蛋白质信息资源(年,蛋白质信息资源(Protein Information Resource,PIR)计划由美国)计划由美国国家医学研究基金会(国家医学研究基金会(NREF)正式启动)正式启动r1988年,日本的国际蛋白质信息数据库年,日本的国际蛋白质信息数据库((JIPID)和德国慕尼黑蛋白质序列信息中)和德国慕尼黑蛋白质序列信息中心(心(MIPS)加入)加入PIRr非冗余、高质量注释、全面分类非冗余、高质量注释、全面分类Swiss-Protr1986年,由瑞士日内瓦大学创建年,由瑞士日内瓦大学创建rSIB((Swiss Institute of Bioinformatics))rExPASy((Expert Protein Analysis System))r所有序列条目均经过有经验的分子生物学所有序列条目均经过有经验的分子生物学家和蛋白质化学家审核,因此又称为蛋白家和蛋白质化学家审核,因此又称为蛋白质专家库质专家库TrEMBLr1996年创建,意为年创建,意为“Translation of EMBL”r从从EMBL的的cDNA序列翻译而来,包含序列翻译而来,包含EMBL数据库中所有核酸编码序列信息数据库中所有核酸编码序列信息ExPASyhttp://www.expasy.org/http://www.expasy.org/ExPASy Proteomics Toolshttp://www.expasy.org/tools/http://www.expasy.org/tools/UniProtr2002年在年在NIH资助下将资助下将PIR、、Swiss-Prot和和TrEMBL合并为合并为UniProt((Universal Protein Resource))r具有全世界最全面的蛋白质分类信息具有全世界最全面的蛋白质分类信息r包含三个子库包含三个子库ØUniProtKB((UniProt Knowledgebase))ØUniRef((UniProt Reference Clusters))ØUniParc((Uniprot Archive))rhttp://www.uniprot.orgUniProtKBrUniProt Knowledgebase((UniProtKB):): Release 15.4 ,, 16-Jun-2009 ,包括:,包括:ØSwiss-Prot Release 57.4 : 497293 entries ØTrEMBL Release 40.4 : 9145906 entries r包含蛋白质序列全面的信息,提供准确、包含蛋白质序列全面的信息,提供准确、丰富的序列与功能注释。
丰富的序列与功能注释r记录以记录以6位字母和数字组成,例:位字母和数字组成,例:Q5K8D3 Swiss-Prot Release 57.4TrEMBL Release 40.4UniRefrUniProt Refefence Clusters (UniRef)r通过通过CD-HIT算法把非常相似的序列聚类算法把非常相似的序列聚类r根据序列根据序列Identity=100%,,Identity>90%, Identity>50%进行聚类合并,形成进行聚类合并,形成UniRef100、、UniRef90和和UniRef50三个子三个子库,加速同源搜索库,加速同源搜索r记录以记录以UniRefXX开头加开头加UniProtKB的的Accession表示,例:表示,例:UniRef90_O70405 UniParcrUniProt Archive (UniParc)r存储所有公共数据库中有效的蛋白质序列存储所有公共数据库中有效的蛋白质序列数据,包括序列的来源及来源数据库的链数据,包括序列的来源及来源数据库的链接r记录所有蛋白质的当前状态和历史信息记录所有蛋白质的当前状态和历史信息r记录以记录以UPI开头,例:开头,例:UPI000005E9D0 三三. 蛋白质结构数据库蛋白质结构数据库PDB网址:网址:http://www.rcsb.org/pdb(美国美国)((1))PDB (Protein Data Bank) http://www.rcsb.org u 由由 Brookhaven National Laboratories 创办创办 v 蛋白质蛋白质 v 核酸核酸 v 其它其它 u 57,706 个结构图(个结构图(2009.5.20))wwPDBr2003年,年,PDB((RCSB),),MSD-EBI((EBI),),PDBj((Japan)组建了全球)组建了全球范围的范围的PDB库(库(worldwide PDB,wwPDB))r数据共享,统一数据格式数据共享,统一数据格式r数据集中存储,尚未提供数据检索服务数据集中存储,尚未提供数据检索服务rhttp://www.wwpdb.org/显示分子结构(显示分子结构(RasMol RasMol ,, ChemView ChemView ))四四. 基因组数据库基因组数据库基因组数据库基因组数据库r收集某些生物整个基因组序列的数据库收集某些生物整个基因组序列的数据库r基因组计划基因组计划ØHuman Genome Projecthttp://www.sanger.ac.uk/HGP/ØC. elegans Projecthttp://www.sanger.ac.uk/Projects/C_elegans/r从从GenBank中选择同一物种的核酸信息组中选择同一物种的核酸信息组成的二级库成的二级库部分生物基因组计划网址部分生物基因组计划网址部分生物基因组计划网址部分生物基因组计划网址 老鼠老鼠(Mouse) http://www.informatics.jax.org/mgd.html 小鼠小鼠(Rat) http://ratmap.gen.gu.se 狗狗(Dog) http://mendel.berkeley.edu/dog.html 牛牛(Cow) http://locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl 猪猪(Pig) http://www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html 羊羊(Sheep) http://dirk.invermay.cri.nz 鸡鸡(Chicken) http://www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html 斑马鱼斑马鱼(Zebra fish) http://zfish.uoregon.edu 线虫线虫(C. elegans) http://www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html 果蝇果蝇(Drosophila) http://morgan.harvard.edu 蚊子蚊子(Mosquito) http://klab.agsci.colostate.edu 拟南芥拟南芥(Arabidopsis) http://genome-www.stanford.edu/Arabidopsis 棉花棉花(Cotton) http://algodon.tamu.edu 玉米玉米(Maize) http://www.agron.missouri.edu 水稻水稻(Rice) http://www.staff.or.jp 大豆大豆(Soya) http://mendel.agron.iastate.edu:8000/main.html 树树(Trees) http://s27w007.pswfs.gov 二级数据库简介二级数据库简介 二级数据库的形式:大多以二级数据库的形式:大多以web界面为基础,具有文字信界面为基础,具有文字信息、表格、图形、图表等方式显示数据库内容;息、表格、图形、图表等方式显示数据库内容; 一级数据库与二级数据库之间并无明确的界限。
一级数据库与二级数据库之间并无明确的界限 (例如:(例如:GDB、、AceDB、、SCOP、、CATH等都已经具有二级数据库的等都已经具有二级数据库的特色)特色) E. coliE. coli基因组数据库基因组数据库基因组数据库基因组数据库ColibriColibri 德国德国Pastear研究所建立研究所建立 除除具具有有浏浏览览、、检检索索、、搜搜寻寻功功能能外外,,还还对对环环状状基基因因组组实实现现可可视化 网址网址: TransFacTransFac ( (真核生物基因转录调控因子数据库真核生物基因转录调控因子数据库真核生物基因转录调控因子数据库真核生物基因转录调控因子数据库) ) 德国生物工程研究所开发维护,始建于德国生物工程研究所开发维护,始建于1988年 包包括括顺顺式式调调控控位位点点、、基基因因、、转转录录因因子子、、细细胞胞来来源源、、分分类类和和调控位点核苷酸分布调控位点核苷酸分布6个子库TransFac的网址的网址: A) A) 基因组信息二级数据库基因组信息二级数据库基因组信息二级数据库基因组信息二级数据库ColiBri网址网址:TransFac网址网址: PrositeProsite ( (蛋白质序列功能位点数据库蛋白质序列功能位点数据库蛋白质序列功能位点数据库蛋白质序列功能位点数据库) ) 始建于始建于1990年代初,由瑞典生物信息学研究所年代初,由瑞典生物信息学研究所SIB负责维护。
负责维护 基基于于对对蛋蛋白白质质家家族族中中同同源源序序列列多多重重序序列列比比对对得得到到的的保保守守区区域,这些区域通常与生物学功能相关域,这些区域通常与生物学功能相关 数数据据库库包包括括两两个个数数据据库库文文件件::数数据据文文件件Prosite;;说说明明文文件件PrositeDocB) B) 蛋白质序列二级数据库蛋白质序列二级数据库蛋白质序列二级数据库蛋白质序列二级数据库Prosite网址网址:http://cn.expasy.org/prosite DSSP (Definition of Secondary Structure of Proteins)DSSP (Definition of Secondary Structure of Proteins) 蛋白质二级结构构象参数数据库蛋白质二级结构构象参数数据库 DSSP的网址的网址:http://www.cmbi.kun.nl/gv/dssp/ FSSP (Families of Structural Similar Proteins) FSSP (Families of Structural Similar Proteins) 蛋白质家族数据库蛋白质家族数据库 FSSP的网址:的网址:http://www2.embl-ebi.ac.uk/dall/fssp/ HSSP(Homology Derived Secondary Structure of Proteins) HSSP(Homology Derived Secondary Structure of Proteins) 同源蛋白质数据库同源蛋白质数据库 HSSP的网址:的网址: http://www.cmbi.kun.nl/gv/hssp/ C) C) 蛋白质结构二级数据库蛋白质结构二级数据库蛋白质结构二级数据库蛋白质结构二级数据库其他数据库其他数据库酶和代谢数据库酶和代谢数据库((1))KEGG (Kyoto Encyclopedia of Genes and Genomes) u 各种代谢、遗传等路径图各种代谢、遗传等路径图 u 可检索参于可检索参于各种各种路径的基因路径的基因KEGG主页主页http://www.genome.ad.jp/kegg/点击点击“KEGG PATHWAY” “PATHWAY”网页点击任何代谢路径(网页点击任何代谢路径(Metabolism),),如糖酵解如糖酵解/糖原异生途径糖原异生途径((Glycolysis/Gluconeogenesis)u 检索检索Metabolism((1))u 检索检索Genetic Information Processing((2))KEGG主页点击主页点击“KEGG PATHWAY” “PATHWAY”网页点击任何遗传信息网页点击任何遗传信息((Genetic Information Processing)路径,)路径,如如 Protein export 路径路径可以查看参加这一路径蛋白质的可以查看参加这一路径蛋白质的信息信息 u 检索检索Environmental Information Processing((3))KEGG主页点击主页点击“KEGG PATHWAY” “PATHWAY”网页点击任何网页点击任何Environmental Information Processing 路径,如路径,如 MAPK signaling pathway 路径路径可以查看与这一路径相连的可以查看与这一路径相连的其它信号路径其它信号路径或参加这一路径的或参加这一路径的蛋白质信息蛋白质信息 u 检索检索Celluar Processes((4))KEGG主页点击主页点击“KEGG PATHWAY” “PATHWAY”网页点击任何网页点击任何Cellular Processes 路径,如路径,如 Cell cycle 路径路径可以查看与这一路径相连的其它信号路径可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息或参加这一路径的蛋白质信息 数据库格式简介数据库格式简介 历史原因:没有完全统一的数据库格式;历史原因:没有完全统一的数据库格式; 了解所用数据库格式的重要性了解所用数据库格式的重要性 一般由两部分组成:一般由两部分组成: 文字注释文字注释 内容(序列,内容(序列,……)一个数据库记录一个数据库记录(entry)一般由两部分组成:一般由两部分组成: 1. 原始序列数据原始序列数据(sequence data) 2. 描述这些数据生物学信息的注释描述这些数据生物学信息的注释(annotation)•注释中包含的信息与相应的序列数据同样重要和有应用价值注释中包含的信息与相应的序列数据同样重要和有应用价值数据的完整性和注释工作量:数据的完整性和注释工作量: 1. 序列数据广,序列注释不够完整序列数据广,序列注释不够完整 2. 库数据面窄,序列注释全面库数据面窄,序列注释全面数据库的动态更新:数据库的动态更新: 1. 不断增加不断增加 2. 不断修正不断修正序列数据的文件格式序列数据的文件格式r1. DNA/RNA/氨基酸代码的标识氨基酸代码的标识r2. GenBank数据格式数据格式r3. UniProtr4. FASTADNA代码代码氨基酸代码氨基酸代码GenBank数据格式数据格式 (1)子库类型子库类型GenInfo IdentifierGenBank数据格式数据格式 (2)GenBank数据格式数据格式 (3)GenBank子库类型子库类型EMBL标识字GenBank标识字含义IDLOCUS序列名称DEDEFINITION序列简单说明ACACCESSION唯一的序列编号SVVERSION序列版本号KWKEYWORDS与序列相关的关键词OSSOURCE序列来源的物种名OCORGANISM序列来源的物种学名和分类学位置DT建立日期RNREFERENCE相关文献编号或提交注册信息RAAUTHORS相关文献作者或提交序列作者RTTITLE相关文献题目RLJOURNAL相关文献刊物名或作者单位RXMEDLINE相关文献Medline引文代码RCREMARK相关文献注释RP相关文献其它注释CCCOMMENT关于序列的注释信息DR相关数据库交叉引用号FHFEATURES序列特征表起始FT序列特征表子项SQBASE CONTENT序列长度、碱基数目统计数空格ORIGIN序列////序列结束标志、空行EMBLEMBL和和和和GenBankGenBank数据库的行识别标志比较数据库的行识别标志比较数据库的行识别标志比较数据库的行识别标志比较FASTA格式格式关键词关键词 名词、描述性词、词组名词、描述性词、词组 序列注册号序列注册号 (Accession number) 检索体系检索体系 Entrez Sequence Retrieval System (SRS) Integrated database retrieval system (DBGET)如何获得序列数据如何获得序列数据获取序列(获取序列( entrez)) Entrez是基于Web界面的综合生物信息数据库检索系统。
http://www.ncbi.nlm.nih.gov/entrez 利用Entrez系统,用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据 8大类大类44个与个与 Entreze 体系相连的体系相连的数据库数据库 u“Nucleotide Sequences” databases (15) u“Protein Sequences” databses (4) u“Structures” databases (5) u“Genes” databases (4) u“Gene Expression” databases (4) u“Taxonomy” databases (2) u“Genomes” databases (6) u“Literature” databases (4)Entrez的特点的特点rEntrez是面向生物学家的数据库查询系统,其特点之一是使用十分方便它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机的结合在一起,通过超文本链接,用户可以从一个数据库直接转入另外一个数据库rEntrez的另一个特点是把数据库和应用程序结合在一起。
例如,通过“Related sequence”工具,可以直接找到与查询所得蛋白质序列同源的其它蛋白质查询得到的蛋白质三维结构,可以通过在用户计算机上安装的Cn3D软件直接显示分子图形rEntrez系统的开发基于特殊的数据模型NCBI ANS.1 (Abstract Syntax Notation),在对于文献摘要中的关键字查询时,不仅考虑了查询对象和数据库中单词的实际匹配,而且考虑了意义相近的匹配在查询文献数据库摘要得到结果后,可以通过点击“Related Articles”继续查找相关文献向数据库提交和修改核苷酸和蛋白质序列向数据库提交和修改核苷酸和蛋白质序列 提交:提交:Submission 修改:修改:Update 数据库中的数据由大家无偿提供,共同享用数据库中的数据由大家无偿提供,共同享用http://www.ncbi.nlm.nih.gov/Genbank/index.htmlAuthorsSequinBankItSequence dataGenBankAccession number2 daysDraftrecord序列提交序列提交工具(sequin) 大量的序列提交大量的序列提交可以由可以由SequinSequin程序完成。
程序完成SequinSequin程序能方便的编辑和程序能方便的编辑和处理复杂注释,并包含一系列内建的检查函数来提高序列的质量保证它还处理复杂注释,并包含一系列内建的检查函数来提高序列的质量保证它还被设计用于提交来自系统进化、种群和突变研究的序列,可以加入比对的数被设计用于提交来自系统进化、种群和突变研究的序列,可以加入比对的数据SequinSequin除了用于编辑和修改序列数据记录,还可以用于序列的分析,任除了用于编辑和修改序列数据记录,还可以用于序列的分析,任何以何以FASTAFASTA或或ASN.1ASN.1格式序列为输入数据的序列分析程序都可以整合到格式序列为输入数据的序列分析程序都可以整合到SequinSequin程序下在不同操作系统下运行的在不同操作系统下运行的SequinSequin程序都可以在程序都可以在ftp://ncbi.nlm.nih.gov/sequin/ftp://ncbi.nlm.nih.gov/sequin/下找到,下找到,SequinSequin的使用说明可详见其网页的使用说明可详见其网页 http://www.ncbi.nih.gov/Sequin/index.htmlhttp://www.ncbi.nih.gov/Sequin/index.html。