11922生物信息学资源

上传人:公**** 文档编号:592089012 上传时间:2024-09-19 格式:PPT 页数:73 大小:3.12MB
返回 下载 相关 举报
11922生物信息学资源_第1页
第1页 / 共73页
11922生物信息学资源_第2页
第2页 / 共73页
11922生物信息学资源_第3页
第3页 / 共73页
11922生物信息学资源_第4页
第4页 / 共73页
11922生物信息学资源_第5页
第5页 / 共73页
点击查看更多>>
资源描述

《11922生物信息学资源》由会员分享,可在线阅读,更多相关《11922生物信息学资源(73页珍藏版)》请在金锄头文库上搜索。

1、生物信息学Bioinformatics1重要通知:下次课在机房上课下次课在机房上课, ,请自己准备好请自己准备好上网帐号上网帐号: :内容内容: : 数据库资源检索数据库资源检索时间时间: :下周一下周一(9(9月月2626日日) ) 晚上晚上1919:00-2100-21:0000地点地点: :生科楼生科楼B2017B20172复习复习:n细胞细胞n蛋白质蛋白质n核酸核酸第二章第二章第二章第二章生物信息学的生物学基础生物信息学的生物学基础生物信息学的生物学基础生物信息学的生物学基础3Questions:1. 蛋白质二级结构有哪些?蛋白质二级结构有哪些?2. TSS,外显子和内含子的概念。外显

2、子和内含子的概念。3. 如何判断起始密码子和终止密码子?内如何判断起始密码子和终止密码子?内含子?含子?4请画出示意图请画出示意图:1. 1. 中心法则中心法则2. 2. 真核生物基因的一般结构真核生物基因的一般结构5核酸核酸中心法则中心法则 复制 DNA 转录 逆转录 复制 RNA 蛋白质 翻译 调控6TATA盒盒 翻译起始翻译起始植物植物C/GAANNATGG动物动物A/GNNATGG 各内含子各内含子加加poly(A)信号信号植物植物 G/AATAA1-3动物动物 AATAAA 终止密码子终止密码子 各个外显子各个外显子 加帽位点加帽位点 5m7GpppNp 5端端 TSS 3端端 AG

3、GA或或 CAAT盒盒 起始密码子起始密码子 真核生物基因的结构:真核生物基因的结构:Promotor2000bpUTRUTR7转录翻译Promotor2000bpUTRUTR8编号编号编号编号名称名称名称名称第一章第一章第一章第一章生物信息学引论生物信息学引论生物信息学引论生物信息学引论第二章第二章第二章第二章生物信息学的生物学基础生物信息学的生物学基础生物信息学的生物学基础生物信息学的生物学基础第三章第三章第三章第三章生物信息学数据库资源生物信息学数据库资源生物信息学数据库资源生物信息学数据库资源第四章第四章第四章第四章DNADNADNADNA和蛋白质序列分析和蛋白质序列分析和蛋白质序列分

4、析和蛋白质序列分析第五章第五章第五章第五章系统发生分析系统发生分析系统发生分析系统发生分析第六章第六章第六章第六章基因表达数据分析基因表达数据分析基因表达数据分析基因表达数据分析第七章第七章第七章第七章其他常用生物信息学工具其他常用生物信息学工具其他常用生物信息学工具其他常用生物信息学工具第八章第八章第八章第八章电子克隆的原理和应用电子克隆的原理和应用电子克隆的原理和应用电子克隆的原理和应用第九章第九章第九章第九章基本生物信息学工具的开发与应用基本生物信息学工具的开发与应用基本生物信息学工具的开发与应用基本生物信息学工具的开发与应用9第三章第三章 生物信息学数据库资源生物信息学数据库资源10提

5、纲提纲:n模式生物测序模式生物测序n3大核酸数据库大核酸数据库n蛋白质数据库蛋白质数据库11提纲提纲:n模式生物测序模式生物测序n3大核酸数据库大核酸数据库n蛋白质数据库蛋白质数据库1213humanArabidopsisThermotoga maritimaEscherichia coliBuchnerasp. APSRickettsia prowazekiiUreaplasma urealyticumBacillus subtilisDrosophila melanogasterThermoplasma acidophilumPlasmodium falciparumHelicobacte

6、r pylori mouseCaenorhabitis elegansratBorrelia burgorferiBorrelia burgorferiAquifex aeolicusNeisseria meningitidis Z2491Mycobacterium tuberculosis 一、模式生物一、模式生物14模式生物基因组计划模式生物基因组计划模式生物基因组计划模式生物基因组计划模式生物基因组计划模式生物基因组计划 酵酵母母、线线虫虫、果果蝇蝇、细细菌菌、拟拟南南芥芥、人人类类、水水稻稻等等共共约约50505050多多多多种种种种已已完完成成,70707070余余余余种种种种正正在

7、在进进行行。目目前前总总量量已已达达60606060亿亿亿亿碱基对!碱基对! 152001年年2月月15日日Nature封面封面2001年年2月月16日日Science封面封面16又一次成功!又一次成功! 水稻基因研究水稻基因研究引言17我国自主产权的全基因组测序计划我国自主产权的全基因组测序计划水稻水稻 (2002)家鸡家鸡 (2004)家蚕家蚕 (2007)家猪家猪 (2009)大熊猫大熊猫 (2010)18virusesplasmidsbacteriafungiplantsalgaeinsectsmollusksreptilesbirdsmammalsGenome sizes in nu

8、cleotide pairs (base-pairs)10410810510610710111010109bony fishamphibians模式生物模式生物模式生物模式生物(Model Organism)(Model Organism)病毒(病毒(病毒(病毒(VirusVirusVirusVirus) 不不具有细胞形态结构,仅由核酸和蛋白质构成;具有细胞形态结构,仅由核酸和蛋白质构成; 如:人艾滋病毒如:人艾滋病毒HIVHIV、SARSSARS冠状病毒冠状病毒 体积小,体积小,1010300300nmnm; 严格的专性细胞内寄生;严格的专性细胞内寄生; 对抗生素不敏感。对抗生素不敏感。电子

9、显微镜下的电子显微镜下的SARS冠状病毒冠状病毒100nm20Escherichia coli大肠杆菌大肠杆菌大肠杆菌是研究得最为详尽的一个模式生物。这种大肠杆菌是研究得最为详尽的一个模式生物。这种只有只有1.61.6微米长的、可以迅速繁殖的单细胞原核生物,微米长的、可以迅速繁殖的单细胞原核生物,已经成为实验室和基因工程的重要工具。已经成为实验室和基因工程的重要工具。Escherichia coli O157:H7Escherichia coli K12模式生物模式生物模式生物模式生物(Model Organism)(Model Organism)21Saccharomyces cerevis

10、iae酿酒酵母酿酒酵母真菌界的单细胞真核生物,它的全基因组真菌界的单细胞真核生物,它的全基因组已在已在19961996年测定。年测定。模式生物模式生物模式生物模式生物(Model Organism)(Model Organism)22秀丽线虫秀丽线虫Caenorhabditis elegans一种透明的、生活在海滩泥沙中的小虫。一种透明的、生活在海滩泥沙中的小虫。 细胞数目一定:成虫细胞数目只有细胞数目一定:成虫细胞数目只有959959个,其中包括个,其中包括302302个神经元;个神经元; 有有6 6条染色体,全基因组于条染色体,全基因组于19981998年测定,长年测定,长9.7Mb9.7

11、Mb模式生物模式生物模式生物模式生物(Model Organism)(Model Organism)23Drosophila melanogaster果蝇果蝇繁殖很快、容易诱发变异的小昆虫。繁殖很快、容易诱发变异的小昆虫。总长达总长达1.81.8亿核苷酸。亿核苷酸。 模式生物模式生物模式生物模式生物(Model Organism)(Model Organism)24Arabidopsis thaliana拟南芥拟南芥个体生活周期只有个体生活周期只有6 6周的十字花科周的十字花科小草,是一种理想的模式植物。小草,是一种理想的模式植物。模式生物模式生物模式生物模式生物(Model Organism

12、)(Model Organism)25Oryza sativa水稻水稻单子叶植物模式植物,单子叶植物模式植物,390-430MB390-430MB模式生物模式生物模式生物模式生物(Model Organism)(Model Organism)26模式生物模式生物模式生物模式生物(Model Organism)(Model Organism)非洲爪蟾(非洲爪蟾(非洲爪蟾(非洲爪蟾(XenopusXenopus laviaslavias) 1个受精卵在个受精卵在24小时内分裂到各种器官初具雏形的程度;小时内分裂到各种器官初具雏形的程度;27模式生物模式生物模式生物模式生物(Model Organi

13、sm)(Model Organism)斑马鱼(斑马鱼(斑马鱼(斑马鱼(DanioDanio reriorerio) 身体透明的小鱼,生活周期约身体透明的小鱼,生活周期约3个月,是研究脊椎动物发育个月,是研究脊椎动物发育过程的良好对象。过程的良好对象。28模式生物模式生物模式生物模式生物(Model Organism)(Model Organism)小鼠(小鼠(小鼠(小鼠(MusMus musculusmusculus) 基因组大小与人类相近,约基因组大小与人类相近,约30亿个核苷酸对;亿个核苷酸对;293031提纲提纲:n模式生物测序模式生物测序n3大核酸数据库大核酸数据库n蛋白质数据库蛋白质

14、数据库32主要的数据库资源主要的数据库资源核酸序列数据库核酸序列数据库主要有主要有GenBank, EMBL, DDBJ等等.蛋白质序列数据库蛋白质序列数据库主要有主要有SWISS-PROT, PIR, TrEMBL等,等,蛋白结构数据库蛋白结构数据库有有PDB, MMDB等,等,333 3大核酸数据库大核酸数据库基因组数据库的相关背景。基因组数据库的相关背景。主要的基因组数据库资源。主要的基因组数据库资源。重点介绍重点介绍GenBankGenBank34ATTGACTAPrimary vs. Derivative DatabasesACGTGCTTGACACGTGAATTGACTATATAG

15、CCGACGTGCACGTGCACGTGCTTGACATTGACATTGACACGTGACGTGACGTGAATTGACTAATTGACTAATTGACTAATTGACTATATAGCCGTATAGCCGTATAGCCGTATAGCCGGenBankTATAGCCGTATAGCCGTATAGCCGTATAGCCGATGACATTGAGAATTATTCCGAGAATTCCGAGAATTATTCCGAGAATTCCSequencingCentersGAGAATTCCGAGAATTCCUniGeneRefSeqGenomeAssemblyLabsCuratorsAlgorithmsTATAGCCGA

16、GCTCCGATACCGATGACAA35三大基因数据库三大基因数据库GenbankGenbank库包含了所有已知的核酸序列和蛋白质序列,以及与库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心信息中心(NCBI)建立和维护的。建立和维护的。NCBI的网址是:的网址是:http:/www.ncbi.nlm.nih.gov。EMBL核酸序列数据库核酸序列数据库由欧洲生物信息学研究所由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,查维护的核酸序列数据构成,查询检索可以通过通过因特

17、网上的序列提取系统询检索可以通过通过因特网上的序列提取系统(SRS)服务完成。服务完成。数据库网址是:数据库网址是:http:/www.ebi.ac.uk/embl/。DDBJ数据库数据库日本日本DNA数据仓库数据仓库(DDBJ)也是一个全面的核酸序列数据库,与也是一个全面的核酸序列数据库,与Genbank和和EMBL核酸库合作交换数据。使用其主页上提供的核酸库合作交换数据。使用其主页上提供的SRS工具进行数据检索和序列分析。工具进行数据检索和序列分析。DDBJ的网址是:的网址是:http:/www.ddbj.nig.ac.jp/。36PublicfreeAvailableviaInterne

18、tEMBL Data LibraryDDBJ (DNA Data Bank of Japan)三大基因数据库之间的关系三大基因数据库之间的关系37http:/www.ncbi.nlm.nih.gov/http:/www.ddbj.nig.ac.jp/index-e.htmlhttp:/www.ebi.ac.uk/embl/38美国的核酸数据库美国的核酸数据库GenBankBanson,D.A. et al. (1998) Nucleic Acids Res. 26, 1-7从从1979年开始建设,年开始建设,1982年正式运行;年正式运行;3940 欧洲分子生物学实验室的欧洲分子生物学实验室的

19、EMBL数据数据库也于库也于1982年开始服务年开始服务41http:/www.ebi.ac.uk/embl/42http:/www.ddbj.nig.ac.jp/index-e.html43日本于日本于1984年开始建立国家级的核酸年开始建立国家级的核酸数据库数据库DDBJ,并于并于1987年正式服务。年正式服务。44http:/www.ncbi.nlm.nih.gov/http:/www.ddbj.nig.ac.jp/index-e.htmlhttp:/www.ebi.ac.uk/embl/45GenBankhttp:/www.ncbi.nlm.nih.gov/46The National

20、 Institutes of HealthLister HillNatcherBethesda, MD4748NCBI Web Traffic Users per day300,000200,000100,000400,0001998 1999 2000 2001 200220032004500,000600,0002005Christmas and New Years Day4950515253提纲提纲:n模式生物测序模式生物测序n3大核酸数据库大核酸数据库n蛋白质数据库蛋白质数据库54蛋白质数据库蛋白质数据库55主要的数据库资源主要的数据库资源核酸序列数据库核酸序列数据库主要有主要有Gen

21、Bank, EMBL, DDBJ等等.蛋白质序列数据库蛋白质序列数据库主要有主要有SWISS-PROT, PIR, TrEMBL等,等,蛋白结构数据库蛋白结构数据库有有PDB, MMDB等,等,与基因组有关的数据库还有与基因组有关的数据库还有dbEST, OMIM等,等,56 PIRPIRPIRPIR (Protein Information Resource (Protein Information Resource (Protein Information Resource (Protein Information Resource ,蛋白质信息,蛋白质信息,蛋白质信息,蛋白质信息资源)于

22、资源)于资源)于资源)于1984198419841984年正式启动,目前由美国国际蛋白质信年正式启动,目前由美国国际蛋白质信年正式启动,目前由美国国际蛋白质信年正式启动,目前由美国国际蛋白质信息中心管理。息中心管理。息中心管理。息中心管理。SwissProtSwissProtSwissProtSwissProt由瑞士日内瓦大学于由瑞士日内瓦大学于由瑞士日内瓦大学于由瑞士日内瓦大学于1986198619861986年创建,目前年创建,目前年创建,目前年创建,目前由瑞士生物信息学研究所和欧洲生物信息学研究由瑞士生物信息学研究所和欧洲生物信息学研究由瑞士生物信息学研究所和欧洲生物信息学研究由瑞士生物

23、信息学研究所和欧洲生物信息学研究所所所所 EBIEBIEBIEBI共同维护和管理。共同维护和管理。共同维护和管理。共同维护和管理。TrEMBLTrEMBLTrEMBLTrEMBL是从是从是从是从EMBLEMBLEMBLEMBL中的中的中的中的cDNAcDNAcDNAcDNA序列翻译得到的。该数序列翻译得到的。该数序列翻译得到的。该数序列翻译得到的。该数据库采用据库采用据库采用据库采用SwissProtSwissProtSwissProtSwissProt数据库格式,包含数据库格式,包含数据库格式,包含数据库格式,包含EMBLEMBLEMBLEMBL数据库数据库数据库数据库中所有编码序列的翻译。

24、中所有编码序列的翻译。中所有编码序列的翻译。中所有编码序列的翻译。57 PIRPIR(protein information resource)(protein information resource)(protein information resource)(protein information resource) 1. 1. 由美国由美国NCBINCBI翻译自翻译自GenBankGenBank的的DNADNA序列序列(1984(1984年年) ); 2. 2. 在在EMBLEMBL和和GenBankGenBank数据库上均建立了镜像站点;数据库上均建立了镜像站点; 3. 3. 数据依

25、据注释的质量分为数据依据注释的质量分为4 4类。类。 网址:网址: http:/www-http:/www-nbrf.georgetown.edunbrf.georgetown.edu/ /分类名称分类名称(Name)说明说明(Comment)记录数记录数(Number of entries)PIR1已分类、已注释已分类、已注释(Classified and annotated)13572PIR2已已注释注释(Annotated)69368PIR3未未核实核实(Unverified)7508PIR4未未翻译翻译(Unencoded or untranslated)196PIRPIR数据库的分类

26、情况数据库的分类情况数据库的分类情况数据库的分类情况(Release 51.03)(Release 51.03)5859 SWISSSWISSPROTPROT 1. 1. 1. 1. 瑞瑞瑞瑞士士士士日日日日内内内内瓦瓦瓦瓦大大大大学学学学医医医医学学学学生生生生物物物物化化化化学学学学系系系系和和和和欧欧欧欧洲洲洲洲生生生生物物物物信信信信息学研究所息学研究所息学研究所息学研究所(EBI)(EBI)(EBI)(EBI)合作维护(合作维护(合作维护(合作维护(1986198619861986年);年);年);年); 2. 2. 2. 2. 在在在在EMBLEMBLEMBLEMBL和和和和Gen

27、BankGenBankGenBankGenBank数据库上均建立了镜像站点数据库上均建立了镜像站点数据库上均建立了镜像站点数据库上均建立了镜像站点; ; ; ; 3. 3. 3. 3. 数据库包括了从数据库包括了从数据库包括了从数据库包括了从EMBLEMBLEMBLEMBL翻译而来的蛋白质序列,翻译而来的蛋白质序列,翻译而来的蛋白质序列,翻译而来的蛋白质序列,这些序列经过检验和注释;这些序列经过检验和注释;这些序列经过检验和注释;这些序列经过检验和注释; SWISS-PROTSWISS-PROTSWISS-PROTSWISS-PROT的的的的网址:网址:网址:网址: http:/cn.expa

28、sy.org/sprothttp:/cn.expasy.org/sprot6061蛋白质结构数据库蛋白质结构数据库62主要的数据库资源主要的数据库资源核酸序列数据库核酸序列数据库主要有主要有GenBank, EMBL, DDBJ等等.蛋白质序列数据库蛋白质序列数据库主要有主要有SWISS-PROT, PIR, TrEMBL等,等,蛋白结构数据库蛋白结构数据库有有PDB, MMDB等,等,与基因组有关的数据库还有与基因组有关的数据库还有dbEST, OMIM等,等,63 PDBPDB(protein data bankprotein data bankprotein data bankprote

29、in data bank) 1. 1. 目前最主要的蛋白质分子结构数据库;目前最主要的蛋白质分子结构数据库; 2. 19702. 1970年代建立,美国年代建立,美国BrookhavenBrookhaven国家实验室维护管国家实验室维护管理理; ; 3. 1988 3. 1988年,由美国年,由美国RCSB(research RCSB(research collaboratorycollaboratory for for structural biology)structural biology)管理;管理; 4. 4. 以文本格式存放数据,包括原子坐标、物种来源、以文本格式存放数据,包括原子

30、坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等;测定方法、提交者信息、一级结构、二级结构等; PDBPDB的网址:的网址:http:/http:/www.rcsb.org/pdbwww.rcsb.org/pdb( (美国美国) ) 6465http:/www.rcsb.org/pdb6667DownloadPDB fileViewPDB fileStructure viewoptions686970提纲提纲:n模式生物测序模式生物测序n3大核酸数据库大核酸数据库n蛋白质数据库蛋白质数据库71重要通知:下次课在机房上课下次课在机房上课, ,请自己准备好请自己准备好上网帐号上网帐号: :内容内容: : 数据库资源检索数据库资源检索时间时间: :下周一下周一(9(9月月2626日日) ) 晚上晚上1919:00-2100-21:0000地点地点: :生科楼生科楼B2017B201772Questions:Questions:下列数据库分别是什么类型的数据库下列数据库分别是什么类型的数据库? ? GenBankGenBank, PIR, DDBJ, SWISS-PROT, , PIR, DDBJ, SWISS-PROT, PDB, EMBL, PDB, EMBL, TrEMBLTrEMBL, , 73

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号