中国科技大学课件系列:《生物信息学》02

上传人:wm****3 文档编号:57377943 上传时间:2018-10-21 格式:PPT 页数:62 大小:5.56MB
返回 下载 相关 举报
中国科技大学课件系列:《生物信息学》02_第1页
第1页 / 共62页
中国科技大学课件系列:《生物信息学》02_第2页
第2页 / 共62页
中国科技大学课件系列:《生物信息学》02_第3页
第3页 / 共62页
中国科技大学课件系列:《生物信息学》02_第4页
第4页 / 共62页
中国科技大学课件系列:《生物信息学》02_第5页
第5页 / 共62页
点击查看更多>>
资源描述

《中国科技大学课件系列:《生物信息学》02》由会员分享,可在线阅读,更多相关《中国科技大学课件系列:《生物信息学》02(62页珍藏版)》请在金锄头文库上搜索。

1、生物信息学,第二章:序列的采集和存储,中心法则,DNA:Deoxyribonucleic acid,脱氧核糖核酸; RNA:RiboNucleic Acid,核糖核酸;,碱基,核苷酸,Ribonucleotide,脱氧核苷酸 Deoxyribonucleotide,双脱氧核糖核苷酸 Dideoxyribonucleotide,DNA的结构,RNA的结构,氨基酸的结构,氨基酸的性质及分类,氨基酸周期表,标准密码子,本章内容提要,1. DNA测序 2. 序列数据的存储 核酸序列数据库 蛋白质序列数据库 基因组数据库 3. 序列数据的文件格式,1. DNA测序,DNA一次连续测序的长度约为500bp

2、; EST (Expressed sequence tag) 测序:细胞中mRNA反转录成cDNA,方向不定测序; GSS (Genome Survey Sequences,基因组勘测序列):类似于ESTs,来源基因组; HTG (High-throughput genome sequences,高通量基因组序列):高通量、尚未完工的DNA序列;,DNA 测序的实验方法 (末端终止法),(D),使用寡核苷酸引物连续测序,基因组测序:两种方案策略,1. 基因图谱法:DNA片段在染色体上的位置、方向已知。首先染色体被打断成150200kbp左右的大片段,然后克隆到BACs (Bacterial A

3、rtificial Chromosome)中,再进一步随机打断,克隆,测序,依靠计算机组装成长的序列(contig) 。 2. “鸟枪法”(shotgun):DNA片段在染色体上的位置和方向未知。全基因组随机打断成小片段,克隆,双向测序,计算机组装成长的序列。,人类基因组计划,基因组图谱:遗传图谱,物理图谱 遗传图谱(genetic map):连锁图谱,显示所知的基因和/或遗传标记的相对距离位置与次序。 物理图谱(physical map):表示某些基因和/或遗传标记之间在基因组上的精确位置和距离(如间隔的bp数目)的图谱。,大规模测序方法,2. 序列数据的存储,核酸序列数据库 国际三大核酸序

4、列数据库: GenBank, EBML, DDBJ RefSeq: The Reference Sequence Database dbEST: Expressed Sequences Tags数据库 UniGene等 蛋白质序列数据库 UniProt Swiss-prot & TrEMBL, PIR 基因组数据库: Ensembl,核酸数据库数据的增长,GenBank,由美国国立卫生研究院NIH下属国立生物技术信息中心NCBI建立。 汇集并注释了所有公开的核酸以及蛋白质序列。每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。,GenBank中测序最多的20个物种,161.0版,

5、2007,EMBL核酸序列数据库,EMBL-EBI (European Bioinformatics Institute)维护; http:/www.ebi.ac.uk/embl/,NIG (National Institute of Genetics) CIB (Center for Information Biology) http:/www.ddbj.nig.ac.jp/index-e.html,DDBJ,INSDC,1998年,GenBank、EMBL和DDBJ共同成立了国际核酸序列数据库协会 (International Nucleotide Sequence Database Co

6、llaboration,INSDC) 三大核酸数据库之间每天将新测定或更新的数据进行交换共享,保证数据信息的完整与同步,每两个月更新一次版本。 http:/www.insdc.org/,三大数据库之间的联系,RefSeq数据库,1. 提供非冗余的,高质量的,经检验校正的序列信息; 2. 包括染色体、基因组(细胞器、病毒、质粒)、蛋白质、RNA等; 序列文件的标识符: mRNA序列:NM_123456 非编码RNA:NR_123456 蛋白质序列: NP_123456 http:/www.ncbi.nlm.nih.gov/RefSeq,RefSeq记录的特征,截然不同的Accession号区别于

7、其它GenBank命名格式的序列,前缀是两个字母加下划线 _; 在Comment区域显示来源; 使用正式命名; 包括dbxrefs的特征; 蛋白序列在DBSOURCE区域标示 REFSEQ,GenBank VS. RefSeq,dbEST: 表达序列标签数据库,最多的20个物种:,2007.08,总序列45,660,524条,http:/www.ncbi.nlm.nih.gov/dbEST/,UniGene: An Organized View of the Transcriptome,为每一个基因创造一个唯一的条目,收集这个基因所有的ESTs,http:/www.ncbi.nlm.nih.g

8、ov/unigene,Swiss-Prot & TrEMBL,最早广泛使用的蛋白数据库;欧洲最主要的蛋白序列数据库;http:/www.expasy.ch/sprot/ SIB(Swiss Institute of Bioinformatics) 可由ExPASy(Expert Protein Analysis System)系统访问; 所有序列条目均经过有经验的分子生物学家和蛋白质化学家审核,因此又称为蛋白质专家库。,TrEMBL vs. GenPept,TrEMBL (Translation of EMBL):计算机注释的Swiss-Prot分支数据库,从EMBL库中的cDNA序列翻译得到

9、的氨基酸序列数据库。 GenPept:由GenBank翻译得到的蛋白质序列,与TrEMBL类似,这两个数据库中的序列错误率较大,均有较大的冗余度。,PIR,1984年,美国国家医学研究基金会(NREF)正式启动蛋白质信息资源(Protein Information Resource, PIR)计划; 美国最主要的蛋白序列数据库; 非冗余、高质量注释、全面分类; PIR数据库按照数据的性质和注释层次分为PIR1、PIR2、PIR3和PIR4。PIR1中的序列已经验证,注释最为详尽。 http:/pir.georgetown.edu/,UniProt,Universal Protein Resou

10、rce: Swiss-prot(TrEMBL), PIR两大蛋白数据库的整合体; 收录蛋白质序列目录最广泛、功能注释最全面的数据库; 包含三个子库: UniProtKB(UniProt Knowledgebase) UniRef(UniProt Reference Clusters) UniParc(Uniprot Archive) http:/www.uniprot.org,UniProtKB,UniProt Knowledgebase: Release 15.4 , 16-Jun-2009 ,包括: Swiss-Prot Release 57.4 : 497293 entries TrEM

11、BL Release 40.4 : 9145906 entries 包含蛋白质序列全面的信息,提供准确、丰富的序列与功能注释。 记录以6位字母和数字组成,例:Q5K8D3,Swiss-Prot Release 57.7,TrEMBL Release 40.4,较早的基因组数据库- GDB,为人类基因组计划(HGP)保存和处理基因组图谱数据。 GDB的目标是构建关于人类基因组的百科全书,除了构建基因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序列变异和其它对功能和表型的描述。,基因组数据库,收集某些生物整个基因组序列的数据库; 基因组计划 Human Genome Project h

12、ttp:/www.sanger.ac.uk/HGP/ Sequencing Genomics Projects http:/www.sanger.ac.uk/Projects/ 从GenBank中选择同一物种的核酸信息组成的二级库;,The Ensembl project produces genome databases for vertebrates and other eukaryotic species, and makes this information freely available online. EMBL-EBI和Sanger研究所共同开发。 http:/www.ensem

13、bl.org/,基因组数据库-Ensembl,3. 序列数据的文件格式,DNA/RNA/氨基酸代码的标识 GenBank数据格式 EMBL & UniProt数据格式 FASTA 数据格式,DNA代码,氨基酸代码,GenBank数据文件格式,GenBank数据文件格式,GenBank数据文件格式,GenBank的数据类型,GenBank数据文件格式,GenBank数据文件格式,EMBL(UniProt)数据格式,EMBL和GenBank数据格式的对比,FASTA格式,FASTA格式,1I60:A|PDBID|CHAIN|SEQUENCE MKLCFNEATTLENSNLKLDLELCEKHGYDYIEIRTMDKLPEYLKDHSLDDLAEYFQTHHIKPLALNALVFFNNRDEKGHNEIITEFKGMMETCKTLGVKYVVAVPLVTEQKIVKEEIKKSSVDVLTELSDIAEPYGVKIALEFVGHPQCTVNTFEQAYEIVNTVNRDNVGLVLDSFHFHAMGSNIESLKQADGKKIFIYHIDDTEDFPIGFLTDEDRVWPGQGAIDLDAHLSALKEIGFSDVVSVELFRPEYYKLTAEEAIQTAKKTTVDVVSKYFSM,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号