分子序列对比分析数据库课件

上传人:汽*** 文档编号:567271262 上传时间:2024-07-19 格式:PPT 页数:66 大小:1.87MB
返回 下载 相关 举报
分子序列对比分析数据库课件_第1页
第1页 / 共66页
分子序列对比分析数据库课件_第2页
第2页 / 共66页
分子序列对比分析数据库课件_第3页
第3页 / 共66页
分子序列对比分析数据库课件_第4页
第4页 / 共66页
分子序列对比分析数据库课件_第5页
第5页 / 共66页
点击查看更多>>
资源描述

《分子序列对比分析数据库课件》由会员分享,可在线阅读,更多相关《分子序列对比分析数据库课件(66页珍藏版)》请在金锄头文库上搜索。

1、生物信息技术应用生物信息技术应用分子序列比对分析分子序列比对分析Sequence alignment安徽大学生命科学学院安徽大学生命科学学院Contents序列数据库序列数据库142成对序列比对与成对序列比对与BLAST工具工具3多重序列比对与多重序列比对与Clustal工具工具序列比对的应用序列比对的应用安徽大学生命科学学院安徽大学生命科学学院 序列数据库序列数据库1基本类型:基本类型:基本类型:基本类型:vv初级数据库初级数据库初级数据库初级数据库 收录、存储序列的基本数据资源,如核酸(蛋白质)序列、收录、存储序列的基本数据资源,如核酸(蛋白质)序列、收录、存储序列的基本数据资源,如核酸(

2、蛋白质)序列、收录、存储序列的基本数据资源,如核酸(蛋白质)序列、蛋白质空间结构及基因组信息。蛋白质空间结构及基因组信息。蛋白质空间结构及基因组信息。蛋白质空间结构及基因组信息。vv次级数据库次级数据库次级数据库次级数据库在初级库资源基础上进行整理和标注,为特定专业领域服在初级库资源基础上进行整理和标注,为特定专业领域服在初级库资源基础上进行整理和标注,为特定专业领域服在初级库资源基础上进行整理和标注,为特定专业领域服务的派生数据库,如表达序列标记、微列阵(基因芯片)、务的派生数据库,如表达序列标记、微列阵(基因芯片)、务的派生数据库,如表达序列标记、微列阵(基因芯片)、务的派生数据库,如表达

3、序列标记、微列阵(基因芯片)、代谢和信号途径、遗传疾病数据库、免疫数据库等等。代谢和信号途径、遗传疾病数据库、免疫数据库等等。代谢和信号途径、遗传疾病数据库、免疫数据库等等。代谢和信号途径、遗传疾病数据库、免疫数据库等等。安徽大学生命科学学院安徽大学生命科学学院核酸序列数据库核酸序列数据库vv以核苷酸顺序及注释信息为基本内容的数据库以核苷酸顺序及注释信息为基本内容的数据库以核苷酸顺序及注释信息为基本内容的数据库以核苷酸顺序及注释信息为基本内容的数据库vv世界三大核酸数据库世界三大核酸数据库世界三大核酸数据库世界三大核酸数据库1.1.GenBankGenBank in USA in USA (

4、( http:/http:/www.ncbi.nlm.nih.govwww.ncbi.nlm.nih.gov ) )2.2.EMBL in Europe EMBL in Europe ( ( http:/http:/www.ebi.ac.uk/emblwww.ebi.ac.uk/embl ) )3.3.DDBJ in Japan DDBJ in Japan ( ( http:/http:/www.ddbj.nig.ac.jpwww.ddbj.nig.ac.jp ) )19981998年,年,GenBankGenBank, EMBL, DDBJ, EMBL, DDBJ共同成立国际核酸序列数据库协

5、会共同成立国际核酸序列数据库协会( (INSDC, INSDC, http:/http:/www.insdc.orgwww.insdc.org ) ),实现了全球范围内的核酸序列,实现了全球范围内的核酸序列的同步更新和交换互享。的同步更新和交换互享。安徽大学生命科学学院安徽大学生命科学学院蛋白质序列数据库蛋白质序列数据库vv以蛋白质氨基酸顺序及注释信息为基本内容的数据库以蛋白质氨基酸顺序及注释信息为基本内容的数据库以蛋白质氨基酸顺序及注释信息为基本内容的数据库以蛋白质氨基酸顺序及注释信息为基本内容的数据库vv世界主要蛋白质序列数据库世界主要蛋白质序列数据库世界主要蛋白质序列数据库世界主要蛋白质

6、序列数据库(1) PIR-PSD (Protein information resource-protein sequence database) (1) PIR-PSD (Protein information resource-protein sequence database) founded by NBRF of USA (founded by NBRF of USA (美国国家医学研究基金会美国国家医学研究基金会) ) in 1984 in 1984 ( ( http:/pir.georgetown.edu/ http:/pir.georgetown.edu/ ) )19881988

7、年,日本国际蛋白质信息库年,日本国际蛋白质信息库( (JIPIDJIPID) )和德国慕尼黑蛋白质序列信和德国慕尼黑蛋白质序列信息中心息中心( (MIPSMIPS) )加入加入PIRPIR,合作成立了国际蛋白质信息中心(,合作成立了国际蛋白质信息中心(PIR-PIR-InternationalInternational)。)。PIRPIR为较全面和权威注释的蛋白质数据库,具有非冗为较全面和权威注释的蛋白质数据库,具有非冗余、高质量注释和分类全面等特点。余、高质量注释和分类全面等特点。安徽大学生命科学学院安徽大学生命科学学院蛋白质序列数据库蛋白质序列数据库vv世界主要蛋白质序列数据库世界主要蛋白

8、质序列数据库世界主要蛋白质序列数据库世界主要蛋白质序列数据库(2) SwissProt (2) SwissProt 19861986年始创于瑞士日内瓦大学年始创于瑞士日内瓦大学 ,现由瑞士生物信息学研究所,现由瑞士生物信息学研究所(SIB)(SIB)和和欧洲生物信息学研究所欧洲生物信息学研究所(EBI)(EBI)共同管理和维护。共同管理和维护。 ( ( http:/www.expasy.ch/sprot/ http:/www.expasy.ch/sprot/ ) )SwissProtSwissProt数据库的特点:所有序列条目经过专家核实,可靠性与可数据库的特点:所有序列条目经过专家核实,可靠

9、性与可信度高;注释详细,包括蛋白质的功能、序列及结构域的结构、翻译信度高;注释详细,包括蛋白质的功能、序列及结构域的结构、翻译后修饰及其位点、突变体等后修饰及其位点、突变体等安徽大学生命科学学院安徽大学生命科学学院蛋白质序列数据库蛋白质序列数据库vv世界主要蛋白质序列数据库世界主要蛋白质序列数据库世界主要蛋白质序列数据库世界主要蛋白质序列数据库(3) TrEMBL (translation of EMBL)(3) TrEMBL (translation of EMBL)建立于建立于19961996年,是从年,是从EMBLEMBL中的中的cDNAcDNA序列翻译得到的蛋白质数据库。序列翻译得到的

10、蛋白质数据库。相似的还有相似的还有GenPept (GenBank)GenPept (GenBank)数据库。数据库。TrEMBLTrEMBL、GenPeptGenPept数据库的特点:序列条目来自核酸序列库的翻译,数据库的特点:序列条目来自核酸序列库的翻译,即时性强;但未经专家的注释、分析和核实,因而错误率和冗余度都即时性强;但未经专家的注释、分析和核实,因而错误率和冗余度都较高。较高。安徽大学生命科学学院安徽大学生命科学学院蛋白质序列数据库蛋白质序列数据库vv全球统一的蛋白质序列与功能数据库全球统一的蛋白质序列与功能数据库全球统一的蛋白质序列与功能数据库全球统一的蛋白质序列与功能数据库Un

11、iProt (Universal Protein Resource, UniProt (Universal Protein Resource, 通用蛋白质资源通用蛋白质资源) )( ( http:/www.uniprot.org/http:/www.uniprot.org/ ) )20022002年,年,PIRPIR、SIBSIB、EBIEBI合并了分属其下的合并了分属其下的PIR-PSDPIR-PSD、Swiss-ProtSwiss-Prot和和TrEMBLTrEMBL数据库,形成了统一的蛋白质数据库数据库,形成了统一的蛋白质数据库UniProtUniProt截止截止20082008年年8

12、8月,月,UniProtUniProt共收录蛋白质序列共收录蛋白质序列 6,462,7516,462,751个个安徽大学生命科学学院安徽大学生命科学学院生物大分子结构数据库生物大分子结构数据库vv以生物大分子各原子空间信息为基本内容的数据库以生物大分子各原子空间信息为基本内容的数据库以生物大分子各原子空间信息为基本内容的数据库以生物大分子各原子空间信息为基本内容的数据库给定序列的蛋白质如何折叠为稳定、具一定生物功能的三维结构?给定序列的蛋白质如何折叠为稳定、具一定生物功能的三维结构?信息来源:信息来源:对蛋白质晶体的对蛋白质晶体的X X射线衍射、核磁共振及冷冻电镜分析射线衍射、核磁共振及冷冻电

13、镜分析主要数据库:主要数据库:美国美国BrookhavenBrookhaven国家实验室的国家实验室的PDB (Protein Data Bank, PDB (Protein Data Bank, 19711971年成立年成立) ) 联合联合MSD-EBIMSD-EBI、PDBjPDBj,于,于20032003年组建全球共享的年组建全球共享的worldwide PDB (wwPDB)worldwide PDB (wwPDB) ( ( http:/www.wwpdb.org/http:/www.wwpdb.org/ ) )截止截止20082008年年8 8月,共收录蛋白质结构月,共收录蛋白质结构

14、5268452684个个Research Collaboratory for Structural Bioinformaticshttp:/www.rcsb.org/pdbhttp:/www.rcsb.org/pdb安徽大学生命科学学院安徽大学生命科学学院GenBankNational Center for Biotechnology Information (NCBI)National Center for Biotechnology Information (NCBI)National Library of MedicineNational Library of MedicineNatio

15、nal Institutes of HealthNational Institutes of Healthhttp:/www.ncbi.nlm.nih.gov/http:/www.ncbi.nlm.nih.gov/安徽大学生命科学学院安徽大学生命科学学院GenBankhttp:/www.ncbi.nlm.nih.gov/http:/www.ncbi.nlm.nih.gov/vv全球著名的生物信息综合数据库全球著名的生物信息综合数据库全球著名的生物信息综合数据库全球著名的生物信息综合数据库 GenBankGenBank(19821982年成立)包含所有已知的核苷酸及蛋白质序列以及与年成立)包含所

16、有已知的核苷酸及蛋白质序列以及与之相关的生物学信息和参考文献,现由美国生物技术信息中心之相关的生物学信息和参考文献,现由美国生物技术信息中心(NCBINCBI,成立于,成立于19881988年)管理维护,是世界上的权威序列数据库。年)管理维护,是世界上的权威序列数据库。 数据库序列的来源为作者直接递交或间接查寻文献所得,并与世界上数据库序列的来源为作者直接递交或间接查寻文献所得,并与世界上其他公开发行的数据库,如其他公开发行的数据库,如EMBLEMBL,DDBJDDBJ交换每日更新的数据。交换每日更新的数据。安徽大学生命科学学院安徽大学生命科学学院GenBankGenBank GenBank

17、核酸数据库的增长(核酸数据库的增长(1982-20081982-2008)截止截止20082008年年2 2月,月,GenBank GenBank 共收录核酸序列近共收录核酸序列近83008300万条,万条,约约860860亿碱基对,来自亿碱基对,来自2626万余种生物万余种生物安徽大学生命科学学院安徽大学生命科学学院GenBankhttp:/www.ncbi.nlm.nih.gov/ Home pagehttp:/www.ncbi.nlm.nih.gov/ Home page安徽大学生命科学学院安徽大学生命科学学院NCBI 数据库检索系统数据库检索系统 EntrezvvEntrezEntre

18、zEntrezEntrez为基于万维网的为基于万维网的为基于万维网的为基于万维网的NCBINCBINCBINCBI数据库检索系统,通过输入关数据库检索系统,通过输入关数据库检索系统,通过输入关数据库检索系统,通过输入关键词,运用布尔算符,可在键词,运用布尔算符,可在键词,运用布尔算符,可在键词,运用布尔算符,可在NCBINCBINCBINCBI所有数据库中进行文本搜所有数据库中进行文本搜所有数据库中进行文本搜所有数据库中进行文本搜索。索。索。索。 安徽大学生命科学学院安徽大学生命科学学院NCBI 数据库检索系统数据库检索系统 Entrez点击进入点击进入Entrez主页主页EntrezEntr

19、ez为基于万维网为基于万维网的的NCBINCBI数据库检索系数据库检索系统,通过输入关键词,统,通过输入关键词,运用布尔算符,可在运用布尔算符,可在NCBINCBI所有数据库中进所有数据库中进行文本搜索。行文本搜索。安徽大学生命科学学院安徽大学生命科学学院NCBI 数据库检索系统数据库检索系统 Entrez安徽大学生命科学学院安徽大学生命科学学院Entrez 应用举例应用举例vv检索主题:检索主题:检索主题:检索主题:小鼠小鼠小鼠小鼠( (mouse)mouse)转录因子转录因子转录因子转录因子(TF) -E2F mRNA(TF) -E2F mRNA的核酸序列的核酸序列的核酸序列的核酸序列vv

20、检索过程:检索过程:检索过程:检索过程:NCBINCBI主页主页主页主页All DatabasesAll Databases在在在在SearchSearch对话框输入关键词对话框输入关键词对话框输入关键词对话框输入关键词”E2F”E2F”,点,点,点,点”Go”Go”输出检索结果输出检索结果输出检索结果输出检索结果。 安徽大学生命科学学院安徽大学生命科学学院Entrez 应用举例应用举例vv输出相关序列输出相关序列输出相关序列输出相关序列37843784条,有待进一步筛选:限制物种来源条,有待进一步筛选:限制物种来源条,有待进一步筛选:限制物种来源条,有待进一步筛选:限制物种来源( (小鼠小鼠

21、小鼠小鼠 Mus musculus)Mus musculus)、限制分子为、限制分子为、限制分子为、限制分子为mRNA (mRNA (排除未经实验验证的预排除未经实验验证的预排除未经实验验证的预排除未经实验验证的预测序列测序列测序列测序列) )。 安徽大学生命科学学院安徽大学生命科学学院Entrez 应用举例应用举例vv最后命中最后命中最后命中最后命中168168条,从中选中条,从中选中条,从中选中条,从中选中NM_148952NM_148952,以待详细分析。,以待详细分析。,以待详细分析。,以待详细分析。 直接进入序列文件,或点直接进入序列文件,或点”reports”,可选,可选”Grap

22、hic”图形显示图形显示安徽大学生命科学学院安徽大学生命科学学院Entrez 应用举例应用举例vvNM_148952NM_148952: 小鼠小鼠小鼠小鼠E2FE2F转录因子转录因子转录因子转录因子-4-4。 安徽大学生命科学学院安徽大学生命科学学院序列文件格式:序列文件格式:FASTA 格式格式GI号号登录号登录号名称名称标题行标题行序列行序列行1.1.标题行:文件的第一行,以大于号标题行:文件的第一行,以大于号“ ”开始,不换行。内容可自开始,不换行。内容可自定义,包括基本信息和简单注释;定义,包括基本信息和简单注释;2.2.序列行:文件第二行起至结束,中间不得有空格。序列行:文件第二行起

23、至结束,中间不得有空格。FASTAFASTA为最简单的序列(核酸或蛋白质)格式为最简单的序列(核酸或蛋白质)格式 安徽大学生命科学学院安徽大学生命科学学院序列文件格式:序列文件格式: GenBank 格式格式GenBankGenBank 格式注释信息丰富全面,属文本文件,包括格式注释信息丰富全面,属文本文件,包括4 4部分:部分:1.1.1.1.头部头部头部头部:含名称、定义、识别码、物种来源等基本信息;:含名称、定义、识别码、物种来源等基本信息;2.2.2.2.引文区引文区引文区引文区:含相关文献信息。:含相关文献信息。3.3.3.3.序列特征表序列特征表序列特征表序列特征表:含序列的编码区

24、、非编码区、功能域、修饰或突变位:含序列的编码区、非编码区、功能域、修饰或突变位点、翻译序列等众多注释信息点、翻译序列等众多注释信息4.4.4.4.序列区序列区序列区序列区:序列本身:序列本身 头头 区区安徽大学生命科学学院安徽大学生命科学学院GenBank 格式格式LocusLocus 行信息行信息:1.1.Locus nameLocus name;2.2.Sequence length;Sequence length;3.3.Type of Molecule: Type of Molecule: DNA, mRNA, DNA, mRNA, cDNAcDNA 4.4.TaxonomyTaxo

25、nomy:PRI primate(PRI primate(灵长类灵长类) ) 、ROD rodent(ROD rodent(啮齿类啮齿类) )、 MAM - MAM - other mammalian (other mammalian (其它哺乳类其它哺乳类) )、VRT - other vertebrate(VRT - other vertebrate(脊椎动物)、脊椎动物)、INV invertebrate sequencesINV invertebrate sequences、PLN - plant, fungal, and algal; BCT - PLN - plant, funga

26、l, and algal; BCT - bacterial; VRL - viral, PHG - bacterial; VRL - viral, PHG - bacteriophagebacteriophage, SYN - synthetic; UNA - , SYN - synthetic; UNA - unannotatedunannotated; EST - expressed sequence tags ; EST - expressed sequence tags 5.5.Date: Date: 上传或最近修改时间上传或最近修改时间 安徽大学生命科学学院安徽大学生命科学学院Gen

27、Bank 格式格式引文区引文区安徽大学生命科学学院安徽大学生命科学学院GenBank 格式格式序列特征表区序列特征表区安徽大学生命科学学院安徽大学生命科学学院GenBank 格式格式序列区序列区/序列以序列以“/”为结束标志为结束标志安徽大学生命科学学院安徽大学生命科学学院 成对序列比对与成对序列比对与BLAST工具工具序列比对序列比对序列比对序列比对vv概念:概念:概念:概念:通过比较两个或两个以上的核酸通过比较两个或两个以上的核酸通过比较两个或两个以上的核酸通过比较两个或两个以上的核酸( ( ( (蛋白质蛋白质蛋白质蛋白质) ) ) )序列,显序列,显序列,显序列,显示其中相似的结构区域。

28、示其中相似的结构区域。示其中相似的结构区域。示其中相似的结构区域。 成对序列比对成对序列比对成对序列比对成对序列比对 (pairwise sequence alignment)(pairwise sequence alignment)(pairwise sequence alignment)(pairwise sequence alignment) 多重序列比对多重序列比对多重序列比对多重序列比对 (multiple sequence alignment)(multiple sequence alignment)(multiple sequence alignment)(multiple se

29、quence alignment)vv功能功能功能功能: : (1) (1) (1) (1) “相似相似相似相似”的序列的序列的序列的序列 “ “ “ “相似相似相似相似”的三维结构的三维结构的三维结构的三维结构; (2) (2) (2) (2) “相似相似相似相似”的序列的序列的序列的序列 “ “ “ “相似相似相似相似”的功能;的功能;的功能;的功能; (3) (3) (3) (3) “相似相似相似相似”的序列的序列的序列的序列 共同的进化起源共同的进化起源共同的进化起源共同的进化起源2uu 序列比对是序列分析(结构、功能与进化关系)的基序列比对是序列分析(结构、功能与进化关系)的基序列比

30、对是序列分析(结构、功能与进化关系)的基序列比对是序列分析(结构、功能与进化关系)的基础础础础安徽大学生命科学学院安徽大学生命科学学院序列比对相关概念序列比对相关概念vv相似性相似性相似性相似性(Similarity)(Similarity):序列间序列间序列间序列间相同相同相同相同碱基或氨基酸残基所占比例碱基或氨基酸残基所占比例碱基或氨基酸残基所占比例碱基或氨基酸残基所占比例的高低,是直观的的高低,是直观的的高低,是直观的的高低,是直观的数量数量数量数量关系,是序列间匹配程度的直接测关系,是序列间匹配程度的直接测关系,是序列间匹配程度的直接测关系,是序列间匹配程度的直接测度。度。度。度。vv

31、同源性同源性同源性同源性(Homology)(Homology):核酸或蛋白质序列间具有共同核酸或蛋白质序列间具有共同核酸或蛋白质序列间具有共同核酸或蛋白质序列间具有共同起源起源起源起源,是,是,是,是依据进化事实的因果判断。依据进化事实的因果判断。依据进化事实的因果判断。依据进化事实的因果判断。n n直系同源直系同源( (orthologyorthology) ):经由:经由物种分离物种分离事件形成的存在于不同物种中事件形成的存在于不同物种中的结构及功能相似的序列的结构及功能相似的序列n n旁系同源旁系同源( (paralogyparalogy) ):经由:经由基因复制基因复制而演化形成在同

32、一生物体的一系而演化形成在同一生物体的一系列结构及功能相似的序列列结构及功能相似的序列vv序列的相似与序列的同源之间无必然的因果关系(相似并序列的相似与序列的同源之间无必然的因果关系(相似并序列的相似与序列的同源之间无必然的因果关系(相似并序列的相似与序列的同源之间无必然的因果关系(相似并不一定同源),但存在一定的不一定同源),但存在一定的不一定同源),但存在一定的不一定同源),但存在一定的相关性相关性相关性相关性(足够的相似性往往(足够的相似性往往(足够的相似性往往(足够的相似性往往意味着同源关系的存在)意味着同源关系的存在)意味着同源关系的存在)意味着同源关系的存在) 安徽大学生命科学学院

33、安徽大学生命科学学院成对序列比对成对序列比对vv用于两个核酸(蛋白质)序列间相似性比较,是生物信息用于两个核酸(蛋白质)序列间相似性比较,是生物信息用于两个核酸(蛋白质)序列间相似性比较,是生物信息用于两个核酸(蛋白质)序列间相似性比较,是生物信息学的基本技术,是多重比对的基础。学的基本技术,是多重比对的基础。学的基本技术,是多重比对的基础。学的基本技术,是多重比对的基础。 The process of lining up two sequences to The process of lining up two sequences to The process of lining up tw

34、o sequences to The process of lining up two sequences to achieve maximal levels of identity (or achieve maximal levels of identity (or achieve maximal levels of identity (or achieve maximal levels of identity (or conservation, in the case of amino acid sequences) conservation, in the case of amino a

35、cid sequences) conservation, in the case of amino acid sequences) conservation, in the case of amino acid sequences) for the purpose of assessing the degree of for the purpose of assessing the degree of for the purpose of assessing the degree of for the purpose of assessing the degree of similarity

36、and the possibility of homology.similarity and the possibility of homology.similarity and the possibility of homology.similarity and the possibility of homology.DNADNA、蛋白质序列比对、蛋白质序列比对Query: 181 catcaactacaactccaaagacacccttacacccactaggatatcaacaaacctacccac 240 | | | | | | Sbjct: 189 catcaactgcaaccccaa

37、agccacccct-cacccactaggatatcaacaaacctacccac 247RBP: 26 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVA 59 + K+ + + GTW+MA + L + A glycodelin: 23 QTKQDLELPKLAGTWHSMAMA-TNNISLMATLKA 55 安徽大学生命科学学院安徽大学生命科学学院成对序列比对成对序列比对vv全局比对(全局比对(全局比对(全局比对(global alignmentglobal alignmentglobal alignmentglobal alignment) 比较结果包含所比较序列

38、全长范围内所有位点的比对,比较结果包含所比较序列全长范围内所有位点的比对,适用于整体相似水平高的同源序列,在分子系统学中常用。适用于整体相似水平高的同源序列,在分子系统学中常用。vv局部比对(局部比对(局部比对(局部比对(local alignmentlocal alignmentlocal alignmentlocal alignment) 仅对相似水平较高的仅对相似水平较高的 局部片段进行比对,多用于分子结局部片段进行比对,多用于分子结构和功能域研究。构和功能域研究。Seq ASeq BSeq ASeq B安徽大学生命科学学院安徽大学生命科学学院成对序列比对举例成对序列比对举例视黄醇黄醇结

39、合蛋白合蛋白(RBP)与水解牛乳蛋白与水解牛乳蛋白(-lactoglobulin)的比的比对结果果完全相同区完全相同区部分相似区部分相似区identitySimilarityGap间隔隔安徽大学生命科学学院安徽大学生命科学学院成对序列比对成对序列比对vv完全匹配(完全匹配(完全匹配(完全匹配(complete matchcomplete matchcomplete matchcomplete match)vv部分匹配(部分匹配(部分匹配(部分匹配(partial matchpartial matchpartial matchpartial match) 对于蛋白质序列而言,不同但性质对于蛋白质

40、序列而言,不同但性质对于蛋白质序列而言,不同但性质对于蛋白质序列而言,不同但性质( ( ( (size, charge, size, charge, size, charge, size, charge, hydrophobicity, and polarityhydrophobicity, and polarityhydrophobicity, and polarityhydrophobicity, and polarity) ) ) )相近的氨基酸常具有相似的功相近的氨基酸常具有相似的功相近的氨基酸常具有相似的功相近的氨基酸常具有相似的功能。能。能。能。碱性碱性碱性碱性aaaaaaaa、酸

41、性、酸性、酸性、酸性aaaaaaaa、中性、中性、中性、中性- - - -非极性非极性非极性非极性aaaaaaaa、极性、极性、极性、极性aaaaaaaavv空位(空位(空位(空位(gapgapgapgap) 源于序列片段的插入或缺失源于序列片段的插入或缺失源于序列片段的插入或缺失源于序列片段的插入或缺失( ( ( (insertion or deletioninsertion or deletioninsertion or deletioninsertion or deletion) ) ) ) 序列比对不同算法对于空位的处理方式有所不同,这直序列比对不同算法对于空位的处理方式有所不同,这直

42、序列比对不同算法对于空位的处理方式有所不同,这直序列比对不同算法对于空位的处理方式有所不同,这直接影响了算法的适用性接影响了算法的适用性接影响了算法的适用性接影响了算法的适用性安徽大学生命科学学院安徽大学生命科学学院局域比对搜索工具局域比对搜索工具 BLASTvvB Basic asic L Local ocal A Alignment lignment S Search earch T Toolool基于基于BLASTBLAST算法(算法(Altschul et al, 1990Altschul et al, 1990)的序列比对搜索工具,由)的序列比对搜索工具,由NCBINCBI研发并维护

43、,因其快速可靠、功能全面且使用方便而被广泛运用。研发并维护,因其快速可靠、功能全面且使用方便而被广泛运用。现行的现行的BLASTBLAST算法为算法为BLAST2BLAST2。程序程序待测序待测序列列数据库类数据库类型型说明说明BlastN核酸核酸核酸核酸在核酸库中比对核酸序列在核酸库中比对核酸序列BlastP蛋白蛋白蛋白蛋白在蛋白库中比对蛋白序列在蛋白库中比对蛋白序列BlastX核酸核酸蛋白蛋白在蛋白库中比对核酸序列在蛋白库中比对核酸序列(用用6种种ORF翻译翻译)tBlastN蛋白蛋白核酸核酸在核酸库在核酸库(用用6种种ORF翻译翻译)中比对蛋白序列中比对蛋白序列tBlastX 核酸核酸核

44、酸核酸在核酸库中比对核酸序列在核酸库中比对核酸序列(均用均用6种种ORF翻译)翻译)安徽大学生命科学学院安徽大学生命科学学院BLAST 应用示例应用示例大肠杆菌乳糖操纵子大肠杆菌乳糖操纵子(lactose operon)(lactose operon)翻译的一个蛋白质序列:翻译的一个蛋白质序列:MKPVTLYDVAEYAGVSYQTVSRVVNQASHVSAKTREKVEAAMAELNYIPNRVAQQLAGKQSLLIGVATSSLALHAPSQIVAAIKSRADQLGASVVVSMVERSGVEACKAAVHNLLAQRVSGLIINYPLDDQDAIAVEAACTNVPALFLDVSD

45、QTPINSIIFSHEDGTRLGVEHLVALGHQQIALLAGPLSSVSARLRLAGWHKYLTRNQIQPIAEREGDWSAMSGFQQTMQMLNEGIVPTAMLVANDQMALGAMRAITESGLRVGADISVVGYDDTEDSSCYIPPSTTIKQDFRLLGQTSVDRLLQLSQGQAVKGNQLLPVSLVKRKTTLAPNTQTASPRALADSLMQLARQVSRLESGQ用用NCBINCBI的的BLASTBLAST工具对该序列进行数据库检索和序列比对分析工具对该序列进行数据库检索和序列比对分析http:/www.ncbi.nlm.nih.gov/bla

46、st/Blast.cgi安徽大学生命科学学院安徽大学生命科学学院BLAST 应用示例应用示例选择”protein blast”安徽大学生命科学学院安徽大学生命科学学院BLAST 应用示例应用示例步步骤1:以以FASTA格式格式输入序列入序列或序列号或序列号步步骤2:选择合适的数据库选择合适的数据库NCBI翻翻译库(nr)Refseq专家家库SwissProt欧洲欧洲专家家库Pat专利利库Pdb三三维结构构库步步骤3:调整参数或选默认,点调整参数或选默认,点BLAST安徽大学生命科学学院安徽大学生命科学学院BLAST 应用示例应用示例vvBLASTBLAST参数设置(蛋白质对位)参数设置(蛋白质

47、对位)参数设置(蛋白质对位)参数设置(蛋白质对位)过滤器去除待器去除待测序序列中重复序列干列中重复序列干扰词长替换矩阵替换矩阵空位罚分空位罚分相似程度降低相似程度降低期望期望阈值E值值= x| H0) P-value = P(S= x| H0) 其服从极值分布函数其服从极值分布函数 n nE-value P * N (E-value P * N (设数据库中有设数据库中有N N条库存序列,条库存序列,P0.1)PxSx时由随机偶然因素产生的对位时由随机偶然因素产生的对位结果的次数(结果的次数(E=1E=1出现一次错误对位出现一次错误对位)。)。n n根据需要设定根据需要设定E-valueE-v

48、alue的阈值,默认值为的阈值,默认值为1010,更严格的搜索需设置,更严格的搜索需设置更小的阈值,如更小的阈值,如1 1。 安徽大学生命科学学院安徽大学生命科学学院BLAST 应用示例应用示例相似度最高的检索序列相似度最高的检索序列(Sbjct)(Sbjct)与被测序列与被测序列(Query)(Query)的比对:的比对:结论:待测序列应是大肠杆菌乳糖操纵子阻遏蛋白,结论:待测序列应是大肠杆菌乳糖操纵子阻遏蛋白,与库存蛋白有一个错配与库存蛋白有一个错配(L(LS)S)安徽大学生命科学学院安徽大学生命科学学院BLAST 应用示例应用示例相似度第二高的检索序列与被测序列的比对:相似度第二高的检索

49、序列与被测序列的比对:42%42%完全匹配,完全匹配,60%60%相同或性质相近相同或性质相近(+)(+),无间隔。两序列,无间隔。两序列间可能存在很高的同源性间可能存在很高的同源性克氏肺炎杆菌 Klebsiella pneumoniae乳糖操纵子阻遏蛋白安徽大学生命科学学院安徽大学生命科学学院BLAST 应用示例应用示例使用过滤器的必要性使用过滤器的必要性agaggccagagagggtgtcggatcccctagacctgtagtctcggacggttgttagctgacgtgtaggtgctgggagataaacccggacgctctggaggaccagtcagtcagctcttagcc

50、cctgagccctctctcctcaattgtatctttcaacttaattttctactaaaatcttttaatactttgaaaaaaaaaaaaaaaaaaaaaaaaaa用用BlastNBlastN工具进行数据库检索和序列比对分析,若不用过滤器,则:工具进行数据库检索和序列比对分析,若不用过滤器,则: PolyA尾巴尾巴可能出现大量可能出现大量无关的假命中无关的假命中安徽大学生命科学学院安徽大学生命科学学院BLAST 应用示例应用示例使用过滤器的必要性使用过滤器的必要性用用BlastNBlastN工具进行数据库检索和序列比对分析,工具进行数据库检索和序列比对分析,若用过滤器若用过

51、滤器,则:,则:用用N替代替代a,过滤掉简单重复序列过滤掉简单重复序列(low complexity)安徽大学生命科学学院安徽大学生命科学学院 多重序列比对与多重序列比对与Clustal工具工具vv多多多多重重重重序列比对序列比对序列比对序列比对 (Multiple sequence alignment) (Multiple sequence alignment) 就是把两条以上可就是把两条以上可就是把两条以上可就是把两条以上可能有系统进化关系的序列能有系统进化关系的序列能有系统进化关系的序列能有系统进化关系的序列同时同时同时同时进行比对的方法进行比对的方法进行比对的方法进行比对的方法。3n

52、n如果序列总体相似程度低,则成对比对往往不能发现一些局部匹配。如果序列总体相似程度低,则成对比对往往不能发现一些局部匹配。而通过多重比对,能大大增加发现这些相似结构域的几率,而这些而通过多重比对,能大大增加发现这些相似结构域的几率,而这些结构通常具有重要的生物学意义。结构通常具有重要的生物学意义。安徽大学生命科学学院安徽大学生命科学学院多重比对工具多重比对工具vv运用最多的多重序列比对方法运用最多的多重序列比对方法运用最多的多重序列比对方法运用最多的多重序列比对方法 ClustalClustal算法算法算法算法 By Feng &DoolittleBy Feng &DoolittleBy Fe

53、ng &DoolittleBy Feng &Doolittle,1987198719871987vv包括包括包括包括clustalW, clustalXclustalW, clustalXclustalW, clustalXclustalW, clustalXvv由于最终的多重排列依赖起始的序列对,最紧密相关的起由于最终的多重排列依赖起始的序列对,最紧密相关的起由于最终的多重排列依赖起始的序列对,最紧密相关的起由于最终的多重排列依赖起始的序列对,最紧密相关的起始对位中的可能错误会随多重比对的进行而累积扩增,尤始对位中的可能错误会随多重比对的进行而累积扩增,尤始对位中的可能错误会随多重比对的进行

54、而累积扩增,尤始对位中的可能错误会随多重比对的进行而累积扩增,尤其在起始排列为远缘序列时,问题更明显。因此其在起始排列为远缘序列时,问题更明显。因此其在起始排列为远缘序列时,问题更明显。因此其在起始排列为远缘序列时,问题更明显。因此ClustalClustalClustalClustal算算算算法较适合于法较适合于法较适合于法较适合于近缘近缘近缘近缘的序列比对。的序列比对。的序列比对。的序列比对。vv现有多重比对算法都不能保证获得最佳比对结果,只是个现有多重比对算法都不能保证获得最佳比对结果,只是个现有多重比对算法都不能保证获得最佳比对结果,只是个现有多重比对算法都不能保证获得最佳比对结果,只

55、是个近似解,往往需要人工分析并作出改进近似解,往往需要人工分析并作出改进近似解,往往需要人工分析并作出改进近似解,往往需要人工分析并作出改进安徽大学生命科学学院安徽大学生命科学学院ClustalWvvEBIEBI在线多重比对工具在线多重比对工具在线多重比对工具在线多重比对工具http:/www.ebi.ac.uk/Tools/clustalw2/index.htmlhttp:/www.ebi.ac.uk/Tools/clustalw2/index.html参数设置区参数设置区安徽大学生命科学学院安徽大学生命科学学院ClustalW应用示例应用示例序列输入框序列输入框步步骤: 输入入FASTA格

56、式格式的的系列系列序列,可序列,可直接粘直接粘贴或上或上传文件文件 “Run”安徽大学生命科学学院安徽大学生命科学学院ClustalW应用示例应用示例步步骤: 程序运行程序运行显示示结果果输出表出表Output fileAlign fileGuide tree fileInput file安徽大学生命科学学院安徽大学生命科学学院ClustalW应用示例应用示例可能的保守功能区可能的保守功能区系系统进化化树图(旁系同源旁系同源)安徽大学生命科学学院安徽大学生命科学学院ClustalW应用示例应用示例“*”号号:完全相同:完全相同的残基位点;的残基位点;“.”号号:有:有较高相似性高相似性的残基位

57、点的残基位点(分子大小与极性基本一致)(分子大小与极性基本一致);“.” 号:号: 相似相似性略低的残基位点性略低的残基位点(分子大小或极性基本一致)(分子大小或极性基本一致)红色红色: AVFPMILW (小分子非极性氨基酸小分子非极性氨基酸)兰色兰色: DE (酸性、负电氨基酸酸性、负电氨基酸)紫色紫色: RHK (碱性正点氨基酸碱性正点氨基酸)绿色绿色: STYHCNGQ (带羟基、氨基的极性氨基酸带羟基、氨基的极性氨基酸)安徽大学生命科学学院安徽大学生命科学学院ClustalXvv单机版单机版单机版单机版ClustalClustal多重比对工具。多重比对工具。多重比对工具。多重比对工具

58、。vv版本版本版本版本2.02.02.02.0vv输入序列多输入序列多输入序列多输入序列多用用用用FastaFastaFastaFasta格式格式格式格式安徽大学生命科学学院安徽大学生命科学学院ClustalX应用示例应用示例步步骤: 载入入FASTA序列序列 “Do Complete Alignment” 指定指定输出文件,出文件,包括:包括:1.“指指导树”文件文件(后后缀dnd)2.“对位位输出出”文件文件(后后缀aln)比比对结果:果: 用彩条和符号用彩条和符号标出出相似程度高的位点相似程度高的位点 对位位结果可通果可通过调整参数整参数进行行调整,以整,以寻找最佳找最佳对位,帮助挖掘位

59、,帮助挖掘其中的生物学意其中的生物学意义安徽大学生命科学学院安徽大学生命科学学院 序列比对的应用序列比对的应用4vv两两比对两两比对两两比对两两比对n n在序列库中对某目标序列进行比较认定在序列库中对某目标序列进行比较认定n n用用ESTEST或蛋白序列与核酸序列的比对,确定编码区,用于基因预测或蛋白序列与核酸序列的比对,确定编码区,用于基因预测vv多重比对多重比对多重比对多重比对n n通过比对寻找、分析保守区域(通过比对寻找、分析保守区域(conserved regionconserved region):):n n发现新的基序发现新的基序(motif)(motif) n n用于基因家族或蛋

60、白质家族分析用于基因家族或蛋白质家族分析n n 建立分子系统进化树建立分子系统进化树n n通过与已知基因的比对,对未知基因结构进行预测通过与已知基因的比对,对未知基因结构进行预测n n通过与结构已知的蛋白质的比对,对未知蛋白的三维结构进行预测通过与结构已知的蛋白质的比对,对未知蛋白的三维结构进行预测安徽大学生命科学学院安徽大学生命科学学院多重序列比对寻找保守的序列基序多重序列比对寻找保守的序列基序球蛋白球蛋白(globin)(globin)的多重比较的多重比较 安徽大学生命科学学院安徽大学生命科学学院多重序列比对寻找保守的序列基序多重序列比对寻找保守的序列基序多重比对发现调控序列的保守结构多重

61、比对发现调控序列的保守结构如:转录启动子的保守区域如:转录启动子的保守区域-10, -35 sequence安徽大学生命科学学院安徽大学生命科学学院用用BLAST 进行蛋白质家族分析和寻找保守域进行蛋白质家族分析和寻找保守域安徽大学生命科学学院安徽大学生命科学学院用用BLAST 进行蛋白质家族分析和寻找保守域进行蛋白质家族分析和寻找保守域NP_631700Pfam (Protein Domain Families database)包括每个蛋白质家族的多重比对信息包括每个蛋白质家族的多重比对信息包括每个蛋白质家族的多重比对信息包括每个蛋白质家族的多重比对信息安徽大学生命科学学院安徽大学生命科学

62、学院用用BLAST 进行蛋白质家族分析和寻找保守域进行蛋白质家族分析和寻找保守域结果解果解读: 该蛋白序列有一个保守域,属离子蛋白序列有一个保守域,属离子转运超家族运超家族(Ion_trans_2 superfamily), 位置在位置在60-110aa之之间安徽大学生命科学学院安徽大学生命科学学院ClustalX应用示例应用示例Ning Zheng et al.1999 Genes & DevelopmentRRXYD: DNA recognition motif安徽大学生命科学学院安徽大学生命科学学院BLAST 练习练习要求:要求: 用用NCBI BlastP比比对搜索搜索该蛋白蛋白质的名

63、称、序列号、物种来源等基本信息;的名称、序列号、物种来源等基本信息; 通通过BLAST寻找其在小鼠找其在小鼠(Mus musculus)中中亲缘最近的同源蛋白,提供比最近的同源蛋白,提供比对结果果; 通通过Special BLAST推断推断该蛋白属于何种蛋白蛋白属于何种蛋白质家族、可能的保守域的名称家族、可能的保守域的名称MALAGAPAGGPCAPALEALLGAGALRLLDSSQIVIISAAQDASAPPAPTGPAAPAAGPCDPDLLLFATPQAPRPTPSAPRPALGRPPVKRRLDLETDHQYLAESSGPARGRGRHPGKGVKSPGEKSRYETSLNLTTKR

64、FLELLSHSADGVVDLNWAAEVLKVQKRRIYDITNVLEGIQLIAKKSKNHIQWLGSHTTVGVGGRLEGLTQDLRQLQESEQQLDHLMNICTTQLRLLSEDTDSQRLAYVTCQDLRSIADPAEQMVMVIKAPPETQLQAVDSSENFQISLKSKQGPIDVFLCPEETVGGISPGKTPSQEVTSEEENRATDSATIVSPPPSSPPSSLTTDPSQSLLSLEQEPLLSRMGSLRAPVDEDRLSPLVAADSLLEHVREDFSGLLPEEFISLSPPHEALDYHFGLEEGEGIRDLFDCDFGDLTPLDFv

65、v两两比对两两比对两两比对两两比对安徽大学生命科学学院安徽大学生命科学学院BLAST 练习练习要求:要求: 已知已知拟南芥南芥(Arabidopsis thaliana) 转录因子因子E2F家族包含家族包含6个成个成员,分,分别为E2Fa, E2Fb, E2Fc, E2Fd, E2Fe, E2Ff,请通通过Entrez查寻其蛋白其蛋白质序列信息,并将序列信息,并将结果保存果保存为FASTA格式;格式; 建立上述蛋白的多重比建立上述蛋白的多重比对FASTA文件;文件; 用用ClustalW进行多重比行多重比对,将,将结果保存下来以便分析果保存下来以便分析vv多重比对多重比对多重比对多重比对安徽大学生命科学学院安徽大学生命科学学院用用NCBI BlastP比对搜索该蛋白质的名称、序列号、物种来源等基本信息比对搜索该蛋白质的名称、序列号、物种来源等基本信息安徽大学生命科学学院安徽大学生命科学学院通过通过BLAST寻找其在小鼠寻找其在小鼠(Mus musculus)中亲缘最近的同源蛋白,提供比对结果中亲缘最近的同源蛋白,提供比对结果安徽大学生命科学学院安徽大学生命科学学院通过通过Special BLAST推断该蛋白属于何种蛋白质家族、可能的保守域的名称推断该蛋白属于何种蛋白质家族、可能的保守域的名称

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号