生物信息学04第四章 核酸和蛋白质序列为基础的数据库检索.

上传人:小** 文档编号:55700249 上传时间:2018-10-04 格式:PPT 页数:35 大小:273.02KB
返回 下载 相关 举报
生物信息学04第四章 核酸和蛋白质序列为基础的数据库检索._第1页
第1页 / 共35页
生物信息学04第四章 核酸和蛋白质序列为基础的数据库检索._第2页
第2页 / 共35页
生物信息学04第四章 核酸和蛋白质序列为基础的数据库检索._第3页
第3页 / 共35页
生物信息学04第四章 核酸和蛋白质序列为基础的数据库检索._第4页
第4页 / 共35页
生物信息学04第四章 核酸和蛋白质序列为基础的数据库检索._第5页
第5页 / 共35页
点击查看更多>>
资源描述

《生物信息学04第四章 核酸和蛋白质序列为基础的数据库检索.》由会员分享,可在线阅读,更多相关《生物信息学04第四章 核酸和蛋白质序列为基础的数据库检索.(35页珍藏版)》请在金锄头文库上搜索。

1、第四章 核苷酸和蛋白质序列为基础的数据库检索 (Sequence-based database searching),本章主要内容: 基本概念 BLAST检索分析方法 本章重点难点: 核酸和氨基酸序列功能分析的基本方法和原理。,序列对位排列(sequence alignment) 将两条或多条序列对位排列,突出相似的结构区域,两条DNA序列对位排列分析,两条蛋白质序列对位排列分析,分析功能 分析物种进化 检测突变、插入或缺失(遗传疾病的检测) 序列延长(电子PCR) 序列定位(STS) 基因表达谱分析(EST),用途,序列对位排列分析的种类,序列对库对位排列分析,从数据库中寻找同源序列 主要涉

2、及核苷酸数据库和蛋白质数据库,两序列对位排列分析 多序列对位排列分析,(一)序列对位排列分析的基本原理,1、记分矩阵(scoring matrix),记分矩阵中含有两条序列对位排列时具体使用的分值 分数越高,两条序列匹配越好,蛋白质序列对位排列分析记分复杂,一致氨基酸的记分不同,稀有氨基酸(C),分值高 普通氨基酸(S),分值低,相似氨基酸也记分,如D-E,序列1:TTYGAPPWCS 序列2: TGYAPPPWS * * *,序列1:TTYGAPPWCS 序列2:TGYAPPPWS * * *,多种记分矩阵,80年代建立的PAM矩阵(如PAM30、PAM70) 近年建立的BLOSUM矩阵(如

3、BLOSUM62、BLOSUM80、BLOSUM45),基于更敏感的对位排列分析,2、空位(间隔)罚分(gap penalty),基因进化过程中产生突变,序列对位排列分析时允许插入空位,插入 缺失,空位开放(gap opening) 空位延伸(gap extension),acgtatgcatgtacgagctac acgtatgcagtacgagctac,空位罚分涉及两个参数,BLAST FASTA Blitz,(二)序列对库对位排列分析,主要检索体系,用待分析序列对数据库进行相似性分析 重复许多次的两两序列对位排列分析 从数据库中找出所有同源序列,1、基本概念,(1)Sequence id

4、entity 和 sequence similarity,Identity: 两条序列在同一位点上的核苷酸或 氨基酸残基完全相同 Similarity (positive): 两条序列在同一位点上的 氨基酸残基的化学性质相似,Query: 1 IGQAQCSTFRGRIYNETNIDSAFATQRQANCP 32 IGQAQC TF+ RIYNET +AFAT +ANCP Sbjet: 2 IGQAQCGTFKDRIYNET-TAFATSLRANCP 29,(2)Global alignment 和 local alignment,Global alignment: 两条完整的序列相比较,Lo

5、cal alignment: 两条序列中相似程度最高的部分 相比较,(3)Gapped alignment 和 ungapped alignment,Gapped alignment: 为达到最佳 alignment,序列中加入空位,Ungapped alignment:相比较序列的核苷酸或氨基酸 序列连续,(4)Alignment score 和 E (expect) value,衡量两条相比较序列相似程度的标准,raw score: 原始分,分值越大,两个比较序列相似程度越大 bit score: 采用统计学方法以原始分为基础计算的 E value: 期望得到的、完全由机会(错误)造成的、

6、相当于或 大于目前分值的alignment 次数,E = 10, 5e - 46 = 5 10-46,E 值越小越好 取决与 alignment 分值、相比较序列的长短和 数据库中数据的数量,(5)Low-complexity region (低复杂性区域,LCR),核苷酸和蛋白质序列中短的重复序列或由少数几种核苷酸或氨基酸残基组成的序列(如 Poly-A),数据库中半数以上的序列至少带有一个 LCR Sequence alignment 时应避免 LCR 相互配对得分 BLAST 用 “Filter” 功能避免比较 LCR,用 小写字母代表 LCR 中的每个氨基酸残基或核苷酸,BLAST (

7、Basic Local Alignment Search Tool) 检索 http:/www.ncbi.nlm.nih.gov/BLAST,BLAST 分析工具,Nucleotide BLAST (blastn等) Protein BLAST (blastp, PSI-BLAST, PHI-BLAST) Translated BLAST Searches (blastx, tblastn, tblastx等) Specialized BLAST (BLAST 2 Sequences (bl2seq), conserved domain, VecScreen等),经常问的问题 (FAQs),B

8、LAST program,blastn 用核苷酸序列检索核苷酸数据库 blastp 用氨基酸序列检索蛋白质数据库 blastx 将核苷酸序列通过 6 种阅读框翻译成不同的氨基 酸序列检索蛋白质数据库 tblastn 将蛋白质序列译成不同的核苷酸序列检索核苷酸 数据库 tblastx 将核苷酸序列通过 6 种阅读框翻译成不同的氨基 酸序列检索核苷酸数据库(数据库中的序列也被 翻译出不同的氨基酸序列),G F C N * F F T * L N ? W L L Q L I L N L A * C M A S A T N S S L S L M ? 5 ATGGCTTCTGCAACTAATTCTTC

9、ACTTAGCTTAATGC 3 3 TACCGAAGACGTTGATTAAGAAGTGAATGCAATTACG 5 ? P L Q W * N L V * T L A H S R C S I R * L R * H ? A E A V L E E S V N I,Blastx 的 6 种阅读框架,BLAST database,nr (nucleotide BLAST) GenBank (无 EST, STS, GSS, HTGS) nr (protein BLAST) GenBank CDS translation + PDB + SwissProt +PIR + PRF) Genomic

10、sequence 基因组序列 Swissprot 蛋白质数据库 est EST 数据库 dbsts STS 数据库 pdb 蛋白质三维结构数据库 pat 专利的数据库,BLAST database (继续),Whole-genome shotgun reads 全基因组shotgun序列 Environmental samples 环境样品 gss GSS 数据库 htgs HTGS 数据库,如何进行 BLAST 检索?,使用 WWW 服务 使用 BLAST email 服务 (2002.6.17关闭),(1)BLASTN,将要查询的序列直接粘贴到序列框中或输入登陆号(GI 号) 选择 dat

11、abase 可进行其它项目的选择用于分析,选择待分析序列的范围(Query subrange) 进一步选择检索范围:Entrez query (如 protease NOT hivI),选择分析方法(Program Selection) 选择是否用新窗口展示分析结果(Show results in a new window),转变展示分析结果的格式,默认分析结果格式 点击“Format these results”,通过“Formatting opertions”网页变换格式,如: “Pairwise with dots for identities”格式 “Query-anchered wi

12、th dots for identities”格式,可在“Algorithm parameters”栏目中修改参数,不熟悉各种参数时,使用默认的参数,点击“Distance tree of results”显示检索到的序列之间的同源关系 在“Alignments”中选择检索到的序列,点击“Get selected sequences”获得序列,(2)BLASTP,基本操作同 Blastn 检索结果:包括Query序列的保守结构域 点击“Multiple alignment”将检索到的序列进行多序列排列对比,(3)PSI-BLAST (Position Specific Iterated BLA

13、ST) search,氨基酸序列检索 重复检索数据库,第一步,第二步,可继续检索循环,PSI-BLAST 检索可能产生不相关的检索结果(假阳性),这种假阳性在后续检索中会被放大。排除假阳性需要逐个进行。,(4)PHI-BLAST (Pattern Hit Initiated BLAST) search,蛋白质序列,并带有特殊结构(pattern),带有同样的特殊结构 这一邻近的序列与被查询序列相似,与 PSIBLAST 相连,重复检索,检索数据库中相似的蛋白质,可查询检测到的特殊结构,(5) Translated BLAST,blastx, tblastn, tblastx 基本操作同 Bla

14、stn,BLAST 2 sequences (bl2seq),NCBI的分析工具 对任意两条序列进行对位排列分析 允许空位 在BLAST主页的“Specialized BLAST”栏目中点击“Align”进入Bl2seq的分析网页,(三)两序列对位排列分析,序列来源,输入 Accession number 直接粘贴序列,适用于 blastn, blastp, blastx, tblastn, tblastx,blastn: 两条核苷酸序列相比较 blastp: 两条蛋白质序列相比较 tblastn: 比较蛋白质序列(翻译成核苷酸序列)(sequence 1)和核苷酸序列(sequence 2) blastx: 比较核苷酸序列(翻译成蛋白质序列) (sequence 1)和蛋白质序列(sequence 2) tblastx: 两条核苷酸序列(翻译成蛋白质序列)比较,结果格式,两种图形 两序列对位排列,5、上机操作,1.了解BLAST Frequently Asked Questions的答案。 2.用大麦Mlo基因(Z83834)检索蛋白质数据库(blastp, blastx)能找到多少同源序列? 3.从以Mlo基因的氨基酸序列检索到的同源序列中任取两条序列,用BLAST 2 sequences作分析,看它们之间是否同源,同源区段如何?,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号