生物信息学总结

上传人:xzh****18 文档编号:34181125 上传时间:2018-02-21 格式:DOCX 页数:9 大小:46.08KB
返回 下载 相关 举报
生物信息学总结_第1页
第1页 / 共9页
生物信息学总结_第2页
第2页 / 共9页
生物信息学总结_第3页
第3页 / 共9页
生物信息学总结_第4页
第4页 / 共9页
生物信息学总结_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《生物信息学总结》由会员分享,可在线阅读,更多相关《生物信息学总结(9页珍藏版)》请在金锄头文库上搜索。

1、第一章 生物信息学导论1、什么是生物信息学?学习生物信息学一般需要哪几个方面的基础?研究对象?研究内容?答:生物信息学(Bioinformatics) 是一门交叉学科, 它综合运用数理科学和信息科学中的理论和方法,以计算机为工具对生物学实验数据进行收集、加工、储存、传播、检索和分析,以揭示数据所蕴含的生物学意义。基础:数学、信息学、计算机科学研究对象:核酸、蛋白质等生物大分子数据库。研究内容:开发数据库和工具来存储、管理、使用生物学数据,开发算法、软件来对生物学数据进行分析和解释,出版生物信息学文献、书籍、资料第二章 生物信息学数据库1、数据库分类,一级数据库,二级数据库答:数据库的分类:一级

2、数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 1、核酸序列数据库 2、蛋白质序列数据库 3、生物大分子结构数据库 4、基因组数据库二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的三大核酸序列数据库:美国生物技术信息中心的 GenBank ,欧洲生物信息学研究所的 EMBL ,日本国立遗传研究所的 DDBJ 2、Entrez 检索系统, 常用的数据库有哪些,有什么用途?Entrez 是 NCBI 开发的综合数据库检索工具 GenBank: 核酸序列数据 RefSeq:Reference Se

3、quence (参考序列数据) Genome:基因组数据 Gene: 为每个基因建立一个文本描述条目 UniGene: 归纳每一个基因的 EST, mRNA, 蛋白质序列 GEO: 基因表达数据 SNP: SNP 位点数据库 Structure: 记录大分子三维结构数据第三章 Blast 与数据库搜索1、序列 similarity 和序列 homology 有何区别和联系?(1)相似性(similarity):是一种数量关系,比如部分相同或相似的百分比或其它一些合适的度量。比如说,A 序列和 B 序列的相似性是 80,或者 4/5。(2)同源性(homology):这是质的判断,指从一些数据中

4、推断出的两个基因或蛋白质序列是否具有共同的祖先。序列相似性比较: 将待研究序列与 DNA 或蛋白质序列库进行比较,用于确定该序列的生物属性 常用的程序包有 BLAST、FASTA 等序列同源性分析: 将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。2、什么是 Blast,BLAST 的基本原理是什么?,有哪几种 Blast,其查询和比对的序列是什么?BLAST: Basic Local Alignment Search Tool 是一种基于局部双序列比对的数据库相似性搜索工具BLAST 的算法:BLAST 先找出某些“种子” ,即

5、探测序列和数据库序列间非常短的匹配的片段对,它们的比对得分至少是 T,然后向两端不带空格地扩展这些种子,并使用替换矩阵计算得分,直到达到最大可能得分。程序并不持续地对种子进行扩展,当得分低于某个既定的阈值时便停止。程序名探测序列数据库类型方法Blastp 蛋白质 蛋白质 用蛋白质探测序列搜索蛋白质序列数据库Blastn 核酸 核酸 用核酸探测序列搜索核酸序列数据库Blastx 核酸 蛋白质 用核酸序列按 6 条链翻译成蛋白质序列后搜索蛋白质序列数据库tBlastn 蛋白质 核酸 用蛋白质探测序列搜索核酸序列数据库,核酸序列按 6 条链翻译成蛋白质tBlastx 核酸 核酸 将核酸序列按 6 条

6、链翻译成蛋白质序列后搜索由核酸序列数据库按 6 条链翻译成的蛋白质序列的数据库3、序列相似度聚类的含义?序列相似度聚类定义:设 P 为包含 n 条序列的序列数据集(核酸或蛋白质) ,序列相似度聚类是指寻找 P 上的划分 P1, P2, Pk,使属于同一划分的序列间的相似性尽量大,而属于不同划分的符号序列间相似性尽量小。第四章 多序列比对1.什么是多序列比对? ClustalX 的基本原理步骤?Muscle 基本原理和步骤?多序列比对结果编辑软件 CINEMA多序列比对(Multiple Sequence Alignment, MSA)可表示为一张表,表中每一行代表一个序列,每一列代表一个残基(

7、或碱基)的位置,序列排列满足下列规则: 每一条序列所有字符的相对位置保持不变 同一列上的字符尽可能的相同或相似Clustal X 的步骤:1.使用动态规划法构造每个序列的配对比对,包括 Clustal W 在内的许多比对算法在这一步使用距离矩阵而不是相似性矩阵来描述序列间的关联性;第二,由距离矩阵构造一颗指导树,树的两个主要特征是拓扑结构和分支长度,它一般并不当作是种系树,只反映了参与比对的多个序列如何相关联,用来确定向正在进行的多序列比对中加入新序列的次序;第三,以计分最高的配对比对作为多序列比对的种子,根据指导树逐渐向多序列比对中加入序列。MUSCLE 的三个步骤:首先,使用渐进多序列比对

8、产生一个初始结果,其中含有根据每对序列的相似性计分构造的一颗指导树;其次,重新计算相似性计分,据此改进指导树并再用渐进多序列比对产生一个更新的结果,这一过程迭代地进行;再次,算法根据新计算的计分值是否增加而决定是接受还是拒绝新产生的比对结果。CINEMA(Color Interactive Editor for Multiple Alignments):一种多序列比对结果编辑软件 特点:拖放式编辑,多 motif 的选择与操作,显示蛋白质结构第五章 分子进化与系统发育分析1.何谓分子钟?有何实际应用意义?答:分子钟指 DNA 或蛋白质序列的进化速率随时间或进化谱系保持恒定。实际意义:进化时间的

9、估计。2.直系同源和旁系同源的含义?答:Ortholog (直系同源物):两个基因通过物种形成的事件而产生,或者两个物种中的同一基因,一般具有相同的功能Paralog (旁系同源物):两个基因在同一物种中,通过至少一次基因复制的事件而产生3.分子进化有哪两层含义?答:1.分子进化是对不同生命进化树的分支的基因和蛋白质的变化来进行研究。2.从分子水平上说,进化是对突变进行选择的过程。4.何谓分子进化的中性理论?答:1. 分子进化速率的恒定性。2. 分子进化的保守性。3. 进化过程中,对分子功能不损害或损害轻的突变较之损害严重的突变容易发生。4. 具有新功能的基因一般起源于基因重复。5. 在分子水

10、平上所看到大部分进化是对自然选择既非有利也非不利的中性突变,且由于随机漂变使之在群体中固定。 5.分子进化中性学说的中心论点:在生物分子层次上的进化改变不是由自然选择作用于有利突变而引起的,而是由选择中性或非常接近中性的突变的随机固定造成的。6.构建系统发育树的主要步骤?答:1. 选择序列进行分析。2多系列比对。3. 建树。4. 可靠性分析。第六章 基因组测序与注释1.经典的 DNA 测序方法有哪几种,其测序的原理?答:1. Sanger 双脱氧链终止法(Sanger 和 Coulson1977)基本原理: 在合成与单链 DNA 互补的多核苷酸链过程中加入双脱氧核苷酸,使合成的互补链在不同位置

11、随机终止反应,产生只差一个核苷酸的 DNA 分子,最后通过电泳来读取待测 DNA 分子的顺序。 2. Maxam-Gilbert DNA 化学降解法 (Maxam 和 Gilbert,1977)基本原理:在选定的核苷酸碱基中引入化学基团,再用化合物处理,使 DNA 分子在被修饰的位置降解。3. 自动化测序基本原理 与链终止法测序原理相同,只是用不同的荧光色彩标记 ddNTP,如 ddATP 标记红色荧光,ddCTP 标记蓝色荧光, ddGTP 标记黄色荧光, ddTTP 标记绿色荧光.由于每种 ddNTP 带有各自特定的荧光颜色,而简化为由 1 个泳道同时判读 4 种碱基。2.新一代测序技术有

12、哪几种?答:1、 Pyrosequencing 技术,或者称为焦磷酸测序技术。2、 Sequencing by Synthesis (SBS):基于合成的测序法。3、 Sequencing by Ligation (SBL ):基于连接的测序法 3.人类基因组测序主要有哪两种策略?答:1. 作图测序与序列组装 先将染色体打成比较大的片段( 几十-几百 Kb), 利用分子标记将这些大片段排成重叠的克隆群(Contig), 分别测序后拼装 . 这种策略叫基于克隆群(contig-based)的策略,也叫作图测序、指导测序或分级鸟枪法测序。2. 随机测序与序列组装 随机测序也称”鸟枪法”.序列组装原

13、理:直接从已测序的小片段中寻找彼此重叠的测序克隆,然后依次向两侧邻接的序列延伸. 优点:不需预先了解任何基因组的情况.两种策略的比较:鸟枪法策略 指导测序策略不需背景信息 构建克隆群(遗传、物理图谱)时间短 需要几年的时间 需要大型计算机得到的是草图(Draft) 得到精细图谱第七章 基因组序列分析与 DNAStar 软件包的使用1碱基含量,GC 含量,序列 logo 图的含义,密码子使用偏嗜性,开放阅读框GC 含量可作为一个物种的特征,在微生物分类学中常常把 GC 含量作为分类参数之一。 Sequence Logo 是一种用图形来表示同源基因的 motif 中每一列残基信息的方法密码子偏好:

14、各个物种中,编码同一氨基酸的不同同义密码子的频率非常不一致; 密码子使用的偏嗜性是物种的特征。对基因组中某些基因的密码子偏嗜性进行统计分析,有可能揭示微生物基因组中通过水平转移而获得的基因。 开放阅读框(ORF, open reading frame)是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。 (P86,指从 5端开始翻译起始密码子到终止密码子的蛋白质编码碱基序列。 )ORF 识别:检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的编码序列,而其内部不包含启动子或终止子。原核基因识别主要是识别开放阅读框。2.DNAstar 软件包含哪些软件,各自的功能?Edi

15、tSeq : 能迅速、正确地输入并且修改 DNA 或蛋白质序列的工具。GeneQuest :发现和注释 DNA 序列中的基因,并能分析生物学所关心 DNA 的其他特征:包括开放阅读框、拼接点连接,转录因子结合位点、重复序列、限制性内切酶酶切位点等。SeqBuilder :editing nucleic and amino acid sequences. Also used to view sequences in a variety of ways.MegAlign :提供 6 种比对方法进行 DNA 和蛋白质序列比对和多序列比对。PrimerSelect :能够设计 PCR、测序和杂交试验所

16、使用的引物和探针。Protean :可以使用多种方法分析、预测蛋白质结构,并以图形化的方式展示出来。SeqMan :将成千上万个序列装配成重叠群。3.EditSeq 和 GeneQuest 含义?类似功能第八章蛋白质序列分析与结构预测1.结构域、家族、模体的含义?结构域(domain):蛋白质中能折叠成特定三维结构的一段区域,也称为模块(module) 、折叠子(fold)家族(family):在进化上相关的共享一个或多个结构域的蛋白质为一个家族模体(motif):蛋白质序列中较短的保守区域,通常为按一定的模式排列的氨基酸残基也称为指纹(figureprint )2、蛋白质结构测定的实验方法主要有哪两种?X-Ray Crystallogra

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 总结/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号