生物信息学复习题及答案(打印)(2020年整理).pdf

上传人:摩西的****12 文档编号:145875570 上传时间:2020-09-24 格式:PDF 页数:15 大小:571.87KB
返回 下载 相关 举报
生物信息学复习题及答案(打印)(2020年整理).pdf_第1页
第1页 / 共15页
生物信息学复习题及答案(打印)(2020年整理).pdf_第2页
第2页 / 共15页
生物信息学复习题及答案(打印)(2020年整理).pdf_第3页
第3页 / 共15页
生物信息学复习题及答案(打印)(2020年整理).pdf_第4页
第4页 / 共15页
生物信息学复习题及答案(打印)(2020年整理).pdf_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《生物信息学复习题及答案(打印)(2020年整理).pdf》由会员分享,可在线阅读,更多相关《生物信息学复习题及答案(打印)(2020年整理).pdf(15页珍藏版)》请在金锄头文库上搜索。

1、 1 一、名词解释:一、名词解释: 1.生物信息学:生物信息学: 研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数 学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知 识对结果进行解释。 2.二级数据库:二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步 的整理。 3.FASTA 序列格式序列格式:是将 DNA 或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号()表 示一个新文件的开始,其他无特殊要求。 4.genbank 序列

2、格式序列格式:是 GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域 划分为 4 个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记 录的科学依据;第四部分是核苷酸序列本身,以“/”结尾。 5.Entrez 检索系统:检索系统:是 NCBI 开发的核心检索系统,集成了 NCBI 的各种数据库,具有链接的数据库多,使用方便,能 够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性 比较。P94 7.查询序列(查询序列(query seq

3、uence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(打分矩阵(scoring matrix):):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基 酸之间的类似性)和实际进化距离(如 PAM)两类方法。P29 9.空位(空位(gap):):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序 列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所 以要对其进行罚分,空位罚分的多少直接

4、影响对比的结果。P37 11.E 值:值:衡量序列之间相似性是否显著的期望值。E 值大小说明了可以找到与查询序列(query)相匹配的随机或无关 序列的概率,E 值越接近零,越不可能找到其他匹配序列,E 值越小意味着序列的相似性偶然发生的机会越小,也即相 似性越能反映真实的生物学意义。P95 12.低复杂度区域:低复杂度区域:BLAST 搜索的过滤选项。指序列中包含的重复度高的区域,如 poly(A)。 13.点矩阵(点矩阵(dot matrix):构建一个二维矩阵,其 X 轴是一条序列,Y 轴是另一个序列,然后在 2 个序列相同碱基的 对应位置(x,y)加点,如果两条序列完全相同则会形成一条

5、主对角线,如果两条序列相似则会出现一条或者几条直 线;如果完全没有相似性则不能连成直线。 14.多序列比对:多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的 异同,来回答大量的生物学问题。 15.分子钟:分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析:系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进 化关系。 17.进化树的二歧分叉结构:进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。

6、系统发育图:系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。 18.直系同源:直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺 乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了 改变。(书:由于基因重复事件产生的相似序列。) 20.外类群:外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。 21.有根树:有根树:能够确定所有分析物种的共同祖先的进化树。 2

7、2.除权配对算法(除权配对算法(UPGMA):):最初,每个序列归为一类,然后找到距离最近的两类将其归为一类,定义为一个节点, 重复这个过程,直到所有的聚类被加入,最终产生树根。 23.邻接法(邻接法(neighbor-joining method):是一种不仅仅计算两两比对距离,还对整个树的长度进行最小化,从而对树 2 的拓扑结构进行限制,能够克服 UPGMA 算法要求进化速率保持恒定的缺陷。 24.最大简约法(最大简约法(MP):在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。 25.最大似然法(最大似然法(ML):):它对每个可能的进化位点分配一个概率,然后综合

8、所有位点,找到概率最大的进化树。最大 似然法允许采用不同的进化模型对变异进行分析评估,并在此基础上构建系统发育树。 26.一致树(致树(consensus tree):在同一算法中产生多个最优树,合并这些最优树得到的树即一致树。 27.自举法检验(自举法检验(Bootstrap):):放回式抽样统计法。通过对数据集多次重复取样,构建多个进化树,用来检查给定树的 分枝可信度。 28.开放阅读框(开放阅读框(ORF):开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列。 29.密码子偏好性(密码子偏好性(codon bias):):氨基酸的同义密码子的使用频率与相应的同功 tRNA 的水

9、平相一致,大多数高效表达 的基因仅使用那些含量高的同功 tRNA 所对应的密码子,这种效应称为密码子偏好性。 30.基因预测的从头分析:基因预测的从头分析:依据综合利用基因的特征,如剪接位点,内含子与外显子边界,调控区,预测基因组序列中 包含的基因。 31.结构域(结构域(domain) :) :保守的结构单元,包含独特的二级结构组合和疏水内核,可能单独存在,也可能与其他 结构域组合。相同功能的同源结构域具有序列的相似性。 32.超家族超家族:进化上相关,功能可能不同的一类蛋白质。 33.模体(模体(motif) :) :短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般 10-20

10、个残基。 34.序列表谱(序列表谱(profile) :是一种特殊位点或模体序列,在多序列比较的基础上,氨基酸的权值和空位罚分的表 格。 35.PAM 矩阵:矩阵:PAM 指可接受突变百分率。一个氨基酸在进化中变成另一种氨基酸的可能性,通过这种可能性 可以鉴定蛋白质之间的相似性,并产生蛋白质之间的比对。一个 PAM 单位是蛋白质序列平均发生 1%的替代 量需要的进化时间。 36.BLOSUM 矩阵:矩阵:模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵 适合特定的进化距离。例如,在 BLOSUM62 矩阵中,比对的分值来自不超过 62%一致率的一组序列。 3

11、7.PSI-BLAST:位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分矩阵(scoring matrix)探测远缘相 关的蛋白。 38.RefSeq:给出了对应于基因和蛋白质的索引号码,对应于最稳定、最被人承认的 Genbank 序列。 39.PDB(Protein Data Bank) :) :PDB 中收录了大量通过实验(X 射线晶体衍射,核磁共振 NMR)测定的生物大分子的 三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB 数据库的访问号由一个数字和三个字母组成 (如,4HHB) ,同时支持关键词搜索,还可以 FASTA 程序进行搜索。 40.GenPept

12、:是由 GenBank 中的 DNA 序列翻译得到的蛋白质序列。数据量很大,且随核酸序列数据库的更新而更新, 但它们均是由核酸序列翻译得到的序列,未经试验证实,也没有详细的注释。 41.折叠子(折叠子(Fold) :) :在两个或更多的蛋白质中具有相似二级结构的大区域,这些大区域具有特定的空间取向。 42.TrEMBL:是与 SWISS-PROT 相关的一个数据库。包含从 EMBL 核酸数据库中根据编码序列(CDS)翻译而得到的蛋 白质序列,并且这些序列尚未集成到 SWISS-PROT 数据库中。 43.MMDB(Molecular Modeling Database):是(NCBI)所开发的

13、生物信息数据库集成系统 Entrez 的一个部分,数据库 的内容包括来自于实验的生物大分子结构数据。与 PDB 相比,对于数据库中的每一个生物大分子结构,MMDB 具有 许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等 ,还提供生物大分子三维结构模型显示、 结构分析和结构比较工具。 44.SCOP 数据库:数据库:提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库 PDB 中的所有 条目。SCOP 数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到 PDB 的连接,序 列,参考文献,结构的图像等。可以按结构和进化关系对蛋白质

14、分类,分类结果是一个具有层次结构的树,其主要的 层次依次是类(class) 、折叠子(fold) 、超家族(super family) 、家族(family) 、单个 PDB 蛋白结构记录。 45.PROSITE: 是蛋白质家族和结构域数据库, 包含具有生物学意义的位点、 模式、 可帮助识别蛋白质家族的统计特征。 PROSITE 中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分 3 子或其它蛋白质结合的区域等;PROSITE 还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是 否具有相应的特征。 46.Gene Ontology 协

15、会:编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。 从 3 个方面描述基因产 物的性质,即,分子功能,生物过程,细胞区室。 47.表谱(表谱(PSSM) :指一张基于多序列比对的打分表,表示一个蛋白质家族,可以用来搜索序列数据库。 48.比较基因组学:比较基因组学:是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推测其他原核生物、真核生物类 群中的基因数目、位置、功能、表达机制和物种进化的学科。 49.简约信息位点:简约信息位点:指基于 DNA 或蛋白质序列,利用最大简约法构建系统发育树时,如果每个位点的状态至少 存在两种,每种状态至少出现两次的位点。其它位点为都是非简约性

16、信息位点。 4. 4. 一致序列:一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特定位置最常见的残基之外, 它们不能表示任何概率信息。 5. 5. HMM HMM 隐马尔可夫模型:隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合来生成一组序列排列。 (课 件定义)是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的 概率分布和状态间的相互转换来生成蛋白质序列。 6. 6. 信息位点:信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。 7. 7. 非信息位点:非信息位点:对于最大简约法来说没有意义的点。 8. 8. 标度树:标度树:分支长度与相邻节点对的差异程度成正比的树。 9. 9. 非标度树:非标度树:只表示亲缘关系无差异程度信息。 10. 有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯一的路径历经进化到达其他任何节点。 11. 无根树:只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种,可以在

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号