生物信息学考试试题

资源描述

《生物信息学考试试题》由会员分享，可在线阅读，更多相关《生物信息学考试试题（13页珍藏版）》请在金锄头文库上搜索。

1、. 生物信息学:)生物信息学涉及了生物信息的获取、解决、分析、和解释等在内的一门交叉学科;）它综合运用了数学、计算机学和生物学的多种工具来进行研究；）目的在于阐明大量生物学数据所涉及的生物学意义。2 BAS(asiLocaAlignmen Searh Tl) 直译：基我局部排比搜索工具意译：基于局部序列排比的常用数据库搜索工具含义：蛋白质和核酸序列数据库搜索软件系统及有关数据库3 PSI-BLAT:是一种迭代的搜索措施,可以提高BLAST和FAST的相似序列发现率。4.一致序列:这些序列是指把多序列联配的信息压缩至单条序列，重要的缺陷是除了在特定位置最常用的残基之外,它们不能表达任何概率信息。

2、5 HM 隐马尔可夫模型:一种记录模型,它考虑有关匹配、错配和间隔的所有也许的组合来生成一组序列排列。(课件定义)是蛋白质构造域家族序列的一种严格的记录模型，涉及序列的匹配,插入和缺失状态，并根据每种状态的概率分布和状态间的互相转换来生成蛋白质序列。6. 信息位点:由位点产生的突变数目把其中的一课树与其她树辨别开的位点。7. 非信息位点:对于最大简约法来说没故意义的点。8. 标度树：分支长度与相邻节点对的差别限度成正比的树。. 非标度树：只表达亲缘关系无差别限度信息。0有根树：单一的节点能指派为共同的祖先,从祖先节点只有唯一的途径历经进化达到其她任何节点。11 无根树：只表白节点间的关系,无进

3、化发生方向的信息，通过引入外群或外部参照物种,可以在无根树中指派根节点。12.注释:指从原始序列数据中获得有用的生物学信息。这重要是指在基因组DN中寻找基因和其她功能元件（构造注释），并给出这些序列的功能(功能注释)。1 聚类分析:一种通过将相似的数据划分到特定的组中以简化大规模数据集的措施。14. 无监督分析法:这种措施没有内建的分类原则,组的数目和类型只决定于所使用的算法和数据自身的分析措施。15 有监督分析法：这种措施引入某些形式的分类系统，从而将体现模式分派到一种或多种预定义的类目中。16. 微阵列芯片：将探针有规律地排列固定于载体上，与标记荧光分子的样品进行杂交，通过扫描仪扫描对荧光

4、信号的强度进行检测,从而迅速得出所要的信息。17. 虚拟消化:是基于已知蛋白序列和切断酶的特异性的状况下进行的理论酶切(课件定义）。是在已知蛋白质序列和蛋白外切酶之类切断试剂的已知特异性的基本上，由计算机进行的一种理论上的蛋白裂解反映。. 质谱(S)是一种精确测定真空中离子的分子质量/电荷比(mz）的措施，从而使分子质量的精确拟定成为也许。质谱分析的两个工具1. 分子途径是指一组持续起作用以达到共同目的的蛋白质。2虚拟细胞：一种建模手段，把细胞定义为许多构造,分子,反映和物质流的集合体。2.先导化合物：是指具有一定药理活性的、可通过构造改造来优化其药理特性而也许导致药物发现的特殊化合物。就是

5、运用计算机在具有大量化合物三维构造的数据库中,搜索能与生物大分子靶点匹配的化合物，或者搜索能与结合药效团相符的化合物，又称原型物,简称先导物，是通过多种途径或措施得到的具有生物活性的化学构造2.权重矩阵（序列轮廓)：它们表达完全构造域序列，多序列联配中每个位点的氨基酸均有分值，并且特定位置插入或缺失的也许性均有一定的衡量措施（课件定义)。基本上针对特定的应用目的而建立的数据库。23. 系统发育学（phylgeneic）：拟定生物体间进化关系的科学分支。2.系统生物学(syses biolgy）：是研究一种生物系统中所有组提成分(基因、mRNA、蛋白质等)的构成以及在特定条件下这些组分间的互相关

6、系,并分析生物系统在一定期间内的动力学过程25 蛋白质组（prtome）:是指一种基因组、一种生物或一种细胞/组织的基因组所体现的全套蛋白质。26 ESI电喷雾离子化:一种适合大分子如蛋白质离子化没有明显降解的质谱技术。二.填空题1 常用的三种序列格式:NBRFPR，FAST和GDE2. 初级序列数据库：GenBank，EMBL和DJ3 蛋白质序列数据库:WISS-OT和TrEMBL. 提供蛋白质功能注释信息的数据库:KEG（京都基因和基因组百科全书)和PIR(蛋白质信息资源）. 目前由NCBI维护的大型文献资源是PubMed6 数据库常用的数据检索工具:Entrez，RS,DBGT7. 常用

7、的序列搜索措施：FASA和BAS8 高分值局部联配的AT参数是HSPs(高分值片段对)，(盼望值）9. 多序列联配的常用软件：Clust10. 蛋白质构造域家族的数据库有:am，SMART系统发育学的研究措施有:体现型分类法,遗传分类法和进化分类法 12. 系统发育树的构建措施: 距离矩阵法，最大简约法和最大似然法1. 常用系统发育分析软件：HYLI4. 检测系统发育树可靠性的技术:bootsrapping和Jack-knifing1 原核生物和真核生物基因组中的注释所波及的问题是不同的16. 检测原核生物ORF的程序:NB ORF finder17 测试基因预测程序对的预测基因的能力的项目是

8、GSP(基因预测评估项目)1. 二级构造的三种状态:螺旋，折叠和转角19. 用于蛋白质二级构造预测的基本神经网络模型为三层的前馈网络，涉及输入层，隐含层和输出层20 通过比较建模预测蛋白质构造的软件有SWISS-PBIEWE(WISSMODL网站）21.蛋白质质谱数据搜索工具：EQUS22分子途径最广泛数据库:KEG23. 聚类分析措施，分为有监督学习措施,无监督学习措施24.质谱的两个数据库搜索工具:SQT和Luefih三.问答题. FASTA序列格式第一行以“”开头但并没有指明是蛋白质还是核酸序列。后跟代码,接着是注释(在同一行),一般注释要以“|”符号相隔,第一行没有长度限制。值得注意

9、的是ASTA文献容许以小写字母表达氨基酸。文献扩展名为“.fsa”。（NIRPR序列格式第一行以“”开头,背面紧跟两字母编码(P1代表蛋白质序列，N1代表核酸）,再接一种分号，分号后紧跟序列标记号。背面是阐明行，该行可长可短,没有长度限制。接下来是序列自身，以“*”号终结。文献的扩展名为“i”或“se”。 DE序列格式与FATA的格式基本相似,但行首为“”，文献扩展名为“.gd”。）2 BLAST的五个子程序程序查询序列数据库种类简述措施latp蛋白质蛋白质可以找到具有远源进化关系的匹配序列待搜索蛋白序列与蛋白数据库比较lan核苷酸核苷酸适合寻找分值较高的匹配，不适合远源关系待搜索核酸序

10、列与核酸数据库比较Blast核苷酸（已翻译)蛋白质适合新DNA序列和ET序列的分析将待搜索核酸序列按6个读框翻译成蛋白质序列，然后与数据库中的蛋白质比较TBlstn蛋白质核苷酸（已翻译)适合寻找数据库中尚未标注的编码区将数据库中核酸序列按6个读框翻译成蛋白序列，然后与待搜索蛋白序列对比TBlstx核苷酸(已翻译）核苷酸(已翻译）适合分析ES序列无论是待搜索核酸序列还是数据库中核酸序列,都按6个读框翻译成蛋白序列. 生物类的数据库类别：一级数据库:数据库中的数据直接来源于实验获得的原始数据，只通过简朴的归类整顿和注释;二级数据库:对原始生物分子数据进行整顿、分类的成果，是在一级数据库、实验数据

11、和理论分析的基本上针对特定的应用目的而建立的。. PSIBast的原理：PSBLAST是一种将双序列比对和多序列比对结合在一起的数据库搜索措施。其重要思想是通过多次迭代找出最佳成果。每次迭代都发现某些中间序列，用于在接下去的迭代中寻找查询序列的更多疏远有关序列（拓展了序列进化关系的覆盖面积)。具体做法是最初对查询序列进行BLAS搜索，接着把查找得到的每一击中项作为BLAST搜索第二次迭代的查询序列，反复这个过程直到找不到故意义的相似序列为止。(如下为研究生课件部分)PSI-BST的基本思路在于根据最初的搜索成果，根据预先定义的相似性阈值将序列提成不同的组,构建一种位点特异性的序列谱,并通过多次

12、迭代不断改善这一序列谱以提高搜索的敏捷度。运用第一次搜索成果构建位置特异性分数矩阵，并用于第二次的搜索，第二次搜索成果用于第三次搜索,依此类推，直到找出最佳搜索成果。此外,BAST不仅可用于检测序列对数据库的搜索,还可用于两个序列之间的比对。 . 多序列联配的意义: 1）分析多种序列的一致序列;2)用于进化分析，是用系统发育措施构建进化树的初始环节;3）寻找个体间单核苷酸多态性;4)通过序列比对发现直亲同源与旁系同源基因;）寻找同源基因（相似的序列往往具有同源性)；6）寻找蛋白家族辨认多种序列的保守区域;7）相似的蛋白序列往往具有相似的构造与功能；8）辅助预测新序列的二级或三级构造；)可以直

13、观地看到基因的哪些区域对突变敏感；10）引物设计。6.系统发育学的研究措施: 1)体现型分类法：将表型相像的物种归类在一起,所有特性都要被考虑到; ）遗传分类法：具有共有来源的物种归类在一起,也就是说,这些字符并没有出目前离它们较远的祖先序列； )进化分类法：该措施综合了体现型分类法和遗传分类法的原理，进化措施被普遍觉得是最佳的系统发育分析措施，由于该措施承认并采用目前的进化理论;7. 系统发育树的构建措施: )距离矩阵法:一方面通过各个物种之间的比较,根据一定的假设（进化距离模型)推到得出分类群之间的进化距离,构建一种进化距离矩阵，另一方面基于这个矩阵中的进化距离关系构建进化树; )最大简约

14、法:该法根据在任何位置将一条序列转变成另一条序列所需要突变的至少数量对序列进行比较和聚类； )最大似然法:该模型可将一种给定替代发生在序列中任何位置的概率融合进算法,该措施计算序列中每个位置的一种给定序列变化的也许性，最可靠的树为总的也许性最大的那棵。8. 简述人工神经网络预测蛋白质二级构造的基本环节。1)输入数据（来自PDB）)产生一种神经网络（一种计算程序）用已知的蛋白质二级构造来训练这个模型4)由训练好的模型来给出未知蛋白的一种也许的构造5）最后从生物角度来检查预测的一系列氨基酸与否合理预测蛋白质三级构造的三种措施 1)同源建模法：根据蛋白质与已知构造蛋白比对信息构建3D模型； 2）折叠辨认法：寻找与未知蛋白最合适的模板，进行序列与构造比对，最后建立构造模型; 3)从头预测法：根据序列自身从头预测蛋白质构造。1.分子途径和网络的特点:)分子途径和网络的构造随意性大。图可以很简朴,也可以非常复杂。它们也许涉及了多种分支,盘绕的连接和回路。2)它们一般也显示出节点间关系的方向,例如表达出代谢通路或信号传导的方向。调控途径和网络的图也应当阐明互相作用是正的还是负的。正的互相作用（增进或者活化作用)常常用箭头表达,而负的交互效应(克制或者失活作用)常常用T型棒表达。1. 先

展开阅读全文