生物信息学名词解释(个人整理)

资源描述

《生物信息学名词解释(个人整理)》由会员分享，可在线阅读，更多相关《生物信息学名词解释(个人整理)（8页珍藏版）》请在金锄头文库上搜索。

1、一、名词解释：1.生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒介，数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。2.二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。3.FASTA 序列格式：是将 DNA 或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（）表示一个新文件的开始，其他无特殊要求。4.genbank 序列格式：是 GenBank 数据库的基本信息单位，是最为广泛的生

2、物信息学序列格式之一。该文件格式按域划分为4 个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“ /”结尾。5.Entrez 检索系统：是 NCBI 开发的核心检索系统，集成了NCBI 的各种数据库，具有链接的数据库多，使用方便，能够进行交叉索引等特点。6.BLAST ：基本局部比对搜索工具，用于相似性搜索的工具，对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列（ query sequence ）：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。 P98 8.打分矩阵（

3、 scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM ）两类方法。 P29 9.空位（ gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。P29 10.空位罚分：空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入不代表真正的进化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。P37 11.E 值：衡量序列之间相似性是否显著的期望值。E 值大小说明了可以找到与查询序列（query

4、）相匹配的随机或无关序列的概率，E 值越接近零，越不可能找到其他匹配序列，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域： BLAST 搜索的过滤选项。指序列中包含的重复度高的区域，如 poly （A）。13.点矩阵（ dot matrix ）：构建一个二维矩阵，其X 轴是一条序列，Y 轴是另一个序列，然后在 2 个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。14.多序列比对：通过序列的相似性检索得到许多相似性序列，将这

5、些序列做一个总体的比对，以观察它们在结构上的异同，来回答大量的生物学问题。15.分子钟：认为分子进化速率是恒定的或者几乎恒定的假说，从而可以通过分子进化推断出物种起源的时间。16.系统发育分析：通过一组相关的基因或者蛋白质的多序列比对或其他性状，可以研究推断不同物种或基因之间的进化关系。17.进化树的二歧分叉结构：指在进化树上任何一个分支节点，一个父分支都只能被分成两个子分支。系统发育图：用枝长表示进化时间的系统树称为系统发育图，是引入时间概念的支序图。18.直系同源：指由于物种形成事件来自一个共同祖先的不同物种中的同源序列，具有相似或不同的功能。（书：在缺乏任何基因复制证据的情况下

6、，具有共同祖先和相同功能的同源基因。）19.旁系（并系）同源：指同一个物种中具有共同祖先，通过基因重复产生的一组基因，这些基因在功能上可能发生了改变。(书：由于基因重复事件产生的相似序列。) 20.外类群：是进化树中处于一组被分析物种之外的，具有相近亲缘关系的物种。21.有根树：能够确定所有分析物种的共同祖先的进化树。22.除权配对算法（UPGMA ）：最初，每个序列归为一类，然后找到距离最近的两类将其归为一类，定义为一个节点，重复这个过程，直到所有的聚类被加入，最终产生树根。23.邻接法（ neighbor-joining method ）：是一种不仅仅计算两两比对距离，还对整个树的长

7、度进行最小化，从而对树的拓扑结构进行限制，能够克服UPGMA算法要求进化速率保持恒定的缺陷。24.最大简约法（ MP）：在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。25.最大似然法（ ML ）：它对每个可能的进化位点分配一个概率，然后综合所有位点，找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析评估，并在此基础上构建系统发育树。26.一致树（ consensus tree）：在同一算法中产生多个最优树，合并这些最优树得到的树即一致树。27.自举法检验（Bootstrap）：放回式抽样统计法。通过对数据集多次重复取样，构建多个进化树，用来检查

8、给定树的分枝可信度。28.开放阅读框（ORF ）：开放阅读框是基因序列的一部分，包含一段可以编码蛋白的碱基序列。29.密码子偏好性（codon bias ）：氨基酸的同义密码子的使用频率与相应的同功tRNA 的水平相一致，大多数高效表达的基因仅使用那些含量高的同功tRNA 所对应的密码子，这种效应称为密码子偏好性。30.基因预测的从头分析：依据综合利用基因的特征，如剪接位点，内含子与外显子边界，调控区，预测基因组序列中包含的基因。31.结构域（ domain）：保守的结构单元，包含独特的二级结构组合和疏水内核，可能单独存在，也可能与其他结构域组合。相同功能的同源结构域具有序列的相似性

9、。32. 超家族：进化上相关，功能可能不同的一类蛋白质。33.模体（ motif ）：短的保守的多肽段，含有相同模体的蛋白质不一定是同源的，一般10-20个残基。34. 序列表谱（profile）：是一种特殊位点或模体序列，在多序列比较的基础上，氨基酸的权值和空位罚分的表格。35.PAM矩阵： PAM 指可接受突变百分率。一个氨基酸在进化中变成另一种氨基酸的可能性，通过这种可能性可以鉴定蛋白质之间的相似性，并产生蛋白质之间的比对。一个 PAM 单位是蛋白质序列平均发生1% 的替代量需要的进化时间。36.BLOSUM矩阵：模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代

10、频率的观察。每个矩阵适合特定的进化距离。例如，在BLOSUM62 矩阵中，比对的分值来自不超过62%一致率的一组序列。37.PSI-BLAST ：位点特异性迭代比对。是一种专门化的的比对，通过调节序列打分矩阵（scoring matrix ）探测远缘相关的蛋白。38.RefSeq：给出了对应于基因和蛋白质的索引号码，对应于最稳定、最被人承认的Genbank 序列。39.PDB（Protein Data Bank ）：PDB 中收录了大量通过实验（X 射线晶体衍射，核磁共振NMR ）测定的生物大分子的三维结构，记录有原子坐标、配基的化学结构和晶体结构的描述等。 PDB 数据库的访问号由一个数

11、字和三个字母组成（如，4HHB ），同时支持关键词搜索，还可以FASTA 程序进行搜索。40.GenPept:是由 GenBank 中的 DNA 序列翻译得到的蛋白质序列。数据量很大，且随核酸序列数据库的更新而更新，但它们均是由核酸序列翻译得到的序列，未经试验证实，也没有详细的注释。41.折叠子（ Fold）：在两个或更多的蛋白质中具有相似二级结构的大区域，这些大区域具有特定的空间取向。42.TrEMBL：是与 SWISS-PROT 相关的一个数据库。包含从EMBL 核酸数据库中根据编码序列 (CDS)翻译而得到的蛋白质序列，并且这些序列尚未集成到SWISS-PROT 数据库中。43.

12、MMDB(Molecular Modeling Database)：是（ NCBI ）所开发的生物信息数据库集成系统Entrez 的一个部分，数据库的内容包括来自于实验的生物大分子结构数据。与PDB 相比，对于数据库中的每一个生物大分子结构，MMDB具有许多附加的信息，如分子的生物学功能、产生功能的机制、分子的进化历史等，还提供生物大分子三维结构模型显示、结构分析和结构比较工具。44.SCOP 数据库：提供关于已知结构的蛋白质之间结构和进化关系的详细描述，包括蛋白质结构数据库PDB 中的所有条目。SCOP 数据库除了提供蛋白质结构和进化关系信息外，对于每一个蛋白质还包括下述信息：到PDB 的

13、连接，序列，参考文献，结构的图像等。可以按结构和进化关系对蛋白质分类，分类结果是一个具有层次结构的树，其主要的层次依次是类（ class）、折叠子（ fold）、超家族（ super family ）、家族（ family ）、单个 PDB 蛋白结构记录。45.PROSITE：是蛋白质家族和结构域数据库，包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。PROSITE 中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等；PROSITE 还包括根据多序列比对而构建的序列统计特征，能更敏感地发现一个序列是否

14、具有相应的特征。46.Gene Ontology 协会：编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。从 3 个方面描述基因产物的性质，即，分子功能，生物过程，细胞区室。47.表谱（ PSSM ）：指一张基于多序列比对的打分表，表示一个蛋白质家族，可以用来搜索序列数据库。48.比较基因组学：是在基因组图谱和测序的基础上，利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。49.简约信息位点：指基于DNA或蛋白质序列，利用最大简约法构建系统发育树时，如果每个位点的状态至少存在两种，每种状态至少出现两次的位点。其它位点为都是非

15、简约性信息位点。 1.生物信息学：（狭义）专指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据的学科；（广义）指生命科学与数学、计算机科学和信息科学等交汇融合所形成的一门交叉学科。 2.人类基因组测序计划： 3 基因组学 p150：以基因组分析为手段，研究基因组的结构组成、时序表达模式和功能，并提供有关生物物种及其细胞功能的进化信息。 4 基因组 p150：是指一个生物体、细胞器或病毒的整套基因。 5.比较基因组学 p166：是指基因组学与生物信息学的一个重要分支。通过模式生物基因组之间或模式生物基因组与人类基因组之间的比较与鉴别，可以为研究生物进化和分离人类遗传

16、病的候选基因以及预测新的基因功能提供依据。 6 功能基因组：表达一定功能的全部基因所组成的DNA 序列，包括编码基因和调控基因。功能基因组学：利用结构基因组学研究所得的各种来源的信息，建立与发展各种技术和实验模型来测定基因及基因组非编码序列的生物学功能。 7 蛋白质组 p179：是指一个基因组中各个基因编码产生的蛋白质的总体，即一个基因组的全部蛋白产物及其表达情况。 8 蛋白质组学：指应用各种技术手段来研究蛋白质组的一门新兴科学，其目的是从整体的角度分析细胞内动态变化的蛋白质组成成分、表达水平与修饰状态，了解蛋白质之间的相互作用与联系，揭示蛋白质功能与细胞生命活动规律。 9 功能蛋白质组学：（课件上只能找到功能蛋白质组，即细胞在一定阶段或与某一生理现象相关的所有蛋白）。 10 序列对位排列：通过插入间隔的方法使不同长度的序列对齐，达到长度一致。 11分子系统树：是表达类群（或序列）间系统发育关系的一种树状图。 12 BLAST 搜索 p73：是一种基本的局部对位排列搜索工具。 13 SNP p152：即单核酸多态性，是指基因组内特定核苷酸位点上存在两种

展开阅读全文