生物信息学基本知识.doc

上传人:工**** 文档编号:546730691 上传时间:2024-01-20 格式:DOC 页数:8 大小:133KB
返回 下载 相关 举报
生物信息学基本知识.doc_第1页
第1页 / 共8页
生物信息学基本知识.doc_第2页
第2页 / 共8页
生物信息学基本知识.doc_第3页
第3页 / 共8页
生物信息学基本知识.doc_第4页
第4页 / 共8页
生物信息学基本知识.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《生物信息学基本知识.doc》由会员分享,可在线阅读,更多相关《生物信息学基本知识.doc(8页珍藏版)》请在金锄头文库上搜索。

1、1. DNA: 遗传物质(遗传信息的载体) 双螺旋结构,A, C, G, T四种基本字符的复杂文本2. 基因(Gene):具有遗传效应的DNA分子片段3. 基因组(Genome):包含细胞或生物体全套的遗传信息的全部遗传物质。人类包括细胞核基因组和线粒体基因组OR 一个物种中所有基因的整体组成 4. 人类基因组: 3.2109 bp5. HGP的最初目标通过国际合作,用15年时间(19902005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图 ,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其它生物进行类似研究。6. HGP的终极目标阐明人类基因组全部DNA序列;识别基因;建

2、立储存这些信息的数据库;开发数据分析工具;研究HGP实施所带来的伦理、法律和社会问题。 7. 遗传图谱(genetic map)又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。8. 遗传连锁图:通过计算连锁的遗传标志之间的重组频率,确定它们的相对距离,一般用厘摩(cM,即每次减数分裂的重组频率为1%)表示。9. 物理图谱(physic

3、al map)是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。10. 转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。 11. 序列图谱: 随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱12. 大规模测序基本策略逐个克隆法:对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组

4、装(公共领域测序计划)全基因组鸟枪法:在一定作图信息基础上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,利用超级计算机进行组装(美国Celera公司)13. 基因识别(gene identification)是HGP的重要内容之一,其目的是识别全部人类的基因。基因识别包括:识别基因组编码区识别基因结构基因识别目前常采用的有二种方法:从基因组序列中识别那些转录表达的DNA片段从cDNA文库中挑取并克隆。 14. 基因组多态性(Polymorphism): 是指在一个生物群体中,同时和经常存在两种或多种不连续的变异型或基因型(genotype)或等位基因(allele),亦称遗传

5、多态性(genetic polymorphism)或基因多态性。 15. 功能基因组学: HGP完成后,我们将进入“后基因组学”(post-genomics)时代, 基因组学研究重心已开始从揭示生命的所有遗传信息转移到在分子整体水平对功能的研究上,即功能基因组学(functional genomics)功能基因组的任务是 进行基因组功能注释(Genome annotation) 认识基因与疾病的关系 掌握基因的产物及其在生命活动中的作用16. 生物信息学:组织处理生物数据,并从数据中提取生物学新知识的学问。(生物学+计算机+信息科学)17. 生物信息学的基本概念: 广义:是指生命科学与数学、计

6、算机学和信息科学等交汇融合所形成的一门交叉科学。该学科综合运用数学、计算机科学和生物学的各种工具对生物信息进行获取、处理、存储、分类、分析和解释,以期阐明和理解大量数据所包含的生物学意义(掌握复杂生命现象的形成模式与演化规律) 狭义:应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据,也称为分子生物信息学。(molecular bioinformatics), 核心课题是从大量的序列信息中获取基因结构、功能和进化等知识。18. 数据库(Database): 统一管理的相关数据的集合数据库管理系统(database management system, DBMS): 对DB进行管理的系

7、统软件,提供DB的建立、查询、更新以及各种数据控制功能数据库技术:研究数据库的结构、存储、设计、管理和应用的一门软件学科数据库系统(database system, DBS): 采用数据库技术的计算机系统数据模型 (data model): 数据库结构和语义的一种抽象。由数据库结构、数据操作系统和完整性约束三部分组成19. 序列数据库 是生物信息数据库中最基本的数据库,包括核酸序列数据库和蛋白质序列数据库两类。序列数据库以核苷酸碱基顺序或氨基酸残基顺序为基本内容,其序列数据来自核酸和蛋白质序列测定,并附有注释信息。注释信息包括两部分,一部分由计算机程序经过序列分析而生成,另一部分则依靠生物学家

8、通过查阅文献资料而获得。20. GenBank : NIH管理一个遗传序列数据库( genetic sequence database),序列来源公开发表所有DNA序列. 也是国际DNA序列收集中心与 DDBJ、EMBL进行每天的数据交换。 收集全世界已发表的和自行投送的核苷酸序列以及相关文献资料。为大规模的核苷酸序列数据库建立档案,以利长期保存,为国际分子生物学及相关研究提供良好的技术与知识平台21. 启动子: 真核生物中,启动子是指所有对基因转录起始有重要作用的序列真核生物的三种RNA聚合酶分别识别不同的启动子序列22. Kozak序列:该序列是在起始密码子之前与核糖体作用的位点。在高等原

9、核生物中其一致序列为GCCACC(ATG),而在酵母中为AAAAA(ATG)。它们可以用来检测CDS的起始。23. CpG岛也称HTF岛: 是一些富含GC的小区域。 CpG岛定义为Y值大于0.6并且GC含量大于50%的序列区域。通常CpG岛出现在管家基因或者频繁表达的基因的启动子周围,在这些部位, CpG岛具有抵抗序列甲基化作用。CpG岛经常出现在脊椎动物基因的5区域,其中,50%的人类基因的转录起始位点前存在CpG岛,因此CpG岛是发现基因的重要线索。24. 同源性检索(homology search): 通过查询DNA或蛋白质数据库来判断所查序列是否与已知序列相同或相似。如果所查序列是已测

10、序基因的一部分,则就会发现相同的匹配。同源性检索的目的是判断新序列是否与已知基因在整体上的相似性。同源性检索主要是用来探寻新发现的基因功能25. 同源序列: 简单地说,是指从某一共同祖先经趋异进化而形成的不同序列。相似性(similarity)和同源性(homology)是两个完全不同的概念。26. 相似性(similarity): 是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量。比如说,A序列和B序列的相似性是80,或者4/5。这是个量化的关系。当然可进行自身局部比较。 相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高

11、低。相似性本身的含义,并不要求与进化起源是否同一,与亲缘关系的远近、甚至于结构与功能有什么联系。 当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;而当相似性程度低于20%时,就难以确定或者根本无法确定其是否具有同源性。 总之,不能把相似性和同源性混为一谈。所谓“具有50%同源性”,或“这些序列高度同源”等说法,都是不确切的,应该避免使用。 27. 同源性(Homology): 指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80都是不科学的。 而同源又有两种不同的

12、情况即垂直方向的(orthology)与水平方向的(paralogy)。序列间的相似性越高的话,它们是同源序列的可能性就更高28. 直系同源的定义是: (1)在进化上起源于一个始祖基因并垂直传递(vertical descent)的同源基因; (2)分布于两种或两种以上物种的基因组; (3)功能高度保守乃至于近乎相同,甚至于其在近缘物种可以相互替换; (4)结构相似; (5)组织特异性与亚细胞分布相似29. 鉴定直系同源的实际操作标准(practical criteria)为: 如基因组中的A基因与基因组中的A基因被认为是直系同源,则要求: (1)A的产物比任何在基因组中所发现的其它基因产物都

13、更相似于A产物; (2)A与A的相似程度比在任何一个亲缘关系较远的基因组中的任一基因都要高; (3)A编码的蛋白与A编码的蛋白要从头到尾都能并排比较,即含有相似以至于相同的模序(motif)30. 旁系同源(paralogy)基因是指同一基因组(或同系物种的基因组)中,由于始祖基因的加倍而横向(horizontal)产生的几个同源基因。直系与旁系的共性是同源,都源于各自的始祖基因。其区别在于:在进化起源上,直系同源是强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中的横向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定义上对功能上没有严格要求,可能相似,但也可能并不相似(尽管结构

14、上具一定程度的相似),甚至于没有功能(如基因家族中的假基因)。旁系同源的功能变异可能是横向加倍后的重排变异或进化上获得了另一功能,其功能相似也许只是机械式的相关(mechanistically related),或非直系同源基因取代新产生的非亲缘或远缘蛋白在不同物种具有相似的功能。 31. 序列相似性比较: 就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等; 序列同源性分析: 是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,

15、以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等; 32. Blast-“局部相似性基本查询工具”(Basic Local Alignment Search Tool) : 是一个序列相似性搜索的程序包,其中包含了很多个独立的程序,这些程序是根据查询的对象和数据库的不同来定义的。比如说查询的序列为核酸,查询数据库亦为核酸序列数据库,那么就应该选择blastn程序。33. 序列对位排列(sequence alignment): 通过在序列中插入间隔(gap)的方法使所比较的序列长度达到一致. 序列对位排列的目的是寻找同源序列.34. 相似性记分(similar score) 用记分矩阵作为序列相似性测度,比较总记分值,就可以定量评价不同对位排列的效果。35. 全局排列:对序列全长进行最优化对位 局部排列:指序列间的局部区域达到高度相似36. Protein-protein BLAST (blastp) :适合具有远源进化关系的匹配序列的检索PHI- and PSI-BLAST (Patten-hit initiated and 位点特异性BLAST):是敏感性最高的搜索方式,当用蛋白质-蛋白质BLAST检索未见阳性时,可

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号