生物信息整理大概总纲资料

资源描述

《生物信息整理大概总纲资料》由会员分享，可在线阅读，更多相关《生物信息整理大概总纲资料（17页珍藏版）》请在金锄头文库上搜索。

1、第一章 DNA，RNA 和蛋白质序列信息资源 1.数据库分类：一次数据库：基因组数据库核酸和蛋白质一级结构序列数据库生物大分子（主要是蛋白质）三维空间结构数据库二次数据库（专门数据库，专业数据库，专用数据库）：根据以上三类数据库和文献资料为基础所构建。 2.三大核酸序列数据库 GenBank: 美国国家医学图书馆的国家生物技术中心（NCBI）构建和维护，来自世界各地数据。是具有目录和生物学注释的核酸序列综合数据库；GenBank 数据库的序列数据来源序列数据来源于序列发现者提交的序列序列发现者提交的序列、批量提交的表达序列标签批量提交的表达序列标签（expressed sequ

2、ence tag, EST）、基因组测序序列基因组测序序列（genome survey sequence, GSS）和其他测序中其他测序中心提供的高通量数据心提供的高通量数据，还包括美国专利商标局提供的已发表专利的序列数据美国专利商标局提供的已发表专利的序列数据；NCBI 的 BLAST 程序提供 GenBank 和其他序列数据库中序列相似性搜索服务；通过 NCBI 的检索系统（Entrez）可以进入 GenBank。Entrez 检索程序整合了主要的 DNA 和蛋和蛋白序列数据的分类学、基因组、图谱、蛋白结构和结构（功能）白序列数据的分类学、基因组、图谱、蛋白结构和结构（功能）域信息，

3、还包括相域信息，还包括相关的关的 PubMed 的生物医学文献信息。的生物医学文献信息。 GenBank 记录和分类：记录和分类：表达序列标签(EST) 序列标签位点(STS)、基因组勘测序列(GSS)和环境样品序列(ENV) 高通量基因组(HTG)和高通量 cDNA(HTC)序列全基因组鸟枪测序序列(WGS) 转录组鸟枪组合序列特殊记录类型：第三方注释（TPA） GenBank CON 记录较小记录组合记录 EMBL：欧洲生物信息中心（EBI））构建和维护，来自世界各地数据. DDBJ ：信息生物学中心和国家遗传研究生的日本 DNA 数据库构建，主要来自日本的数据。三大数

4、据库每天都会进行数据交换，以保证数据库内容在全世界范围的同步性。 3.特殊类型核酸序列数据库非编码 RNA 数据库（ncRNA）；表达序列标签数据库（dbEST）；序列标签位点数据库（dbSTS）； miRBase ； tRNAdb 等。 4.基因组相关数据库人类基因组数据库（HGD）；基因组序列数据库（GSDB）；基因组在线数据库（GOLD）等 5.核酸三维结构数据库核苷酸三维结构数据库（NDB）普纳大学核酸结构数据库（BNASDB） 6.基因表达数据库基因表达库（基因表达库（GEO）；）；斯坦福微阵列数据库（斯坦福微阵列数据库（SMD）；）； Arra

5、yExpress； CGED； GXD； BodyMap 等。 7. 人类基因突变及疾病相关数据库人类基因变异数据库（HMGD）；人类遗传双等位基因序列数据库（HGBASE）；人类孟德尔遗传在线（OMIM）、国际单体型计划（HapMap）、人类单核苷酸多态性数据库（dbSNP）、肿瘤基因数据库（TGDB）、疾病关联数据库（GAD）、癌症基因数据库（CGAP）、人类表观遗传数据库（HEP）、人类 DNA 甲基化与癌症数据库（MethylCancer）等。 8.其他重要的核酸序列数据库 dbEST：dbEST 是 GenBank 中的一个子数据库，包含来源于不同

6、物种的表达序列数据和表达序列标签序列的其他信息。 ncRNAdb：非编码 RNA（non-coding RNA ncRNA）数据库旨在提供非编码 RNA 的序列和功能信息。 miRBase：miRBase 序列数据库主要存放已发表的微小 RNA（microRNA miRNA)序列和注释的数据库。 9.蛋白质相关数据库蛋白质序列数据库（PIR，MIPS，Swiss-Prot）蛋白质三维结构数据库(PDB,BioMagResBank,SCOP,CATH 等) 蛋白质组数据库（二维凝胶电泳数据库）（WORLD-2DPAGE,Phoretix links）信号传导及蛋白质-蛋白质相互作用

7、相关数据库(DIP,INTERACT,ProNet,KEGG 等) DNA 和蛋白质相互作用数据库等蛋白质相关数据库（DPInteract）。 10.PIR 数据库 PIR 主要数据库 1. UniProt-通用蛋白质资源库：是存储和链接其他蛋白质数据库的资源库，并且是蛋白质序列和具有综合功能注释目录的中心资源库。使用 UniprotKB 可以检索准确、可靠的蛋白综合信息。使用 UniRef 可以减少冗余，加速序列相似性搜索。使用 UniParc 可以检索存档序列和它们来源的数据库。 2. iProClass-蛋白质知识整合数据库：使用 iProClass 可以检索最新的蛋白质综

8、合信息，包括：功能、转导通路、相互作用、家族分类、基因和基因组、功能注释标准体系（ontology）、文献和分类学信息。使用 iProClass 还可以检索 ID 图谱、蛋白质词典和相关序列。 3. PIRSF-蛋白质家族分类系统：分类系统概要论述家族的特征，如家族名称、分类分布、分级和功能域结构，以及家族成员，包括功能、结构、传导通路、功能注释标准体系（ontology）和家族分类。利用这些信息可以获得蛋白质的准确功能或预测的功能和该蛋白质所属家族成员共有的其他特征。 4. iProLINK-蛋白质文献、信息和知识整合数据库：提供有关注释内容的文献、蛋白质名称词典和其他有助于

9、文献挖掘的人文语言处理技术开发的信息、数据库校正、蛋白质名称标记和功能注释标准体系（ontology）。使用 iProLINK 可以获得描述蛋白质记录的文本文献资源，在 UniProtKB 记录（生物词典）中加入蛋白质或基因命名的图谱，获得用于开发文本挖掘算法的注释数据集、挖掘蛋白质磷酸化（RLIMS-P）文献和获得蛋白质功能注释标准体系（ontology）（PRO）信息。 11.MIPS 数据库慕尼黑蛋白质序列信息中心，重点工作是基因组生物信息学，特别注重基因组信息系统分析，包括应用生物信息学方法注释基因组、表达分析和蛋白质组学方面研究；可以提供细菌、真菌和植物基因组比

10、较分析服务。在该站点提供基因组分析工具、数据库检索系统、表达分析、蛋白相互作用等网络服务。 12.其他重要的蛋白质序列数据库 PRINTS：蛋白基序指纹图综合数据库，每个指纹图都是使用数据扫描程序 ADSP 或 VISTAS 序列分析软件包反复优化后定义的。数据库中有两种类型指纹图，根据指纹图的复杂性分为简单和复合指纹图：简单指纹图基本上是单一的基序，而复合指纹图包含多个基序。 Pfam：是一个大的蛋白质域家族集合，每个家族是用多序列比对和隐马模型（HMMs）分析结果的代表。 13.NCBI 的 Entrez Gene 检索检索检索到的记录提供关键链接，将图谱、序列、表达

11、、结构、功能、索引文献和同源数据链图谱、序列、表达、结构、功能、索引文献和同源数据链接在一起构成关键链接接在一起构成关键链接。用定义序列、已知的图谱定位和从表型信息推测的基因，为基因分配特有标识符。这些标识符在 NCBI 的数据库中通用，可以用于注释更新跟踪和相关信息跟踪。Entrez Gene 用 NCBI 参考序列（RefSeqs）覆盖了基因组，还被整合到 NCBI 的 Entrez 和 E-Utilities 系统的索引、查询和检索中；检索结果以摘要（检索结果以摘要（summary）格式显示）格式显示，每页可显示多条记录，摘要显示的每条记录前有一个选择框，可以选择哪些记录需要显示

12、。显示内容还包括首选名称标志、完整全名、双单词的物种名称（在方括号中）、基因组定位和基因编号。 14. 通过 SRS 从 EBI 中获取蛋白质序列信息 SRS 是世界上主要的生物信息学、基因组和相关数据整合、分析和显示工具。SRS 检索系统是个开放的系统，可以根据不同的需要安装不同的数据库，现在，安装在 EBI 的数据库有 300 多个。 SRS 有三种检索方式：快速检索、标准检索和批量检索快速检索、标准检索和批量检索第二章第二章双序列比对双序列比对 1.同源与相似同源（homology）- 具有共同的祖先垂直同源（ortholog）水平同源（paralog）相似（simi

13、larity）同源序列一般是相似的，相似序列不一定是同源的 2.编辑距离两个序列中碱基不同的数目 3.相似性打分（动态规划方法）求解最短路径经验法则（针对蛋白质序列）：经验法则（针对蛋白质序列）：如果两个序列的长度都大于长度都大于 100，在适当地加入空位之后，它们配对的相同率达到 25% 以上，则两个序列相关；如果配对的相同率小于 15%，则不管两个序列的长度如何，它们都不可能相关；如果两个序列的相同率在 15%25%之间，它们可能是相关的。双序列比对：BLAST 第第四章四章序列特征分析序列特征分析 1.基因从分子生物学角度来看，基因是负载特定生物遗传信息的 DNA

14、分子片段，在一定的条件下能够表达这种遗传信息，产生特定的生理功能。 2.原核生物基因结构一个完整的原核基因结构是从基因的完整的原核基因结构是从基因的 5端启动子区域开始，到端启动子区域开始，到 3端终止区域结束。端终止区域结束。基因的转录开始位置由转录起始位点确定，转录过程直至遇到转录终止位点结束，转录的内容包括 5端非翻译区、开放阅读框及 3端非翻译区。基因翻译的准确起止位置由起始密码子和终止密码子决定，翻译的对象即为介于这两者之间的开放阅读框 ORF。 3.操纵子模型结构原核生物大多数基因表达调控是通过操纵子机制实现的。所谓操纵子通常由调节基因、原核生物大多数基因表达调控是

15、通过操纵子机制实现的。所谓操纵子通常由调节基因、启动子、操纵基因以及启动子、操纵基因以及 2 个以上的编码序列（结构基因）在原核生物基因组中成簇串联组个以上的编码序列（结构基因）在原核生物基因组中成簇串联组成。成。其中结构基因的表达受到操纵基因的调控。结构基因的表达受到操纵基因的调控。调节基因能产生作用于操纵基因的阻遏物（一种蛋白质），操纵基因靠近它所控制的结构基因，阻遏物与操纵基因的结合能阻止结构基因的转录。 4.真核生物基因结构一个完整的真核生物基因，不但一个完整的真核生物基因，不但包括编码区域，还包括包括编码区域，还包括 5端和端和 3端两侧长度不等的特端两侧长度不等的特异

16、性序列，异性序列，虽然这些序列不编码氨基酸，却在基因表达的过程中起着重要的作用。所以，严格的“基因”这一术语的分子生物学定义是：产生一条多肽链或功能：产生一条多肽链或功能 RNA 所必须的全部核苷所必须的全部核苷酸序列。酸序列。 5.蛋白质结构蛋白质的一级结构指的是氨基酸序列；肽链上氨基酸残基形成的局部的二级结构；各种二级结构在空间中卷曲折叠形成三维空间结构；有的蛋白质由多条肽链组成，每条肽链称为亚基，亚基间的特定空间结构即是四级结构；蛋白质的一级结构决定二级结构，二级结构决定三级结构 6.DNA 序列特征分析分析 DNA 序列的重要工作是从序列中找到基因及其表达调控信息寻找基因的工作有两个：一是识别与基因相关的特殊序列信号，一是识别与基因相关的特殊序列信号，如启动子、起始密码子，通过信号识别大致确定基因所在的区域；二是预测基因的编码区域，或预测外显子所在的二是预测基因的编码区域，或预测外显子所在的区域。区域。开放阅读框指的是从指的是从 5端开始翻译起始密码子（端开始翻译起始密码子（A

展开阅读全文