第二章生物信息学研究方法概述

资源描述

《第二章生物信息学研究方法概述》由会员分享，可在线阅读，更多相关《第二章生物信息学研究方法概述（35页珍藏版）》请在金锄头文库上搜索。

1、第二章第二章生物信息学研究方法概述生物信息学研究方法概述马飞南京师范大学比较基因组学与生物信息学实验室一、生物信息学研究方法概述一、生物信息学研究方法概述1 1 生物信息学研究的三个层面生物信息学研究的三个层面初级层面中级层面高级层面初级层面基于现有的生物信息数据库和资源，利用成熟的生物信息学工具（专业网站、软件）解决生物信息学问题生物信息数据库（NCBI、EBI等）基因组序列分析、序列比对软件（GCG、BLAST、CLUSTAL等）系统发育树构造软件（PHYLIP、PALM、MEGA等）分子动力学模拟软件（GROMACS、NAMD等）搜集、整理有特色的生物信息学数据集中级层面利用数值

2、计算方法、数理统计方法和相关的工具，研究生物信息学问题概率、数理统计基础科学计算基础现有的数理统计和科学计算工具（EXCEL、SPSS、SAS、 MATLAB等）建立有特色的生物信息学数据库高级层面提出有重要意义的生物信息学问题；自主创新，发展新型方法，开发新型工具，引领生物信息学领域研究方向。面向生物学领域，解决生物学问题数学、物理、化学、计算科学等思想和方法建立模型，发展算法自行编程，开发软件，建立网页（Linux系统、C/C+、PERL、数据库技术）http:/rich.yunda.org/test/amphioxusest/ http:/rich.yunda.org/test/r

3、g01/index.php 从事生物信息学研究应具备多方面的科学基础从事生物信息学研究应具备多方面的科学基础（1）、一定的计算能力，包括相应的软、硬设备。要有各种数据库或者能与国际、国内的数据库系统进行有效的交流。要有发达、稳定的互联网络系统；（2）、强有力的创新算法和软件。没有算法创新，生物信息学就无法获得持续的发展；（3）、与实验科学，特别是与自动化的大规模高通量的生物学研究方法与平台技术建立广泛、紧密的联系。这些技术，既是产生生物信息数据的主要方法，又是验证生物信息学研究结果的关键手段。从事生物信息学研究的人员必须具备多学科交叉的知识。2 2 生物信息学的生物信息学的“ “降龙十

4、八掌降龙十八掌” ”第一式第一式见龙在田见龙在田（1 1）掌握生物信息数据库及其查掌握生物信息数据库及其查询搜索方法询搜索方法(Database & searching)(Database & searching)对分子生物信息数据库的种类以及某些具体数据库的掌握和了解从现有数据库中熟练获得需要的数据信息（尤其是二级数据库）能熟练地进行数据库查询和数据库搜索（数据库查询系统 Entrez、SRS；搜索工具BLAST等）数据库技术、互联网技术第二式第二式飞龙在天飞龙在天（2 2）学会生物信息学软件和工学会生物信息学软件和工具的应用具的应用(Software & applicati

5、on)(Software & application)利用成熟的生物信息学工具（专业网站、软件）解决生物信息学问题基因组序列分析、序列比对软件（GCG、BLAST、CLUSTAL等）系统发育树构造软件（PHYLIP、PALM等）基因芯片检测分析软件（商业软件ScanArray、Array-Pro等）分子动力学模拟软件（GROMACS、NAMD等）第三式第三式鸿渐于陆鸿渐于陆（3 3）掌握概率论基础掌握概率论基础(Probability theory)(Probability theory)随机事件、概率随机变量、概率分布大数定律、中心极限定理几乎用于生物信息学的各个方面“Most

6、 of the problems in computational sequence analysis are essentially statistical.” “Biological sequence analysis”第四式第四式或跃在渊或跃在渊（4 4）掌握数理统计基础掌握数理统计基础(Statistical methods)(Statistical methods)样本和统计量（方差、均值）参数估计、假设检验基本的统计分析（方差分析、协方差分析、回归分析）常用统计软件的运用（SPSS、SAS）几乎用于生物信息学的各个方面第五式第五式羚羊触藩羚羊触藩（5 5）熟悉基于频率的组分分

7、析熟悉基于频率的组分分析方法和权重矩阵方法方法和权重矩阵方法(Composition analysis & (Composition analysis & weight matrix method)weight matrix method)符号（如碱基）频率反映具有生物学意义的序列特征，如内含子剪接位点的发现，KOZAK规则的发现等核酸组分、氨基酸组分、密码子使用频率 k-tuples/k-mers频率分析权重矩阵(weight matrix)(weight matrix) 分析主要用于具有特定生物学意义的序列特征的分析权重矩阵分析方法举例权重矩阵分析方法举例例：人类基因例：人类基因

8、内含子内含子/ /外显子外显子剪接位点的序剪接位点的序列特征分析列特征分析R = A or GR = A or G Y = C or UY = C or U N = A, G, C or UN = A, G, C or U供体位点供体位点受体位点受体位点BayesianBayesian打分函数用于剪接位点预测的公式打分函数用于剪接位点预测的公式The likelihood that a property value v (of a new structure) is drawn from the splicing site is:Score for the overall likelih

9、ood of the query sequence being a site is:Say we have a sequence S= S1S2Sn. Then one need to calculateSo to look for a donor site in the sequence, we might calculate 第六式第六式潜龙勿用潜龙勿用（6 6）信息论方法信息论方法(Information method)(Information method)信息熵信息的度量：是信息符号出现何种状态的一种不确定性程度，信息的获得要对不确定性进行否定。生物信息的符号如ACGT四种符号

10、，状态空间即其所有可能的排列用于结构预测信息熵H刻画了由pi表示的随机试验结果的先验不确定性，或观察到输出时所获得的信息量。第七式第七式利涉大川利涉大川（7 7）期望最大化（期望最大化（EMEM）方法）方法(Expectation Maximization)(Expectation Maximization)适用于具有隐变量的模型和问题，如神经网络模型中的隐节点和 HMM模型中的隐状态等用于结构的识别，如Motif识别的MEME方法、HMM中的Baum-Welch算法第八式第八式神龙摆尾神龙摆尾（8 8）动态规划方法动态规划方法(Dynamic Programming)(Dynamic

11、 Programming)第九式第九式密云不雨密云不雨（9 9）迭代方法迭代方法(Iteration)(Iteration)迭代的目的通常是在状态空间找到目标函数收敛的稳定解迭代的目的通常是在状态空间找到目标函数收敛的稳定解在运用模式识别方法时，对系统参数的学习通常要经过迭代来实现在运用模式识别方法时，对系统参数的学习通常要经过迭代来实现迭代必须能够不断逼近稳定解迭代必须能够不断逼近稳定解第十式第十式突如其来突如其来（1010）回归、拟合、相关性分析回归、拟合、相关性分析、关联分析、关联分析(Regression, fitting, (Regression, fitting, corre

12、lation & association)correlation & association)经典的统计分析方法主要目的：描述和预测自变量与因变量间的关系第十一式第十一式双龙取水双龙取水（1111）判别分析方法判别分析方法( (DiscriminantDiscriminant analysis) analysis)第十二式第十二式鱼跃于渊鱼跃于渊（1212）聚类分析方法聚类分析方法(Clustering method)(Clustering method)聚类分析（群分析）是实用多元统计分析的一个新分支，正处于发展阶段。理论上尚未完善，但应用十分广泛。实质上是一种分类问题，目的是建

13、立一种分类方法，将一批数据按照特征的亲疏、相似程度进行分类。条件：研究对象总体的类别数目未知，也不知总体样本的具体分类情况目的：通过分析，选定描述个体相似程度的统计量、确定总体分类数目、建立分类方法；对研究对象给出合理的分类。(“物以类聚”是聚类分析的基本出发点 )定性、经验的分类的局限定性、经验的分类的局限分类较粗、数据量小、凭借经验分类较粗、数据量小、凭借经验谱系聚类法（系统聚类法）、动态聚类法、模糊聚类法谱系聚类法（系统聚类法）、动态聚类法、模糊聚类法生物信息学中的聚类分析问题：生物信息学中的聚类分析问题：根据DNA芯片获得的基因表达数据进行基因聚类（数据量庞大）蛋白质相互

14、作用网络的分类根据不同物种的大分子序列进行相似性比较并构建系统发育树X(1)X(2)X(3)X(4)X(5)GibbonSymphalangusHumanGorillaChimpanzee黑猩猩猩猩猿猴长臂猿第十三式第十三式震惊百里震惊百里（1313）MarkovMarkov模型的应用模型的应用(Markov model)(Markov model)MarkovMarkov过程：从一种状态转移到另一种状态时，过程仅取决于前面过程：从一种状态转移到另一种状态时，过程仅取决于前面n n 种状态，是一种有序种状态，是一种有序n n模型。模型。 n n是影响下一个状态选择的状态数。是影响下一个状态选

15、择的状态数。最简单的最简单的MarkovMarkov过程是一阶过程，状态的选择完全取决于前一状态，过程是一阶过程，状态的选择完全取决于前一状态，这种选择是依照概率来选择的。这种选择是依照概率来选择的。状态的选择是概率的，而非确定的。故状态的选择是概率的，而非确定的。故MarkovMarkov过程本质上是一种随机过程本质上是一种随机过程。过程。第十四式第十四式损则有孚损则有孚（1414）隐隐MarkovMarkov模型方法模型方法(HMM method)(HMM method)将核苷酸序列看成一个随机序列，DNA序列的编码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。由于这些MarkovC+C+GG+ +C CGGC CGGC C GG C+C+C C GG+ +GG B B E E0.130.130.120.120.0340.0340.0100.0100.0120.0120.0030.0030.00320.00320.00020.0002模型的统计规律是未知的，而HMM能够自动寻找出它们隐藏的统计规律。对于高等生物这样复杂的 DNA序列，HMM必须学习不同的基因结构的信号。隐Markov模型 (HMM)语音识别语音识别 (Speech r

展开阅读全文

第二章 生物信息学研究方法概述

最新文档

第二章生物信息学研究方法概述