本科毕业答辩演讲稿(使用遗传算法从蛋白质质谱数据提取特征)

资源描述

《本科毕业答辩演讲稿(使用遗传算法从蛋白质质谱数据提取特征)》由会员分享，可在线阅读，更多相关《本科毕业答辩演讲稿(使用遗传算法从蛋白质质谱数据提取特征)（3页珍藏版）》请在金锄头文库上搜索。

1、尊敬的各位老师：大家上午好！我叫 XX，本次论文指导老师是 XX 老师，我选的毕业论文题目是使用遗传算法从蛋白质质谱数据提取特征，下面我先汇报一下自己选择这篇论文的动机以及基本写作思路。重所周知，蛋白质是遗传物质的直接反映者，通过对蛋白质所反映出的特征进行分析，能够准确地判断出生物体的一些特征，如是否具有癌症性状。但是蛋白质所反映出的信息成千上万，在对数据进行分析之前，必须先知道哪个才是对我们做出判断有决定性作用的，哪个是与我们所研究的方面无关的，这就是论文中提到的特征提取。例如，这次论文中所选取的例子，是 121 卵巢癌症患者和 95 例对照的样本收集，针对每个样本有 15000 个质谱数

2、据，编写程序的目的，就是通过遗传算法，决定出哪 20 个质谱数据能够对判断是否是癌症患者起决定性作用。现在，我来陈述本篇论文的结构，主要内容分为三个部分：蛋白质质谱，遗传算法，特征提取的程序实现。蛋白质质谱是蛋白质分子经过质谱仪分析而得的数据。首先，被分析样品的气态蛋白质分子，在高真空中受到高速电子流或其它能量形式的作用，失去外层电子生成分子离子，或进一步发生化学键的断裂或重排，生成多种碎片离子。然后，将各种离子导入质量分析器，利用离子在电场或磁场中的运动性质，使多种离子按不同质荷比 m/e 的大小次序分开，并对多种的离子流进行控制、记录，得到质谱图。最后，得到谱图中的各种离子及其强度实现对样

3、品成分及结构的分析。质谱分析具有如下优点：很高的灵敏度，能为亚微克级试样提供信息，能最有效地与色谱联用，适用于复杂体系中痕量物质的鉴定或结构测定，同时具有准确性易操作性快速性及很好的普适性。正因为质谱法有这些优点，所以分子量测定、氨基酸鉴定、蛋白质序列分析及立体化学分析等。现在来看第二部分，遗传算法。遗传算法以达尔文的进化论和 Mendel 的遗传理论为基础，将生物进化过程中的适者生存法则和遗传过程中的随机配对交叉机制相结合，通过模拟生物进化的过程和机制来搜索最优解。从本质上而言，遗传算法是一种迭代算法，它通过逐次逼近来获得问题的近似最优解。其主要特点是直接对结构对象进行操作，不存在求导和函数

4、连续性的限定；具有内在的隐并行性和更好的全局寻优能力；采用概率化的寻优方法，能自动获取和指导优化的搜索空间，自适应地调整搜索方向，不需要确定的规则。遗传算法的这些性质，已被人们广泛地应用于组合优化、信号处理、自适应控制和人工智能计算中。在将数据载入算法之前,首先要对数据进行编码，成为可以被程序处理的数据，也就是二进制串。应遵循的准则首先是完备性，也就是问题空间中的所有点(候选解) 都能作为 GA空间中的点(染色体)表现。第二是健全性，就是 GA 空间中的染色体能对应所有问题空间中的候选解。第三是非冗余性(nonredundancy) ，就是染色体和候选解一一对应。在遗传算法程序之中，会包含一个

5、用于创建初始群体的函数，这个函数会在编码而成得可行解中随机选择成为第一代父本，进行迭代。把这些假设的可行解置于问题的“环境”中，并按适者生存的原则，从中选择出较适应环境的“染色体”进行复制，再通过交叉、变异过程产生更适应环境的新一代“染色体”群，这个过程就称为迭代。适应度，是表示某一个体对环境的适应能力，也表示该个体繁殖后代的能力。遗传算法的适应度函数也叫评价函数，是用来判断群体中的个体的优劣程度的指标，它是根据所求问题的目标函数来进行评估的。适应度函数是遗传算法的核心，它决定了遗传算法的进化方向，也就是我们最后所得到的数据的特点，就是由适应度函数来决定的。不同的程序是有不同的适应度函数的。比

6、如我的这次试验是要找出能够对判断是否是癌症起决定作用的质谱数据，那我的适应度函数用了一个分类函数，按照质谱数据对个体进行分类，选出能够使分类后两组的真值分离最大化的作为特征质谱。在程序中我用两个语句把癌症个体真值赋成，健康个体的真值为。迭代的核心在于三个关键词复制、交叉、变异。遗传算法的有效性主要来自复制和交叉操作，尤其是交叉在遗传算法中起着核心的作用。复制操作有多种算法，最经典的是轮盘赌算法，即将上一代种群中所有个体按适应度值成比例的依次组成一个圆形的轮盘随机转动轮盘，当轮盘停下来时，指针所指向的个体就是被选中的个体，由于适应度值较高的个体所占的区域较大，被选中的概率也较高，保证了适应度值较

7、高的个体能在新的种群中产生较多的后代。交叉算子有很多种，包括单点交叉、多点交叉、洗牌交叉等等。交叉操作分两步实现。第一步是在群体中随机抽取两个个体，作为交叉操作的父个体。第二步是随机地选择交叉点，对匹配的位串进行交叉繁殖，产生一对新的位串。由于种群的个体有限，经过若干代交叉操作，源于一个较好的祖先的个体会逐渐充斥整个种群，使问题过早收敛而得不到最优解。为避免这种情况出现，就要效法自然界生物的变异，对个体进行小概率的翻转（替换）。变异是由变异算子完成的，反映到数据上就比如原来的数据是一串，那么我把它的某位变成，就完成了最简单的变异过程。决定迭代进行到什么程度的就是收敛条件。有很多种收敛条件，如

8、时间限制，就是我进行多少代之后就停止迭代。再比如精度限制，当个体适应度的方差或标准差低于一定的数值时停止迭代，或者适应度限制，当连续几代最优个体的适应度没有明显变化时终止算法。在本次实验中采取的是时间限制。这是一张遗传算法的图解，它很直观地表示出了遗传算法的步骤。这里的初始条件就是收敛条件，我的论文里选的是时间收敛，设置迭代次数为 50 次，没到次数就会一直迭代。然后是计算个体适应值，这里用到适应度函数。这是为下步的选择做准备的。然后用概率来选择遗传算子。比如变异的概率是百分之一，也就是 500 例个体中有 5 个变异的个体，则从适应度高的个体中选出 5 个，对它运用变异算子。其他个体进行交叉

9、或者直接复制到下一代。然后再回到第二步进行收敛检验。最后一部分主要内容就是程序设计了。由于 ppt 篇幅的关系我没有把所有程序都列举出来。程序一共分为 6 个部分，数据加载到 matlab，创建初始种群，创建适应度函数，创建选择结构，调用遗传算法，显示被选择特征。我选择了数据加载和调用遗传算法两部分解释一下。Load 语句将数据加载至 matlab，whos 是显示出数据名和类型。从输出可以看出，一共有 216 组数据，每组有 15000 个质谱数据。下面看看主程序的调用。Rand 是随机产生均匀分布的随机数， randn 是随机产生正态分布的随机数，这两个随机数是在调用之前必须设置的。设置所

10、需的特征数目。设置适应度函数以便下步调用。而之前已经编写好了适应度函数 biografit。函数的参数有三个，分别是适应度、特征数目和选择结构。这个选择结构中包含了设置好的初始群体创建函数，迭代次数，每代得人口增加数等。的返回值是一个下标，然后把对应的质谱数据存入 Significant_Masses。函数的功能是按照程序选出的特征，来对每个体进行判断到底是不是癌症，再与真值对比，得出评价，存入，cp.CorrectRate 是评价当中的正确率。这个是我们的仿真结果图。横轴是值，纵轴是相对离子强度。红色的竖线所标的就是重要质谱。很容易可以看出，所选出的质谱数据集中在附近。仿真和实验的结果具有有效性。

展开阅读全文