基因表达谱数据特征选择算法研究

上传人:E**** 文档编号:118154339 上传时间:2019-12-11 格式:PDF 页数:80 大小:3.81MB
返回 下载 相关 举报
基因表达谱数据特征选择算法研究_第1页
第1页 / 共80页
基因表达谱数据特征选择算法研究_第2页
第2页 / 共80页
基因表达谱数据特征选择算法研究_第3页
第3页 / 共80页
基因表达谱数据特征选择算法研究_第4页
第4页 / 共80页
基因表达谱数据特征选择算法研究_第5页
第5页 / 共80页
点击查看更多>>
资源描述

《基因表达谱数据特征选择算法研究》由会员分享,可在线阅读,更多相关《基因表达谱数据特征选择算法研究(80页珍藏版)》请在金锄头文库上搜索。

1、江苏科技大学 硕士学位论文 基因表达谱数据特征选择算法研究 姓名:朱钦平 申请学位级别:硕士 专业:模式识别与智能系统 指导教师:祁云嵩 2011-03-13 摘 要 I 摘 要 基因芯片技术是一种新型的分子生物学技术,也是一项具有深远影响的重大科学 成就。基因芯片技术可以快速准确的生成大量的微阵列基因表达谱数据,使人们从分 子水平上了解基因的表达模式和微观层面上研究生命现象。由于基因表达谱数据具有 样本小、维数高、噪声大、冗余基因大量存在、分布不平衡等特点。所以,采用合适 的方法降低特征维数, 选择具有代表性的特征基因就成为一项重要的数据处理的工作。 针对基因表达谱数据样本小,分布不平衡,噪

2、声大,不符合正态模型的特点。提 出了两种基于稳健统计思想的估计量,这两种统计量即考虑了样本总体的信息,但同 时避免过于依赖对正态模型的假设。实验表明,将这些统计量应用到 T 统计量算法选 择差异表达基因的问题中,获得了较好的分类效果。 支持向量机技术是一种基于结构风险最小化的分类技术, L-J 算法是一种通过研究 支持向量机分类提出的特征选择算法。根据 K-L 变换理论,任意向量都可以写成正交 空间中投影到各个坐标的分量的和的形式。因此,改进后的 L-J 算法用分类超平面的 梯度向量在各坐标轴的分量取代了梯度向量与各坐标轴的夹角计算, 同时能获得与 L-J 算法相同的效果。 针对基因表达谱数据

3、含有大量冗余基因,冗余基因的存在影响分类效果的问题, 提出了一种基于相关系数的方法将基因表达谱数据的每个基因映射成为特征空间的向 量,然后在特征空间将映射后的向量按某种规则聚类,聚类完成后,在每一子类中选 取一个代表向量组成特征子集。实验表明,该算法降低了特征维数,提高了分类效果。 遗传算法是一种智能化的大规模搜索算法。本文在充分考虑基因表达谱数据的特 点的基础上,提出了一种应用于特征选择的改进型遗传算法。该算法将遗传算法,免 疫算法,过滤法,启发式方法,支持向量机分类技术相结合,获得了较小的,分类能 力较强的特征子集。 关键词关键词 微阵列基因数据;特征选择;稳健统计;支持向量机;聚类;遗传

4、算法; Abstract III Abstract The gene microarray technology is a new molecular biological technology with great influence. Gene microarray makes it feasible to obtain large number of gene expression data so that people understand gene expression patterns from the molecular level and study biological ph

5、enomena in the micro perspective. But the dataset has some traits, such as small samples, high dimensionality, big noise, large number of redundant genes, uneven distribution. It is an important preprocessing technique to choose an appropriate method to reduce the feature dimension and choose the re

6、presentative genes. Gene expression data is small, uneven distribution, noisy and does not meet the normal distribution. This paper proposes two estimators based on theory of robust statistics. The two statistics do not only take the information of overall sample into account, but also avoid over-de

7、pendence on the normal model assumptions. The experiments show that it obtain a better classification accuracy when these estimators are applied to the T-statistic algorithm to select differentially expressed genes. Support vector machine is a classification technology based on structural risk minim

8、ization. L-J algorithm is feature selection algorithm based on research SVM classification.According to K-L transform theory, any vector can be expressed as the sum of component in orthogonal space. Therefore, the improved algorithm use separating hyperplane of the gradient vectors components in eac

9、h axis instead of the angle calculation between gradient vector and each axis.The method can obtain the same effort with L-J algorithm. Gene expression data contains a lot of redundancy genes.A large number of redundant genes affects the classification results. The paper proposed a method mapping ea

10、ch gene into feature spaces vector based on correlation coefficients theory and cluster the vector according to certain rules.After that step, We Select a representative subset from vector composition and compose feature subset.Experiment show that the algorithm reduces the feature dimension and imp

11、rove the classification results. Genetic algorithm is an intelligent search algorithm for large data sets. This paper proposes an improved genetic algorithm applied to feature selection based on full consideration to the characteristics of gene expression data.The algorithm mix genetic algorithm, im

12、mune algorithm, filtering, heuristic method and support vector machine Abstract IV classification. The obtained feature subset through this algorithm has stronger classification ability. Key Words: microarray gene dataset; feature selection; Robust statistic; support vector machine (SVM); Clustering

13、; Genetic algorithm(GA); 江苏科技大学学位论文原创性声明 江苏科技大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含 任何其他个人或集体已经发表或撰写过的作品成果。 对本文的研究做出重 要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声 明的法律结果由本人承担。 学位论文作者签名: 年 月 日 江苏科技大学学位论文版权使用授权书 江苏科技大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送

14、交论文的复印件和电子版, 允许论文 被查阅和借阅。 本人授权江苏科技大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存 和汇编本学位论文。 本学位论文属于: (1)保密,在 年解密后适用本授权书。 (2)不保密。 学位论文作者签名: 指导教师签名: 年 月 日 年 月 日 第 1 章 绪论 1 第 1 章 绪 论 1.1 生物信息学 自从 1979 年 Paulien Hogeweg 在进行生物系统信息处理的研究中提出生物信息学 这一概念以来,生物信息学1在基因组学和遗传学、特别是在大规模 DNA 测序基因组 学领域被广泛应用。它涵盖了从机器学

15、习到人工智能的每个方面。 生物信息学主要利用应用数学、信息学、统计学和计算机科学的方法研究生物学 的问题。近年来,生物信息学的研究领域主要是分子生物学与信息技术的结合体,生 物信息学的研究材料和结果就是各种各样的生物学数据。生物信息学的研究方法主要 有:(1)对生物学数据的搜索和筛选。(2)对生物学数据的编辑、整理、管理和显示,(3) 对生物学数据的计算和模拟。 经过了几十年的发展, 生物信息学成为一门逐步完善的学科, 其主要研究方向有: (1)序列分析2,我们的后代虽然不会说生物学始于当代的基因项目,但是他们承 认,在我们这一伟大的时代,生物知识的积累开始加速。对这些知识的理解成为一种 挑战

16、, 它需要对生物细胞和生命组织的深刻理解。 其中的一部分挑战只是简单的整理、 分类、分析生物序列数据。它是一项比字符串解析更抽象的任务,在该任务的背后是 一套完整的分子生物学。 尽管直接实验法是发现生物分子功能和结构的最可靠的方法。但是实验法更容易 获取 DNA 序列和相应的 RNA 或蛋白质序列而不是基因的功能和结构。因此我们有开 发开发算法分析基因序列推断其生物功能的强烈要求。自从基因组计划出现后,计算 方法就成为其中不可或缺的重要组成部分。 人类基因组计划给我们提供了 7-10 万的人 类基因,其中只有一小部分基因的功能能够通过实验来研究。序列分析中最重要的方 面是统计法的运用。大多数有效的分析法使用了概率论。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号