基于pls的变量选择及其在高维数据中的应用

上传人:kms****20 文档编号:45739515 上传时间:2018-06-18 格式:PDF 页数:60 大小:840.05KB
返回 下载 相关 举报
基于pls的变量选择及其在高维数据中的应用_第1页
第1页 / 共60页
基于pls的变量选择及其在高维数据中的应用_第2页
第2页 / 共60页
基于pls的变量选择及其在高维数据中的应用_第3页
第3页 / 共60页
基于pls的变量选择及其在高维数据中的应用_第4页
第4页 / 共60页
基于pls的变量选择及其在高维数据中的应用_第5页
第5页 / 共60页
点击查看更多>>
资源描述

《基于pls的变量选择及其在高维数据中的应用》由会员分享,可在线阅读,更多相关《基于pls的变量选择及其在高维数据中的应用(60页珍藏版)》请在金锄头文库上搜索。

1、 基于基于 PLS 的变量选择及其的变量选择及其 在高维数据中的应用在高维数据中的应用 Variable selection based on PLS and its application on high dimensional data 学科专业:化工过程机械 研 究 生:童拓鹏 指导教师:宋 凯 副教授 天津大学化工学院 二零一三年六月 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得 天津大学天津大学 或其他教育机构的学位或证书而使用过的材料。 与我一同

2、工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 学位论文作者签名: 签字日期: 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解 天津大学天津大学 有关保留、使用学位论文的规定。特授权 天津大学天津大学 可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。 (保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 导师签名: 签字日期: 年 月 日 签字日期: 年 月 日 摘摘 要要 变量选择,又称特征选择,是信息与模式识别领域的研究热点之一。

3、随着人工智能和计算机技术的迅速发展及应用,变量选择的研究领域不断拓宽,变量选择的方法研究也取得了较大的进展, 基于统计方法或机器学习的理论成果不断涌现,其中一些在实际工程应用中已经显示出了巨大的潜力。本文主要研究多元统计回归分析中的偏最小二乘方法用于变量选择。 针对过程分析领域与生物信息领域中数据表现出来的高维特点,以基于 PLS 的变量选择方法和机器学习中的回归算法为基本工具, 在对具体应用领域中数据的处理问题和方法加以阐述的基础上,确定了最优分析模型,并对所选择的重要变量做了初步解释,有助于认识研究对象本质或了解生产过程机理,应用结果表明了算法的有效性和实际意义。 对于在线过程分析中得到的

4、近红外光谱数据,考虑数据特点,提出基于偏最小二乘的变量加权方法,结合非线性回归分析能力强的高斯过程机器学习算法,解决了在变量数远远高于样本数的情况下,出现的“信息饱和”问题。 对于生物信息学中的必需基因识别问题,利用 Z 曲线分析的方法提取 DNA序列特征,在反映基因信息的特征数众多,且存在多重相关性时,提出基于无信息变量消除的迭代特征选择方法, 结合偏最小二乘分类器, 进行必需基因的识别,并寻找对基因必需性影响重要的特征。 关键词:关键词: 变量选择 偏最小二乘 高斯过程 Z 曲线 ABSTRACT Variable selection, also known as Feature Sele

5、ction, is one of research hotspots of the information pattern recognition field. With the rapid development and wide used of computer science, the variable selection study has also made great progress. Theory and application achievements of the statistical methods and machine learning are emerging,

6、some of which in the practical application has shown great potential. This article focuses on the Partial Least Squares (PLS) for variable selection. PLS is one of the most popular multivariate statistical regression analysis methods. Taking into account the widely used of variable selection algorit

7、hm in different field. We choose process analysis and bioinformatics data sets as examples to verify the validity of PLS based variable selection method combined with machine learning algorithms. Considering the practical application, variable selection methods and machine learning regression algori

8、thm were used as basic tool to handle those issues on process analysis and bioinformatics. Important variables were selected and explanations were made for further research. Guidance was given for regulation. The nature and mechanism is easily understood. For the Near-Infrared Spectral (NIR) data in

9、 the process analysis field, partial least squares based variable weighted Gaussian process were used to solve data with multicollinearity and overcome the “information saturation” phenomenon. For the identification of essential genes in bioinformatics, Z-curve were used to extract DNA sequence feat

10、ures first, then an uninformative variable elimination (UVE) based partial least squares classifier were used for iterative variable selection. Essential genes can be found and important feature which related to gene essentiality also can be chosen. KEY WORDS:Variable Selection, Partial Least Square

11、s, Gaussian Process, Z-curve 目 录 第一章 绪论. 1 1.1 变量选择问题. 1 1.1.1 变量选择问题的背景. 1 1.1.2 机器学习与变量选择. 1 1.1.3 变量选择方法的研究现状. 3 1.2 常用的变量选择方法. 3 1.2.1 Filter 类方法 . 4 1.2.2 Wrapper 类方法 . 5 1.2.3 Embedded 类方法 . 6 1.3 基于偏最小二乘的变量选择. 7 1.3.1 偏最小二乘算法. 7 1.3.2 基于 PLS 的变量选择方法 . 8 1.4 本文的研究内容. 9 第二章 基于变量加权高斯过程的近红外光谱数据分析. 11 2.1 引言. 11 2.2 问题描述. 11 2.3 基于变量加权的高斯过程. 13 2.3.1 常规的高斯过程回归分析. 13 2.3.2 新的基于 PLS 变量加权的 PWGP 算法 .

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号