模糊与双重正则化支持向量机的研究及应用

资源描述

《模糊与双重正则化支持向量机的研究及应用》由会员分享，可在线阅读，更多相关《模糊与双重正则化支持向量机的研究及应用（107页珍藏版）》请在金锄头文库上搜索。

1、 2012 年 4 月模糊与双重正则化支持向量机的研究及应用模糊与双重正则化支持向量机的研究及应用 Studies and Application of Fuzzy and Double Regular Support Vector Machines 秦传东刘三阳教授工学计算机应用技术学科、专业学科门类提交论文日期指导教师姓名、职务作者姓名题（中、英文）目 TP181TP181 1070110701 08221101020822110102 公开代号分类号密级学号作者简介秦传东，湖北广水人.2001 年毕业于河南师范大学，获学士学位. 2012

2、年 6 月获西安电子科技大工学博士学位.导师：刘三阳教授主要研究方向：支持向量机，最优化理论与应用. Qin Chuandong, was born in Guangshui, Hubei Province, China.He received his B.A.from Henan Normal University, China, in 2001 and received the Ph.D.degree in School of computer science and technology from XiDian University, Xian, China, in June 2012

3、. His research interests include Support vector machine and Optimization theory application. 西安电子科技大学西安电子科技大学学位论文独创性（或创新性）声明学位论文独创性（或创新性）声明秉承学校严谨的学风和优良的科学道德，本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果.尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果；也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料.与我一同工作的同志对本研究

4、所做的任何贡献均已在论文中做了明确的说明并表示了谢意. 申请学位论文与资料若有不实之处，本人承担一切的法律责任. 本人签名：日期：西安电子科技大学西安电子科技大学关于论文使用授权的说明关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学.学校有权保留送交论文的复印件，允许查阅和借阅论文；学校可以公布论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存论文.同时本人保证，毕业后结合学位论文研究课题再攥写的文章一律署名单位为西安电子科技大学. （保密的论文在解密后遵守此规定

5、）本学位论文属于保密，在年解密后适用本授权书. 本人签名：导师签名：日期：日期：摘要近年来，支持向量机（Support Vector Machine）作为数据挖掘中的一种新方法得到了比较充分的发展与应用.它是以最优化理论为依托，主要用来探求一些不能通过原理分析从观测数据（样本）中得到的分类或回归的规律，然后利用这些规律去分析海量数据中无法观测到的数据现象。在线性和非线性优化理论的支持下，SVM 具有拟合精度高、选择参数少、推广能力强和全局最优等特点。它较好地解决了数据挖掘中的小样本、高噪声、多野点、高维数的分类和回归实际问题并成为机器学习领域新的研究热点，被广

6、泛应用到模式识别、函数拟合和密度估计等领域。本文主要针对数据分析中的肿瘤特征基因提取、模糊隶属度在支持向量机中应用、不平衡数据的分类、双重正则化支持向量机的性质与应用等问题进行研究，主要研究工作如下： 1 研究了支持向量机对小样本、高维数的肿瘤特征基因的提取问题.根据结肠癌肿瘤基因表达谱样本的高维数、小样本和高噪声等特点，提出用 Bhattacharyya 距离对肿瘤基因进行测量，滤除与分类无关的基因，然后用肿瘤基因对支持向量机模型的敏感度进行二次提取。并用它的归一化值对重要基因赋权，形成只有少数重要致病肿瘤基因的新样本集.最后，把支持向量机应用于对新样本集的特征基因进行分析与

7、测试。实验证明这种分析方法提高了肿瘤诊断的准确率。 2 针对不平衡数据集中类不平衡比比较大的分类问题，利用样本点的特性建立类不平衡调节因子和模糊隶属度，提出平衡模糊支持向量机.首先计算样本协方差矩阵，求得类不平衡调节因子，然后计算各样本点的模糊隶属度，得到各样本对分类超平面的贡献率.类平衡调节因子和模糊隶属度同时对分类器的误差项产生影响，结果表明：这种平衡模糊支持向量机对类不平衡比较大的分类问题具有很好的分类效果. 3 由于样本中存在很多孤立点或噪声，从而在分析过程中导致支持向量机易产生过学习问题。通过分析模糊支持向量机和临近支持向量机的特点，借鉴它们的优点：模糊隶属度和临近超

8、平面，提出了一种基于数据域描述的模糊隶属度数据处理方法。考虑了样本点到类中心的距离与样本对分类贡献率的关系。这种数据预处理方法的应用使分类问题变得更为清晰和准确。结果表明：采用新的模糊隶属度模糊临近支持向量机算法有较高的识别率，但也耗费了较多的训练时间。 4 尽管 SSVM 通过应用 Sigmoid 积分光滑函数将有约束条件的标准支持向量机问题转化为无条件约束而且可微的凸优化问题，但没有考虑样本集中的野点和噪声对分类超平面的影响，而且 Sigmoid 积分光滑函数在拐点处的精确度没有多项式光滑损失函数好。本文通过引用多项式光滑损失函数和模糊隶属度组成一种模糊光滑支持向量机.模糊

9、隶属度考虑每个样本点到对分类超平面的贡献率，野点和噪声的贡献率被赋予一个很小的值，影响很小。多项式光滑函数使得无约束可微的优化问题可以选择用 BFGS 算法和 NA 算法来求解。实验结果表明这些修改在结果中起到积极的作用。 5 针对标准 L2范数支持向量机和 L1范数支持向量机在肿瘤基因分类分析中表现出的优缺点，在利用 Bhattacharyya 距离剔除部分对分类无关紧要的特征基因从而得到少数高相关至关重要特征基因的基础上，一种双重正则化支持向量机被应用到 DNA 微阵列分类中。用二次多项式损失函数把这种有约束的优化问题改变为无约束且可微的优化问题，再用 BFGS 算法来求解.

10、通过对两种肿瘤特征基因数据集实验分析知，该算法对肿瘤特征基因分类具有较强的可行性和有效性。总之，支持向量机理论经过十多年的发展，已经积累了比较坚实的基础，本文主要在现有理论的基础上探求模糊隶属度对几种分类支持向量机的影响和怎样利用数据预处理方法对一些高维数、小样本的数据集进行特征选择。当然笔者也希望将这些方法能够应用到其它的智能优化算法中，希望进一步提高算法的性能。关键词：支持向量机，模糊隶属度，数据域描述，双重正则化，光滑因子，B 氏距离，特征基因，统计学习理论，最小二乘支持向量机，大规模样本集，不平衡分类， ABSTRACT In recent years, as the

11、new method of the data mining, Support Vector Machine (SVM) got more fully development and application. It is based on the theory of optimum, mainly to seek some laws of the classification and regression from some observation datas (samples) which cant get from the principle analysis. Next using the

12、 laws analyzes data phenomenons which cant be observed from the mass datas. With the support of the linear and nonlinear optimization theory, support vector machines have many advantages, such as high fitting precision, few parameters, strong generalization and global optimums performances. It is ve

13、ry good to solve the small sample high noise, more outliers, and high dimension classification and regression problems in data mining. Now it becomes a new research area in the field of machine learning research and it has been widely applied into various areas, such as pattern recognition, function

14、 fitting and density estimation. This paper mainly focus on the extracting important diseasecausing gene from tumor characteristics, the application of fuzzy membership in the support vector machine, the classification of the imbalances data and the properties and the application of the double regul

15、arization support vector machine (SVM) etc. The main research work is as follows: 1. According to the characteristics of the colon cancer gene expression profiles with high dimension, small sample and great noise ,a method was proposed to measure the tumor gene with Bhattacharyya distance and to rem

16、ove the genes irrelevant to the classification task.Next the method extract secondly the tumor gene by utilizing the sensitivity of the tumor gene on model. Simultaneously, a weight was added to the important genes depending on the normalization of the sensitivity and a new sample dataset was built. Finally a support vector machine was used to analyze and test the feature genes on the new sample dataset. Experim

展开阅读全文