统计学习聚类方法的应用研究论文设计

上传人:王*** 文档编号:180036312 上传时间:2021-04-15 格式:DOCX 页数:24 大小:380.21KB
返回 下载 相关 举报
统计学习聚类方法的应用研究论文设计_第1页
第1页 / 共24页
统计学习聚类方法的应用研究论文设计_第2页
第2页 / 共24页
统计学习聚类方法的应用研究论文设计_第3页
第3页 / 共24页
统计学习聚类方法的应用研究论文设计_第4页
第4页 / 共24页
统计学习聚类方法的应用研究论文设计_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《统计学习聚类方法的应用研究论文设计》由会员分享,可在线阅读,更多相关《统计学习聚类方法的应用研究论文设计(24页珍藏版)》请在金锄头文库上搜索。

1、统计学习聚类方法的应用研究摘要聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程.聚类分析作为一种有效的数据分析手段,能够帮助人们认识和揭示事物之间的内在联系,它已被广泛应用到数据压缩、图像处理、计算机视觉、文本聚类和异常点检测等领域.本文首先展示了统计学习的理论基础,然后详细介绍了k-均值法、基于图的谱聚类、自组织神经网络、层次聚类等聚类方法,最后使用k-均值算法来判断中国乒乓球水平以及利用谱聚类来实现图像分割等应用关键词:k-均值法;谱聚类;自组织学习;层次聚类 Research on Application of Statistical Learning Clust

2、ering MethodABSTRACTCluster analysis refers to the analysis process of grouping a set of physical or abstract objects into multiple classes composed of similar objects. As an effective means of data analysis, clustering analysis can reveal the internal relationship between things. It has been widely

3、 used in data compression, image processing, computer vision, text clustering, outlier detection and other fields. This paper first shows the theoretical basis of statistical learning, then introduces the k-means method, spectrum clustering based on graph, self-organizing neural network, hierarchica

4、l clustering and other clustering methods in detail, and finally uses k-means algorithm to judge the level of Chinese table tennis and uses spectrum clustering to achieve image segmentation.Keywords: K-means; Spectral Clustering; Self-Organized Learning; Hierarchical Clustering22目录摘要IABSTRACTII1研究意义

5、和目的11.1研究意义.11.2研究目的.11.3研究现状.11.4本文主要工作.12统计学习的理论基础.22.1假设空间22.2决策函数22.3优化算法22.4模型评估及选择23聚类方法33.1k-均值法33.2基于图像的谱聚类33.3自组织竞争学习神经网络模型.33.4层次聚类算法.34统计学习聚类方法的应用44.1基于k-均值法来判断各国乒乓球水平44.2层次聚类应用65结论与进一步的工作115.1结论和认识.115.2进一步的工作.11参考文献12致谢131 研究意义和目的1.1 研究意义 随着时代的飞速发展,各行业为了记录或保留重要内容便产生了庞杂的数据,大数据时代随之而来,人们利用

6、聚类方法对大数据进行处理2.聚类技术已经在诸如:社会学领域、体育领域、计算机视觉领域等得到了广泛应用.作为一种有效的数据分析手段,它已被广泛应用到数据压缩、图像处理、计算机视觉、文本聚类和异常点检测等领域1,4.许多聚类方法简单、容易实现、能得到全局最优解和对任意形状的数据空间进行聚类分析等.本文在详细阐述聚类分析的理论的同时还采纳各方学者的先进观点就身边的一些实例进行分析并应用在具体实例上.比如农业无人机的应用5,这使得我国农业发展有了可靠的科学依据,让农业不在停留在原始时代.最近影响我国及世界的新型冠状病毒让人们感到非常棘手,我国能迅速遏制疫情也离不开中医的预防治疗,沈洁8等探讨中医药的组

7、方特点及用药规律成为新冠肺炎复方中药开发的数据支持,以数据推动方法对中药方剂进行对比研究,能有效体现出各配方的效果,让枯燥的数学应用于活灵活现的现实生活中,为人们解决实际问题.1.2 研究目的聚类分析在研究目的上与判别分析有所不同,前者主要是研究事物的分类.而判别分析则是在建立判别函数之前,先对各种判别的类型和数目进行熟悉,并以判别函数对来自各判别类型的样本进行归类.聚类分析则是在不清楚样品中的类型和分类情况下,对数据进行分类的一种解决办法.聚类分析将分类对象按一定规则分成组或类,并且所分成的组或类是根据数据特征而定的不是事先确定的.在某种意义上,在不同类中对象之间大多不相似,而同一个给定的类

8、中所有对象彼此之间都有一定的相似性.1.3 研究现状 目前对聚类分析的研究已经有了长足的进展,由于其研究方向的交叉特性而被人们所认同.聚类分析在识别数据的内在结构方面意义重大,并且在数据挖掘方向是较为重要研究内容之一6.组合聚类是处理数据挖掘的手段之一,童绪军3等提出一种改进谱组合聚类算法,采用增强拉格朗日乘数算法求解,提高了聚类性.随着聚类方法的不断扩展,许多聚类方法都被改进,新的改进算法被提出,打破了旧的理论束缚,让聚类研究得到发展;其中传统的K-均值法聚类的结果不稳定,因为它的初始聚类中心是在数据集中随机产生的;傅德胜等7提出一种改进的K-均值算法,该算法基于密度算法优化初始聚类中心,消

9、除对初始聚类中心的依赖,使得聚类结果大有改进.不仅如此,K-均值法也依赖初始聚类中心经验参数,对此陈靖飒9等提出新型高效无参数聚类方法,它是基于最小生成树的无参数化聚类MNC算法,相对于传统算法,该算法能识别不同型状的数据簇,而且还能减少聚类时间提高效率.聚类算法作为近年来的研究热点问题已经在该领域内引发了巨大的研究热潮.我国对于这类算法的挖掘已有几十年的历史,相对研究得比较深入,聚类方法在人们不断探索下正在飞速发展.1.4 本文主要工作本文主要论述了什么是聚类方法,以及聚类方法常用的方法,主要包括:k-均值法、基于图的谱聚类、自组织竞争学习神经网络模型、层次聚类算法等等.通过对聚类算法基本知

10、识的了解,逐渐认识了聚类方法的应用方向,并就其中的某些方法进行实例分析;最终学会如何利用数学知识解决实际问题,达到学以致用的目的.2 统计学习的理论基础2.1 假设空间通常我们称机器学习中一些可能的函数所构成的空间叫做假设空间,假设空间表达了输入到输出的一种映射集合;表示成是样本输入,是样本输出,是关系函数,于是所有可能结果组成了假设空间.函数的类型大多是明确的,需要计算它的参数,比如知道是一个线性函数,那么就可以表示成,接下来就要计算参数和的值,这种前提下假设空间表示成,为的参数取值空间.2.2 决策函数 决策函数是一个样本空间到一个行动空间的可测映射集合.例如在一个模式中抽取个特征,表示成

11、,是维空间中的一个向量,根据模式个特征找出判别模式属于类中的哪类.如下图中提到的分类问题,决策函数就是这三类的分界线. 图1 分类图2.3 优化算法 我们每个人都会在生活或者工作中遇到各种各样的优化问题,学习和工作中遇到的大多数问题都可以建立模型进行求解.比如在机器学习算法,大部分机器学习算法本质都是建立优化模型,常见的优化方法有梯度下降法等.梯度下降法是最简单、最常用的优化方法,当目标函数是凸函数时,它的解是全局解.梯度下降法是2范数下的最速下降法.最速下降法简单形式是: 其中代表每一次搜素,且是的梯度.通过变量轮换法、共轭方向法等的讨论,我们知道对多维无约束问题优化总是将其转化为在一系列选

12、定方向进行一维搜索,一步步将目标函数值降低,直到与目标函数的极小点相逼近;而方向的选择与迭代速度、计算效率关系很大.维无约束极小化问题可根据函数在其正梯度的相反方向上其函数值下降最快的原理而转变为目标函数在正梯度相反方向的一维搜索,这就成为梯度法的基本构想.对此,将无约束优化迭代中的搜索方向确定为单位负梯度向量,其通式为,梯度法迭代公式可由以下两种形式表示:,其中函数在迭代点处的梯度和梯度的模分别为梯度法迭代公式的两种表示中都是最优步长因子,两式分别以一维极小化和对上述两公式进行若干次一维搜索,将上次迭代的终点作为下次迭代的起始点,就能达到迭代点向目标函数极小点不断逼近的效果.目标函数的极小点,以点距准则或梯度准则作为迭代停止运行的条件,若或时,表示迭代结束.2.4 模

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 理学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号