扩散映射

上传人:小** 文档编号:90268904 上传时间:2019-06-10 格式:DOC 页数:4 大小:45.21KB
返回 下载 相关 举报
扩散映射_第1页
第1页 / 共4页
扩散映射_第2页
第2页 / 共4页
扩散映射_第3页
第3页 / 共4页
扩散映射_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《扩散映射》由会员分享,可在线阅读,更多相关《扩散映射(4页珍藏版)》请在金锄头文库上搜索。

1、 在已经出现过的特征选择算法中,比如说拉普拉斯线性判别分析(LLDA)的有监督的特征选择算法以及基于递归消除的拉普拉斯线性判别分析(LLDA-RFE)的无监督的特征选择算法。但这些算法有一个共同的缺点就是忽略了特征之间的相关性。在已有的文献中提到了一种基于特征相关性分组的拉普拉斯评分的无监督的特征选择算法,把特征之间的相关性考虑在内,取得了不错的成果,但是如果我们的研究对象是一个维数比较大的数据集或者说是样本集,而不再是特征,我们仍然可以把样本视为特征进行研究,那么此时仅仅考虑数据间的相似性是远远不够的,数据的内在几何结构也应考虑在内,这样才可以保证选取的样本是比较理想的,针对这个问题,我们在

2、本文中提出了一个基于扩散映射分组的特征选择算法,因为扩散映射的主要思想是在数据集上构造一个扩散图,用扩散距离来描述数据间的相似度,使用一系列的扩散核进行数据降维,从而避免了高维矩阵进行特征分解时的不稳定和不可行性。因此,扩散映射为揭示高维数据的复杂结构提供了一种重要的工具,开辟了新的研究方向【参考文献1:一种基于扩散映射的非线性降维算法】(1) 扩散映射扩散映射的框架来源于动力系统,在数据图上定义一个Markov随机游走,若一次转移概率为,表示从随机游走步的转移概率。通过若干时间步长的随机游走,得到数据点之间接近度的一种度量关系,有了这种度量,可以定义所谓的扩散距离,在数据的低维表示中,这种扩

3、散距离得以尽可能地保留。原空间中的扩散距离等于扩散空间中的欧氏距离,扩散距离的关键在于它是基于扩散图上的多条路径,因此较之测地距离,扩散距离对噪声更具有鲁棒性,扩散映射是通过一个扩散过程来进行降维的,在此过程中,逐渐滤除数据中不重要的信息,在这个扩散过程中,数据点之间的距离不是由一个单独的核,而是由一组核来定义的,并且该矩阵的大小也随着扩散在逐步降低,由于这一特征,扩散映射可用于处理高维数据。(可行性分析) 事实上,扩散的过程就是随着t(步长)的增加,由数据的局部连通性扩散到整个数据集上的全局连通性,其中这个连通性是由两点间的欧氏距离来衡量的,以此来得到数据集的全局几何结构。扩散过程:1. 定

4、义一个扩散核,设为,构造一个核矩阵K,有;核可以描述数据点之间的局部连接性,因此它捕捉了数据的局部几何特性,扩散映射的思想即是从包含在核的局部几何信息中构建数据的全局几何特性。本文中我们引用高斯核函数。其中这个核满足:对称性:=非负性:=0 2. 通过计算高斯函数来得到对应的一个扩散矩阵,定义为P; ;其中P这个扩散矩阵得到的就是关于样本相似度的一种度量。随着扩散的进行,我们逐步可以得到数据集的全局几何结构。3. 有了这种度量和数据的几何结构,接下来就可以定义所谓的扩散距离:4根据扩散距离的不同,我们选定阈值=(最大值-最小值)*10%+最小值,通过不断地迭代对样本进行分组;并确定最优的(参考

5、文献2:An Introduction to Diffusion Maps)。扩散映射作为一种新的非线性降维方法,能够保持数据间的距离,并加大不在同一邻域内数据之间的距离,事实证明,而且DMA算法具有比较强的抗噪性能。我们进行扩散进行分组的过程不同于利用特征相关性分组,利用特征相关性分组是给出一个公式计算两两之间的相关性,后设定一个阈值,大于这个阈值则认定为是一组的,分出来后两两一组是确定不变的,然而利用扩散映射进行分组则完全取决于扩散距离的大小,本文中是以概率来代替距离,所以距离越小越好,当然就是与越接近越好,如果存在两个样本点A,B到同一个样本点C的距离是相等的,则说明这两个样本点与C都是相关的,我们就可以把A,B,C视为一组,以此类推,这样得到的分组结果将不再是两两一组,而是随机的。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号