2023年大数据课程报告

上传人:新** 文档编号:509478184 上传时间:2023-10-12 格式:DOCX 页数:22 大小:22.69KB
返回 下载 相关 举报
2023年大数据课程报告_第1页
第1页 / 共22页
2023年大数据课程报告_第2页
第2页 / 共22页
2023年大数据课程报告_第3页
第3页 / 共22页
2023年大数据课程报告_第4页
第4页 / 共22页
2023年大数据课程报告_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《2023年大数据课程报告》由会员分享,可在线阅读,更多相关《2023年大数据课程报告(22页珍藏版)》请在金锄头文库上搜索。

1、2023年大数据课程报告 摘 要 流形学习方法作为一类新兴的非线性维数约简方法,主要目标是获取高维观测数据的低维紧致表示,探索事物的内在规律和本征结构,已经成为数据挖掘、模式识别和机器学习等领域的研究热点。流形学习方法的非线性本质、几何直观性和计算可行性,使得它在许多标准的 toy 数据集和实际数据集上都取得了令人满意的结果,然而它们本身还存在着一些普遍性的问题,比如泛化学习问题、监督学习问题和大规模流形学习问题等。因此,本文从流形学习方法存在的问题出发,在算法设计和应用(图像数据与蛋白质相互作用数据)等方面展开了一系列研究工作。首先对流形学习的典型方法做了详细对比分析,然后针对流形的泛化学习

2、和监督学习、表征流形的局部几何结构、构造全局的正则化线性回归模型、大规模数据的流形学习等几个方面进行了重点研究,提出了三种有效的流形学习算法,并和相关研究成果进行了理论与实验上的比较,从而验证了我们所提算法的有效性。 关键词:流形学习,维数约简,正交局部样条判别投影,局部多尺度回归嵌入 I 目录 目录 .II 第1章 研究背景 .1 1.1 流形学习的研究背景 .1 1.2 流形学习的研究现状 .2 1.3 流形学习的应用 .4 第2章 流形学习方法综述 .5 2.1 流形学习方法介绍 .6 第3章 流形学习方法存在的问题 .9 3.1 本征维数估计 .9 3.2近邻数选择 .10 3.3 噪

3、声流形学习.10 3.4 监督流形学习.11 第4章 总结 .11 II 第1章 研究背景 1.1 流形学习的研究背景 随着信息时代的到来,使得数据集更新更快、数据维度更高以及非结构化性等问题更突出。在科研研究的过程中不可避免地遇到大量的高维数据,这就需要一种技术能够使在保持数据信息足够完整的意义下从海量数据集中提取出有效而又合理的约简数据,满足人的存储需求和感知需要。流形学习这一非监督学习方法应运而生,引起越来越多机器学习和认知科学工作者的重视。而在海量的高维数据中,往往只有少量的有用信息,如果想快速高效的搜集到人们想要的、有用的那些少量信息且快速的处理信息,这就需要一些关键技术的支持,即是

4、必须采用相应的降维技术。而流形学习正是在数据降维方面有着重要的贡献。然而,降维的过程与矩阵分析中的内容有着密切的关系。 基于流形的降维方法能充分利用数据中所隐藏的低维有价值信息,进一步提高检索性能。Seung从神经心理学的角度提出“感知以流形的形式存在,视觉记忆也可能是以稳态的流形存储”,为流形提供了与人类认识相关的理由。流形学习的方法主要有主成分分析(PCA)、多维尺度化(MDS)、基于局部切空间排列法(LTSA)和基于等度规映射(ISOMAP)、局部线性嵌入算法(LLE)、拉普拉斯特征映射(LE)等。另外,流形学习方法在人脸识别、图像处理、模式识别、计算机视觉、认知科学、人工智能、人机交互

5、等众多学科中有着广泛的应用。 线性维数约简方法是通过在高维输入空间与低维子空间之间建立线性映射关系,把高维数据样本集投影到低维线性子空间。线性维数约简技术通常假设数据集采样于一个全局线性的高维观测空间。如果所要处理的数据集分布确实呈现出全局线性的结构,或者在一定程度上可以近似为全局线性结构,则这些方法能够有效地挖掘出数据集内在的线性结构,获得数据紧致的低维表示。在线性维数约简方法中,使用最广泛的算法有主分量分析(Principal Component Analysis, PCA)(Jolliffe, 2023; Turk and Pentland, 1991) 1 和线性判别分析(Linear

6、 Discriminant Analysis, LDA)(Duda et al., 2023)。 主分量分析(PCA)主要是根据高维数据在低维空间重构误差最小的原则,来寻找一组最优的单位正交向量基(即主分量),并通过保留数据分布方差较大的若干主分量来达到降维的目的。然而,众所周知,由于 PCA 算法没有利用数据样本的类别信息,所以它是一种非监督的线性维数约简方法。与 PCA 算法不同,LDA 算法考虑到样本的类别信息,它是一种有监督的方法。基于各类样本服从高斯分布且不同类的协方差矩阵相同的假设,LDA 算法在 Fisher 准则下选择最优的投影向量,以使得数据样本的类间散度最大而类内散度最小。

7、由于 LDA 算法利用了样本的类别信息,而样本的类别信息通常有助于改善识别率,因此 LDA 算法更适用于分类问题。 1.2 流形学习的研究现状 流形学习假定输入数据是嵌入在高维观测空间的低维流形上,流形学习方法的目的是找出高维数据中所隐藏的低维流形结构。经过十多年的研究与探索,人们提出了大量的流形学习理论与算法。经典的流形学习方法有等距特征映射算法(ISOMAP)(Tenenbaum et al., 2000)、局部线性嵌入算法(LLE)(Roweis and Saul, 2000; Saul and Roweis, 2023)、Laplacian 特征映射算法(Laplacian Eigen

8、maps,LE)(Belkin and Niyogi, 2023; Belkin and Niyogi, 2023)、Heian特征映射算法(Heian-based Locally Linear Embedding,HLLE)(Donoho and Grimes, 2023)、最大差异展开算法(Maximum Variance Unfolding,MVU)(Weinberger et al., 2023; Weinberger and Saul, 2023; Weinberger and Saul, 2023; Weinberger et al., 2023)、局部切空间排列算法(Local

9、Tangent Space Alignment, LTSA)(Zhang and Zha, 2023)、黎曼流形学习算法(Riemannian Manifold Learning, RML)(Lin and Zha, 2023; Lin et al., 2023)和局部样条嵌入算法(Local Spline Embedding,LSE)(Xiang et al., 2023; Xiang et al., 2023)等。 Tenenbaum 提出的 ISOMAP 算法是多维尺度分析(Multidimensional Scaling, MDS)(Cox and Cox, 1994)在流形框架下的非

10、线性推广,其核心思想是用测地距离代替欧氏距离来表征流形上数据点的内在几何关系。对于样本 2 点和它的近邻点之间的测地距离用它们之间的欧氏距离来代替;对于样本点和近邻点之外的点之间的测地距离用它们之间的最短路径来代替。Bernstein 等人证明了只要样本是随机抽取的,在样本集足够大且选择适当近邻参数k 时,近邻图上两点的最短路径可以逼近它们的测地距离(Bernstein et al., 2000)。当应用于内蕴平坦的凸流形时,ISOMAP 算法能够忠实地捕获数据内在的低维流形结构(De Silva and Tenenbaum, 2023)。 ISOMAP 算法的主要缺点在于: 对样本点的噪声比

11、较敏感; 对于具有较大曲率或稀疏采样的数据集,不能发现其内在的本征结构; 需要计算全体数据集的测地距离矩阵,因此算法的时间复杂度较高。围绕 ISOMAP算法,已经出现了许多相关的理论分析与研究工作。 Balasubramanian 等人对ISOMAP 算法的拓扑稳定性进行了深入探讨 (Balasubramanian and Schwartz, 2023)。对于数据分布所在的低维流形具有较大的内在曲率情况,de Silva 和Tenenbaum 提出了保角等距特征映射算法(conformal ISOMAP)(De Silva and Tenenbaum, 2023)。为了减小 ISOMAP 算法的计算复杂度,de Silva 和 Tenenbaum提出了带标记的等距特征映射算法(Landmark ISOMAP)(De Silva and Tenenbaum, 2023)。 针对 ISOMAP 算法对于数据集噪声敏感的问题,Choi 等人通

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号