清华大学数据可视化教程高维数据可视化v3_9509917

上传人:206****923 文档编号:91498897 上传时间:2019-06-29 格式:PDF 页数:98 大小:6.55MB
返回 下载 相关 举报
清华大学数据可视化教程高维数据可视化v3_9509917_第1页
第1页 / 共98页
清华大学数据可视化教程高维数据可视化v3_9509917_第2页
第2页 / 共98页
清华大学数据可视化教程高维数据可视化v3_9509917_第3页
第3页 / 共98页
清华大学数据可视化教程高维数据可视化v3_9509917_第4页
第4页 / 共98页
清华大学数据可视化教程高维数据可视化v3_9509917_第5页
第5页 / 共98页
点击查看更多>>
资源描述

《清华大学数据可视化教程高维数据可视化v3_9509917》由会员分享,可在线阅读,更多相关《清华大学数据可视化教程高维数据可视化v3_9509917(98页珍藏版)》请在金锄头文库上搜索。

1、高维数据可视化高维数据可视化 计算机系胡事民 清华大学“大数据”系列课程 高维数据可视化高维数据可视化 数据维度数据维度 高维数据可视化高维数据可视化 数据变换数据变换 数据呈现数据呈现 数据交互数据交互 数据维度数据维度 一维数据一维数据 通过柱状图、饼图等表达通过柱状图、饼图等表达 “eaten or not” 单独的一个bar代表一个一维数据 数据维度数据维度 二维数据二维数据 可使用平面坐标系表达可使用平面坐标系表达 数据维度数据维度 三维数据三维数据 可使用空间坐标系表达,本质也是二维的投影可使用空间坐标系表达,本质也是二维的投影 人类的视觉感知系统很难脱离 三维空间定势,对三维空间

2、的 理解已远没有二维直观 人类的视觉感知系统很难脱离 三维空间定势,对三维空间的 理解已远没有二维直观 数据维度数据维度 多维数据多维数据 怎样在视觉空间(三维空间怎样在视觉空间(三维空间/二维平面)上表达?二维平面)上表达? 姓名身高体重年龄性别教育程 度 籍贯姓名身高体重年龄性别教育程 度 籍贯 张三180cm65kg23男大学上海 李四168cm55kg18女高中浙江 赵五175cm75kg53男初中广东 高维数据可视化的简单思路高维数据可视化的简单思路 在二维在二维/三维图表上增加视觉通道,以表达更多 的属性信息 三维图表上增加视觉通道,以表达更多 的属性信息 散点的形状、填充形式、颜

3、色、大小等散点的形状、填充形式、颜色、大小等 高维数据可视化的简单思路高维数据可视化的简单思路 “多视图协同关联”“多视图协同关联” 不同的视图表示数据的一部分属性不同的视图表示数据的一部分属性 更高维度更高维度 增加视觉通道?增加视觉通道? 人眼能同时处理的视觉通道只有人眼能同时处理的视觉通道只有5-7种种 增加视图?增加视图? 每一视图都只能显示数据的局部属性 难以直观显示数据的整体属性 每一视图都只能显示数据的局部属性 难以直观显示数据的整体属性 在信息可视化中,现实的 数据往往具有很高的维度 在信息可视化中,现实的 数据往往具有很高的维度 高维数据的特点高维数据的特点 真实的数据虽然具

4、有较高维度,但不同的属性 之间往往具有非常强的内在关联性,例如汽车 样本数据可能同时包含: 真实的数据虽然具有较高维度,但不同的属性 之间往往具有非常强的内在关联性,例如汽车 样本数据可能同时包含: 最大速度(千米最大速度(千米/小时)小时) 最大速度(英里最大速度(英里/小时)小时) 发动机功率发动机功率 发动机排量发动机排量 比例关系比例关系 正相关正相关 高维数据的特点高维数据的特点 高维高维 vs 多元多元 高维:数据具有多个独立属性高维:数据具有多个独立属性 多元:数据具有多个相关属性多元:数据具有多个相关属性 还是刚才的例子还是刚才的例子 最大速度(千米最大速度(千米/小时)小时)

5、 最大速度(英里最大速度(英里/小时)小时) 发动机功率发动机功率 发动机排量发动机排量 最大里程最大里程 高维数据可视化高维数据可视化 数据维度数据维度 高维数据可视化高维数据可视化 数据变换数据变换 数据呈现数据呈现 数据交互数据交互 数据变换数据变换 降低维度:使用线性或非线性变换把高维数据 投影到低维空间,去掉冗余属性。 降低维度:使用线性或非线性变换把高维数据 投影到低维空间,去掉冗余属性。 目标:投影后保留重要的关系目标:投影后保留重要的关系 减少信息损失减少信息损失 保持数据区分度保持数据区分度 降低维度 降维方法降维方法 线性方法线性方法 主成分分析(主成分分析(PCA) 多维

6、尺度分析(多维尺度分析(MDS) 非线性方法非线性方法 等距特征映射等距特征映射(ISOMAP) 局部线性嵌套(局部线性嵌套(LLE) 主成分分析(主成分分析(PCA) 一种常用的分析和简化数据的技术一种常用的分析和简化数据的技术 定义了一个正交变换,将高维多元数据变换 到一个新的低维坐标系统 定义了一个正交变换,将高维多元数据变换 到一个新的低维坐标系统,使得数据投影的第 一大方差在第一个坐标上,第二大方差在第二 个坐标上,以此类推 ,使得数据投影的第 一大方差在第一个坐标上,第二大方差在第二 个坐标上,以此类推 主成分分析(主成分分析(PCA) 通过下面的简单物理模型来直观表述通过下面的简

7、单物理模型来直观表述PCA的目的:的目的: 假设在图中放置一个弹簧小球,小球沿着假设在图中放置一个弹簧小球,小球沿着x轴方向往复运动, 同时我们在空间中放置了三台相机来捕获小球的运动轨迹。 轴方向往复运动, 同时我们在空间中放置了三台相机来捕获小球的运动轨迹。 由于小球只沿着由于小球只沿着x轴方向往返运动,一个垂直于轴方向往返运动,一个垂直于x轴的相机就 可以最大程度的刻画小球的运动,但我们在图中的三个相机 中都检测到了小球的运动,因为这三个相机得到的数据隐藏 了冗余的信息。 轴的相机就 可以最大程度的刻画小球的运动,但我们在图中的三个相机 中都检测到了小球的运动,因为这三个相机得到的数据隐藏

8、 了冗余的信息。 PCA可以快速地去除冗余信息,从而定位到 刻画小球运动最本质的特征。 可以快速地去除冗余信息,从而定位到 刻画小球运动最本质的特征。 主成分分析(主成分分析(PCA) 假设我们得到的假设我们得到的2维数据如下:维数据如下: 列代表了样例,这里有列代表了样例,这里有10个样例个样例 行代表特征,每个样例两个特征行代表特征,每个样例两个特征 x2.50.52.21.93.12.3211.51.1 y2.40.72.92.23.02.71.61.11.60.9 主成分分析(主成分分析(PCA) 0 0.5 1 1.5 2 2.5 3 3.5 00.511.522.533.5 主成分

9、分析(主成分分析(PCA) 第一步,样本去中心化:分别求第一步,样本去中心化:分别求x和和y的平均值, 然后对于所有的样例,都减去对应的均值 的平均值, 然后对于所有的样例,都减去对应的均值 x的均值是的均值是1.81 y的均值是的均值是1.91 x2.50.52.21.93.12.3211.51.1 y2.40.72.92.23.02.71.61.11.60.9 x0.69-1.310.390.091.290.490.190.810.310.71 y0.49-1.210.990.291.090.79-0.31-0.81-0.31-1.01 主成分分析(主成分分析(PCA) 第二步,求特征协方

10、差矩阵:第二步,求特征协方差矩阵: 物理含义:对角线上分别是x和y的方差,非对角线上是协 方差。协方差大于0表示x和y若有一个增,另一个也增; 小于0表示一个增,一个减;协方差为0时,两者独立。协 方差绝对值越大,两者对彼此的影响越大,反之越小。 = 主成分分析(主成分分析(PCA) 第三步,特征分解:求协方差矩阵的特征值和 特征向量,得到 第三步,特征分解:求协方差矩阵的特征值和 特征向量,得到 = 主成分分析(主成分分析(PCA) 第四步,将特征值按照从大到小的顺序排序, 选择其中最大的 第四步,将特征值按照从大到小的顺序排序, 选择其中最大的k个,然后将其对应的个,然后将其对应的k个特征

11、 向量分别作为列向量组成特征向量矩阵。 个特征 向量分别作为列向量组成特征向量矩阵。 这里特征值只有两个,我们选择其中最大的那个, 这里是1.2840,对应的特征向量是: (-0.6779, -0.7353)T 主成分分析(主成分分析(PCA) 第五步,将样本点投影到选取的特征向量上第五步,将样本点投影到选取的特征向量上,假 设样本数为 假 设样本数为m,特征数为,特征数为n. 减去均值后的样本矩阵为减去均值后的样本矩阵为 ? , 协方差矩阵是协方差矩阵是, 选取的选取的k个特征向量组成的矩阵个特征向量组成的矩阵 那么将那么将n维特征降维成维特征降维成k维特征后的结果为维特征后的结果为: ?

12、主成分分析(主成分分析(PCA) 在这个例子中,我们取在这个例子中,我们取k=1,得到将原始数据 从两维降到一维后的结果: ,得到将原始数据 从两维降到一维后的结果: x2.50.52.21.93.12.3211.51.1 y2.40.72.92.23.02.71.61.11.60.9 Final Data-0.831.78-0.99-0.27-1.68-0.910.101.140.441.22 主成分分析(主成分分析(PCA) 物理含义:将数据投影到了一个能更好刻画数 据特征的正交坐标系中 物理含义:将数据投影到了一个能更好刻画数 据特征的正交坐标系中 * * * * * * * * * *

13、 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 数据点数据点 第一主成分第一主成分 第二主成分第二主成分 原始坐标轴原始坐标轴 算法回顾算法回顾 假设有假设有m个数据,每个数据个数据,每个数据n个属性个属性 数据预处理:所有属性减去其平均值数据预处理:所有属性减去其平均值 计算属性之间的协方差矩阵,该矩阵是一个计算属性之间的协方差矩阵,该矩阵是一个n*n的 对称矩阵 的 对称矩阵 计算协方差矩阵的特征值和特征向量,将特征值从 大到小排序保留最上面的 计算协方差矩阵的特征值和特征向量,将特征

14、值从 大到小排序保留最上面的k个特征向量个特征向量 将原数据映射到由将原数据映射到由k个特征向量张成的新空间中, 从而达到将数据从 个特征向量张成的新空间中, 从而达到将数据从n维降到维降到k维的目的维的目的 主成分分析(主成分分析(PCA) PCA算法之所以能达到预期的目的,其内在原 理为这种变换能够: 算法之所以能达到预期的目的,其内在原 理为这种变换能够: 最大化投影后的方差最大化投影后的方差 最小化投影后的误差最小化投影后的误差 这两条原理本质上是等价的,从这两个角度都可以推 导出 这两条原理本质上是等价的,从这两个角度都可以推 导出PCA算法的结论。算法的结论。 最大方差理论最大方差

15、理论 最大方差理论最大方差理论 方差描述了信号的信息量方差描述了信号的信息量 在信号处理中认为信号具有较大的方差,噪声有较 小的方差 在信号处理中认为信号具有较大的方差,噪声有较 小的方差 所谓信噪比就是信号与噪声的方差比,这个量越大 越好 所谓信噪比就是信号与噪声的方差比,这个量越大 越好 最大方差理论最大方差理论 我们希望将数据从我们希望将数据从n维投影到维投影到k维后,每一维的 方差都很大,比如下图有 维后,每一维的 方差都很大,比如下图有5个样本点:(已经 做过预处理,均值为 个样本点:(已经 做过预处理,均值为0,特征方差归一),特征方差归一) 最大方差理论最大方差理论 下面将样本投

16、影到某一维上,假设我们选择两 条不同的直线做投影,那么左右两条中哪个好 呢? 下面将样本投影到某一维上,假设我们选择两 条不同的直线做投影,那么左右两条中哪个好 呢? 方差 更大 方差 更大 最大方差理论最大方差理论 红色点表示样例红色点表示样例 ? ,蓝色点表示,蓝色点表示 ? 在在u上的投影,上的投影, u是直线的斜率也是直线的方向向量,而且是单位向 量 是直线的斜率也是直线的方向向量,而且是单位向 量, 由于这些样本点(样例)的每一维特征均值都为由于这些样本点(样例)的每一维特征均值都为 0,因此投影到,因此投影到u上的样本点的均值仍然是上的样本点的均值仍然是0。 最大方差理论最大方差理论

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 其它中学文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号