清华大学数据可视化教程高维数据可视化v3_9509917

资源描述

《清华大学数据可视化教程高维数据可视化v3_9509917》由会员分享，可在线阅读，更多相关《清华大学数据可视化教程高维数据可视化v3_9509917（98页珍藏版）》请在金锄头文库上搜索。

1、高维数据可视化高维数据可视化计算机系胡事民清华大学“大数据”系列课程高维数据可视化高维数据可视化数据维度数据维度高维数据可视化高维数据可视化数据变换数据变换数据呈现数据呈现数据交互数据交互数据维度数据维度一维数据一维数据通过柱状图、饼图等表达通过柱状图、饼图等表达 “eaten or not” 单独的一个bar代表一个一维数据数据维度数据维度二维数据二维数据可使用平面坐标系表达可使用平面坐标系表达数据维度数据维度三维数据三维数据可使用空间坐标系表达，本质也是二维的投影可使用空间坐标系表达，本质也是二维的投影人类的视觉感知系统很难脱离三维空间定势，对三维空间

2、的理解已远没有二维直观人类的视觉感知系统很难脱离三维空间定势，对三维空间的理解已远没有二维直观数据维度数据维度多维数据多维数据怎样在视觉空间（三维空间怎样在视觉空间（三维空间/二维平面）上表达？二维平面）上表达？姓名身高体重年龄性别教育程度籍贯姓名身高体重年龄性别教育程度籍贯张三180cm65kg23男大学上海李四168cm55kg18女高中浙江赵五175cm75kg53男初中广东高维数据可视化的简单思路高维数据可视化的简单思路在二维在二维/三维图表上增加视觉通道，以表达更多的属性信息三维图表上增加视觉通道，以表达更多的属性信息散点的形状、填充形式、颜

3、色、大小等散点的形状、填充形式、颜色、大小等高维数据可视化的简单思路高维数据可视化的简单思路 “多视图协同关联”“多视图协同关联” 不同的视图表示数据的一部分属性不同的视图表示数据的一部分属性更高维度更高维度增加视觉通道？增加视觉通道？人眼能同时处理的视觉通道只有人眼能同时处理的视觉通道只有5-7种种增加视图？增加视图？每一视图都只能显示数据的局部属性难以直观显示数据的整体属性每一视图都只能显示数据的局部属性难以直观显示数据的整体属性在信息可视化中，现实的数据往往具有很高的维度在信息可视化中，现实的数据往往具有很高的维度高维数据的特点高维数据的特点真实的数据虽然具

4、有较高维度，但不同的属性之间往往具有非常强的内在关联性，例如汽车样本数据可能同时包含：真实的数据虽然具有较高维度，但不同的属性之间往往具有非常强的内在关联性，例如汽车样本数据可能同时包含：最大速度（千米最大速度（千米/小时）小时）最大速度（英里最大速度（英里/小时）小时）发动机功率发动机功率发动机排量发动机排量比例关系比例关系正相关正相关高维数据的特点高维数据的特点高维高维 vs 多元多元高维：数据具有多个独立属性高维：数据具有多个独立属性多元：数据具有多个相关属性多元：数据具有多个相关属性还是刚才的例子还是刚才的例子最大速度（千米最大速度（千米/小时）小时）

5、最大速度（英里最大速度（英里/小时）小时）发动机功率发动机功率发动机排量发动机排量最大里程最大里程高维数据可视化高维数据可视化数据维度数据维度高维数据可视化高维数据可视化数据变换数据变换数据呈现数据呈现数据交互数据交互数据变换数据变换降低维度：使用线性或非线性变换把高维数据投影到低维空间，去掉冗余属性。降低维度：使用线性或非线性变换把高维数据投影到低维空间，去掉冗余属性。目标：投影后保留重要的关系目标：投影后保留重要的关系减少信息损失减少信息损失保持数据区分度保持数据区分度降低维度降维方法降维方法线性方法线性方法主成分分析（主成分分析（PCA）多维

6、尺度分析（多维尺度分析（MDS）非线性方法非线性方法等距特征映射等距特征映射(ISOMAP) 局部线性嵌套（局部线性嵌套（LLE）主成分分析（主成分分析（PCA）一种常用的分析和简化数据的技术一种常用的分析和简化数据的技术定义了一个正交变换，将高维多元数据变换到一个新的低维坐标系统定义了一个正交变换，将高维多元数据变换到一个新的低维坐标系统，使得数据投影的第一大方差在第一个坐标上，第二大方差在第二个坐标上，以此类推，使得数据投影的第一大方差在第一个坐标上，第二大方差在第二个坐标上，以此类推主成分分析（主成分分析（PCA）通过下面的简单物理模型来直观表述通过下面的简

7、单物理模型来直观表述PCA的目的：的目的：假设在图中放置一个弹簧小球，小球沿着假设在图中放置一个弹簧小球，小球沿着x轴方向往复运动，同时我们在空间中放置了三台相机来捕获小球的运动轨迹。轴方向往复运动，同时我们在空间中放置了三台相机来捕获小球的运动轨迹。由于小球只沿着由于小球只沿着x轴方向往返运动，一个垂直于轴方向往返运动，一个垂直于x轴的相机就可以最大程度的刻画小球的运动，但我们在图中的三个相机中都检测到了小球的运动，因为这三个相机得到的数据隐藏了冗余的信息。轴的相机就可以最大程度的刻画小球的运动，但我们在图中的三个相机中都检测到了小球的运动，因为这三个相机得到的数据隐藏

8、了冗余的信息。 PCA可以快速地去除冗余信息，从而定位到刻画小球运动最本质的特征。可以快速地去除冗余信息，从而定位到刻画小球运动最本质的特征。主成分分析（主成分分析（PCA）假设我们得到的假设我们得到的2维数据如下：维数据如下：列代表了样例，这里有列代表了样例，这里有10个样例个样例行代表特征，每个样例两个特征行代表特征，每个样例两个特征 x2.50.52.21.93.12.3211.51.1 y2.40.72.92.23.02.71.61.11.60.9 主成分分析（主成分分析（PCA） 0 0.5 1 1.5 2 2.5 3 3.5 00.511.522.533.5 主成分

9、分析（主成分分析（PCA）第一步，样本去中心化：分别求第一步，样本去中心化：分别求x和和y的平均值，然后对于所有的样例，都减去对应的均值的平均值，然后对于所有的样例，都减去对应的均值 x的均值是的均值是1.81 y的均值是的均值是1.91 x2.50.52.21.93.12.3211.51.1 y2.40.72.92.23.02.71.61.11.60.9 x0.69-1.310.390.091.290.490.190.810.310.71 y0.49-1.210.990.291.090.79-0.31-0.81-0.31-1.01 主成分分析（主成分分析（PCA）第二步，求特征协方

10、差矩阵：第二步，求特征协方差矩阵：物理含义：对角线上分别是x和y的方差，非对角线上是协方差。协方差大于0表示x和y若有一个增，另一个也增；小于0表示一个增，一个减；协方差为0时，两者独立。协方差绝对值越大，两者对彼此的影响越大，反之越小。 = 主成分分析（主成分分析（PCA）第三步，特征分解：求协方差矩阵的特征值和特征向量，得到第三步，特征分解：求协方差矩阵的特征值和特征向量，得到 = 主成分分析（主成分分析（PCA）第四步，将特征值按照从大到小的顺序排序，选择其中最大的第四步，将特征值按照从大到小的顺序排序，选择其中最大的k个，然后将其对应的个，然后将其对应的k个特征

11、向量分别作为列向量组成特征向量矩阵。个特征向量分别作为列向量组成特征向量矩阵。这里特征值只有两个，我们选择其中最大的那个，这里是1.2840，对应的特征向量是: (-0.6779, -0.7353)T 主成分分析（主成分分析（PCA）第五步，将样本点投影到选取的特征向量上第五步，将样本点投影到选取的特征向量上,假设样本数为假设样本数为m，特征数为，特征数为n. 减去均值后的样本矩阵为减去均值后的样本矩阵为 ? ，协方差矩阵是协方差矩阵是，选取的选取的k个特征向量组成的矩阵个特征向量组成的矩阵那么将那么将n维特征降维成维特征降维成k维特征后的结果为维特征后的结果为: ?

12、主成分分析（主成分分析（PCA）在这个例子中，我们取在这个例子中，我们取k=1，得到将原始数据从两维降到一维后的结果：，得到将原始数据从两维降到一维后的结果： x2.50.52.21.93.12.3211.51.1 y2.40.72.92.23.02.71.61.11.60.9 Final Data-0.831.78-0.99-0.27-1.68-0.910.101.140.441.22 主成分分析（主成分分析（PCA）物理含义：将数据投影到了一个能更好刻画数据特征的正交坐标系中物理含义：将数据投影到了一个能更好刻画数据特征的正交坐标系中 * * * * * * * * * *

13、 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 数据点数据点第一主成分第一主成分第二主成分第二主成分原始坐标轴原始坐标轴算法回顾算法回顾假设有假设有m个数据，每个数据个数据，每个数据n个属性个属性数据预处理：所有属性减去其平均值数据预处理：所有属性减去其平均值计算属性之间的协方差矩阵，该矩阵是一个计算属性之间的协方差矩阵，该矩阵是一个n*n的对称矩阵的对称矩阵计算协方差矩阵的特征值和特征向量，将特征值从大到小排序保留最上面的计算协方差矩阵的特征值和特征向量，将特征

14、值从大到小排序保留最上面的k个特征向量个特征向量将原数据映射到由将原数据映射到由k个特征向量张成的新空间中，从而达到将数据从个特征向量张成的新空间中，从而达到将数据从n维降到维降到k维的目的维的目的主成分分析（主成分分析（PCA） PCA算法之所以能达到预期的目的，其内在原理为这种变换能够：算法之所以能达到预期的目的，其内在原理为这种变换能够：最大化投影后的方差最大化投影后的方差最小化投影后的误差最小化投影后的误差这两条原理本质上是等价的，从这两个角度都可以推导出这两条原理本质上是等价的，从这两个角度都可以推导出PCA算法的结论。算法的结论。最大方差理论最大方差

15、理论最大方差理论最大方差理论方差描述了信号的信息量方差描述了信号的信息量在信号处理中认为信号具有较大的方差，噪声有较小的方差在信号处理中认为信号具有较大的方差，噪声有较小的方差所谓信噪比就是信号与噪声的方差比，这个量越大越好所谓信噪比就是信号与噪声的方差比，这个量越大越好最大方差理论最大方差理论我们希望将数据从我们希望将数据从n维投影到维投影到k维后，每一维的方差都很大，比如下图有维后，每一维的方差都很大，比如下图有5个样本点：（已经做过预处理，均值为个样本点：（已经做过预处理，均值为0，特征方差归一），特征方差归一）最大方差理论最大方差理论下面将样本投

16、影到某一维上，假设我们选择两条不同的直线做投影，那么左右两条中哪个好呢？下面将样本投影到某一维上，假设我们选择两条不同的直线做投影，那么左右两条中哪个好呢？方差更大方差更大最大方差理论最大方差理论红色点表示样例红色点表示样例 ? ，蓝色点表示，蓝色点表示 ? 在在u上的投影，上的投影， u是直线的斜率也是直线的方向向量，而且是单位向量是直线的斜率也是直线的方向向量，而且是单位向量, 由于这些样本点（样例）的每一维特征均值都为由于这些样本点（样例）的每一维特征均值都为 0，因此投影到，因此投影到u上的样本点的均值仍然是上的样本点的均值仍然是0。最大方差理论最大方差理论

展开阅读全文