去均值化和白化

上传人:kms****20 文档编号:39811073 上传时间:2018-05-19 格式:DOC 页数:2 大小:34KB
返回 下载 相关 举报
去均值化和白化_第1页
第1页 / 共2页
去均值化和白化_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《去均值化和白化》由会员分享,可在线阅读,更多相关《去均值化和白化(2页珍藏版)》请在金锄头文库上搜索。

1、 PCA:PCA 的具有 2 个功能,一是维数约简(可以加快算法的训练速度,减小内存消耗等),一是数据的可视化。PCA 并不是线性回归,因为线性回归是保证得到的函数是 y 值方面误差最小,而 PCA 是保证得到的函数到所降的维度上的误差最小。另外线性回归是通过 x 值来预测 y 值,而 PCA中是将所有的 x 样本都同等对待。在使用 PCA 前需要对数据进行预处理,首先是均值化,即对每个特征维,都减掉该维的平均值,然后就是将不同维的数据范围归一化到同一范围,方法一般都是除以最大值。但是比较奇怪的是,在对自然图像进行均值处理时并不是不是减去该维的平均值,而是减去这张图片本身的平均值。因为 PCA

2、 的预处理是按照不同应用场合来定的。自然图像指的是人眼经常看见的图像,其符合某些统计特征。一般实际过程中,只要是拿正常相机拍的,没有加入很多人工创作进去的图片都可以叫做是自然图片,因为很多算法对这些图片的输入类型还是比较鲁棒的。在对自然图像进行学习时,其实不需要太关注对图像做方差归一化,因为自然图像每一部分的统计特征都相似,只需做均值为 0 化就 ok 了。不过对其它的图片进行训练时,比如首先字识别等,就需要进行方差归一化了。PCA 的计算过程主要是要求 2 个东西,一个是降维后的各个向量的方向,另一个是原先的样本在新的方向上投影后的值。首先需求出训练样本的协方差矩阵,如公式所示(输入数据已经

3、均值化过):求出训练样本的协方差矩阵后,将其进行 SVD 分解,得出的 U 向量中的每一列就是这些数据样本的新的方向向量了,排在前面的向量代表的是主方向,依次类推。用 U*X 得到的就是降维后的样本值 z 了,即:(其实这个 z 值的几何意义是原先点到该方向上的距离值,但是这个距离有正负之分),这样 PCA 的 2 个主要计算任务已经完成了。用 U*z 就可以将原先的数据样本 x 给还原出来。在使用有监督学习时,如果要采用 PCA 降维,那么只需将训练样本的 x 值抽取出来,计算出主成分矩阵 U 以及降维后的值 z,然后让 z 和原先样本的 y 值组合构成新的训练样本来训练分类器。在测试过程中

4、,同样可以用原先的 U 来对新的测试样本降维,然后输入到训练好的分类器中即可。有一个观点需要注意,那就是 PCA 并不能阻止过拟合现象。表明上看 PCA 是降维了,因为在同样多的训练样本数据下,其特征数变少了,应该是更不容易产生过拟合现象。但是在实际操作过程中,这个方法阻止过拟合现象效果很小,主要还是通过规则项来进行阻止过拟合的。并不是所有 ML 算法场合都需要使用 PCA 来降维,因为只有当原始的训练样本不能满足我们所需要的情况下才使用,比如说模型的训练速度,内存大小,希望可视化等。如果不需要考虑那些情况,则也不一定需要使用 PCA 算法了。Whitening:Whitening 的目的是去

5、掉数据之间的相关联度,是很多算法进行预处理的步骤。比如说当训练图片数据时,由于图片中相邻像素值有一定的关联,所以很多信息是冗余的。这时候去相关的操作就可以采用白化操作。数据的 whitening 必须满足两个条件:一是不同特征间相关性最小,接近 0;二是所有特征的方差相等(不一定为 1)。常见的白化操作有 PCA whitening和 ZCA whitening。PCA whitening 是指将数据 x 经过 PCA 降维为 z 后,可以看出 z 中每一维是独立的,满足 whitening 白化的第一个条件,这是只需要将 z 中的每一维都除以标准差就得到了每一维的方差为 1,也就是说方差相等。公式为:ZCA whitening 是指数据 x 先经过 PCA 变换为 z,但是并不降维,因为这里是把所有的成分都选进去了。这是也同样满足 whtienning 的第一个条件,特征间相互独立。然后同样进行方差为 1 的操作,最后将得到的矩阵左乘一个特征向量矩阵 U 即可。ZCA whitening 公式为:

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号