机器学习算法分享——《svd》

上传人:n**** 文档编号:118689642 上传时间:2019-12-22 格式:PPT 页数:35 大小:460.41KB
返回 下载 相关 举报
机器学习算法分享——《svd》_第1页
第1页 / 共35页
机器学习算法分享——《svd》_第2页
第2页 / 共35页
机器学习算法分享——《svd》_第3页
第3页 / 共35页
机器学习算法分享——《svd》_第4页
第4页 / 共35页
机器学习算法分享——《svd》_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《机器学习算法分享——《svd》》由会员分享,可在线阅读,更多相关《机器学习算法分享——《svd》(35页珍藏版)》请在金锄头文库上搜索。

1、SVD 特征值 奇异值 Netflix Prize背景介绍 目标: 悬赏100万美元,将Netflix的推荐算法预测准确度提高10%。 数据结构: 用户ID、电影名称、日期、分数(1-5之间的整数) 训练数据: 48万用户对两万部电影的上亿条评分 包括一个与测试数据集分布相同的probe数据集,包含06年附近140多万条的 数据点,每个用户至少对9部电影进行了打分,服从正态分布。 测试数据: 280万个数据点(隐藏的,参赛选手不能获得,并且参赛选手自己也不能获得 自己模型作用在测试数据集上的最终效果) 评测标准:均方误差根 CineMatch精度:0.951 数据示例1 数据示例2 movie

2、 1 movie 2 movie 3 movie 4 movie 5 movie 6 movie 7 movie 8 movie 9 movie 10 user11212442231 user22211111321 user31222341122 user42431133114 user54112132344 user64133234444 user71444211124 user83142212231 user92212344411 user104332242123 黄色数据点代表probe数据集,用于参 赛选手自己做测试用 蓝色数据点代表最终的测试数据, 对参赛的人来说是隐藏的 矩阵运算(

3、1) 矩阵运算(2) mnnm mm nm mn nn 矩阵运算(3) 线性空间 线性空间:“客观”存在的一种空间,对加法和数乘具 有封闭性。 向量:既有大小又有方向的量,同时没有起点 线性空间的基:描述空间内向量的一组“特殊”的向量 ,空间内的所有向量都能被一组基的线性组合表示。 举例:直线就是一维的线性空间,平面就是二维线性空 间,三维立体空间就是三维线性空间。 线性空间的基 x=(1,0), y=(0,1), c(5,3)=5x+3y, 则c在基x,y下的坐标为(5,3); a=(1.5,1.5), b=(2,0), c=(5,3)=2a+b, 则c基a,b下的坐标为(2,1); 基实际

4、就是一组人为规定的 参照物,用来描述空间内的 其他向量 线性映射&线性变换 空间内的线性映射称之 为线性变换。 线性变换的矩阵表示 线性变换 二维空间上,对(x,y)做变换: 对应矩阵A 求解特征值 求解特征向量 特征值的几何意义(1) 特征值的几何意义(2) 特征值的几何意义(3) 对角化变换(特征值分解) 如果线性变换的特征向量可以构成线性空间的一组基,那么有 表示线性变换(矩阵)可以由其特 征根和特征向量还原 方阵还原 矩阵维度相当大时,可以用对角化变化的方法来逼近矩阵: 特征向量:矩阵的特征 特征值:各特征所占的 权重 思考1 特征值分解使用条件有限,仅适用于方阵,且要求是实 对称矩阵

5、。 试想:如果需要分析的矩阵不是方阵(事实经常如此) ,该怎样处理呢? SVD简介 SVD:奇异值分解 SVD可以看做是特征值分解的一种推广,或者说特 征值分解可以看作是SVD的一种特例。当矩阵不是 方阵时同样适用,应用很广。 SVD分解(1) 非零奇异值,从大 到小依次排序 左奇异向量 右奇异向量 SVD分解(2) 奇异值从大到小依 次排序 SVD分解(3) 奇异值从大到小依 次排序 SVD算法解析 可以看作是矩阵A的“平方”,而奇异值又是A“平方”阵的特征根的 开方,因此奇异值值可以看作是矩阵A的“伪伪特征向量”,左奇异向量 可以看作矩阵A的“行特征向量”,右奇异向量可以看作是矩阵A的“

6、列特征向量”。 奇异值从大到小依 次排序 SVD矩阵近似(1) 奇异值从大到小 依次排序 SVD矩阵近似(2) SVD应用推荐算法 会员员 电电影 喜剧剧恐怖 偏好ID宿醉 东成西 就 大话西 游 八星报 喜 午夜凶 铃 咒怨 林中小 屋 寂静岭 喜剧剧 至尊宝44552323.75 小小宝55542231 流氓兔54452312 霹*雳54553 212 中原不败45542 132 恐怖 魂飞魄散123253.87555 荒村少年31224544 憨豆豆21324545 怪大叔22315554 美味僵尸13214545 SVD矩阵变换 44552323.75 55542231 5445231

7、2 54553 212 45542 132 123253.87555 31224544 21324545 22315554 13214545 4555413221 4544521123 5545532332 5455422211 2223 2 54454 32321 3.87 5 5555 2311354454 3.75122254545 12611513312190958488 11511712911388908688 133129151131111114107112 12111313112186907988 908811186123128119125 9590114901281421241

8、35 848610779119124122122 888811288125135122134 SVD求奇异值 由于奇异值(特征的权重 )下降的速度非常快,表 明矩阵的信息量集中分布 在前几个较大的特征值中 ,本例中提取前2个特 征。 SVD右奇异向量解析 可以看作电影的本身 的精彩程度的特征 可以看做有关电 影影片类类型的特 征 影片类 型 片名特征1(29.7) 特征2(11.4)得分均值 喜剧剧 宿醉0.34 0.39 3.20 东成西就0.33 0.34 3.10 大话西游0.40 0.29 3.70 八星报喜0.33 0.40 3.10 恐怖 午夜凶铃0.35 -0.31 3.30 咒

9、怨0.37 -0.37 3.49 林中小屋0.34 -0.34 3.20 寂静岭0.36 -0.37 3.38 SVD左奇异向量解析 可以看做是会员 的打分习惯习惯 特征 可看做是会员对 影 片类类型偏好的特征 偏好ID特征1(29.7)特征2(11.4)打分平均值值 喜剧剧至尊宝 0.34 0.23 3.59 小小宝0.32 0.34 3.38 流氓兔0.31 0.32 3.25 霹*雳0.32 0.35 3.38 中原不败0.31 0.31 3.25 恐怖魂飞魄散 0.32 -0.33 3.36 荒村少年0.30 -0.27 3.13 憨豆豆0.31 -0.31 3.25 怪大叔0.32

10、-0.34 3.38 美味僵尸0.30 -0.34 3.13 SVD模型打分(1) 29.7 11.4 宿醉 午夜凶铃 东成西就 寂静岭 大话西游 八星报喜 各部分得分权权重 计计算至尊宝对对 寂静岭的 评评分 至尊宝0.34 0.23 小小宝0.32 0.34 流氓兔0.31 0.32 霹*雳0.32 0.35 中原不败0.31 0.31 魂飞魄散0.32 -0.33 荒村少年0.30 -0.27 憨豆豆0.31 -0.31 怪大叔0.32 -0.34 美味僵尸0.30 -0.34 0.34 0.33 0.40 0.33 0.35 0.37 0.34 0.36 0.39 0.34 0.29

11、0.40 -0.31 -0.37 -0.34 -0.37 咒怨 林中小屋 影片相对 客观分数 影片类型适应 度得分得分 SVD模型打分(2) 29.7 11.4 宿醉 午夜凶铃 东成西就 寂静岭 大话西游 八星报喜 影片相对 客观分数 影片类型适应 度得分得分 各部分得分权权重 计计算魂飞飞魄散 对对咒怨的 评评分 至尊宝0.34 0.23 小小宝0.32 0.34 流氓兔0.31 0.32 霹*雳0.32 0.35 中原不败0.31 0.31 魂飞魄散0.32 -0.33 荒村少年0.30 -0.27 憨豆豆0.31 -0.31 怪大叔0.32 -0.34 美味僵尸0.30 -0.34 0.

12、34 0.33 0.40 0.33 0.35 0.37 0.34 0.36 0.39 0.34 0.29 0.40 -0.31 -0.37 -0.34 -0.37 咒怨 林中小屋 SVD结果简要测评 至尊宝的观影历史显示其对喜剧类的电影评分较高,对恐怖电影普遍 评分较低,因此可以推测他应该是不喜欢看寂静岭的,模型给出 的打分为2.6,与实际情况是相符的。 魂飞魄散的观影历史显示其对恐怖类的电影评分较高,对喜剧电影普 遍评分较低,因此可以推测他应该是很喜欢看寂静岭的,模型给 出的打分为4.9,与实际情况是相符的。 偏好ID宿醉 东成西 就 大话西 游 八星报 喜 午夜凶 铃 咒怨 林中小 屋 寂静岭 喜剧剧至尊宝44552322.6 恐怖魂飞魄散123254.955

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号