pmus-hosgd张量分解方法及其在标签推荐中的应用

资源描述

《pmus-hosgd张量分解方法及其在标签推荐中的应用》由会员分享，可在线阅读，更多相关《pmus-hosgd张量分解方法及其在标签推荐中的应用（13页珍藏版）》请在金锄头文库上搜索。

1、PMUS-HOSGD 张量分解方法及其在标签推荐中的应用杨林顾军华官磊张宇娟彭玉青河北工业大学计算机科学与软件学院河北工业大学河北省大数据重点实验室摘要：用户给资源标注的标签不仅包含资源的描述信息, 同时也包含用户的描述信息。为了满足用户的个性化需求, 更准确地向用户推荐标签, 目前的标签推荐系统使用张量来存储“用户-资源-标签”三维数据, 挖掘三者之间潜在的语义关联。为了更好的解决三维数据的稀疏性问题, 避免张量填充过程中造成的数据失真, 提出一种基于标签惩罚机制的张量构建方法和随机梯度下降的张量分解方法 (PMUS-HOSGD) , 首先使用标签惩罚机制结合用户评分构建

2、张量, 然后使用随机梯度下降法对张量的展开矩阵进行分解, 最后根据结果为用户进行个性化标签推荐。在数据集 Movielens 上的实验表明, 本文提出的 PMUS-HOSGD 张量分解方法能有效提高标签推荐的准确率。关键词：标签推荐; 数据稀疏性; 张量分解; 张量构建; 惩罚机制; 随机梯度下降; 作者简介：杨林 (1991-) , 男, 硕士研究生, 主要研究方向为数据挖掘、推荐系统;作者简介：顾军华, 教授、博士;E-mail:jhgu_作者简介：官磊, 硕士研究生;作者简介：张宇娟, 硕士研究生;作者简介：彭玉青, 教授、硕士;基金：河北省科技计划项目 (17210305D, 152

3、10345) Tensor decomposition of PMUS-HOSGD and its application in tag recommendationYang Lin Gu Jun-Hua Guan Lei Zhang Yu-Juan Peng Yu-Qing School of Computer Science and Software, Hebei University of Technology; Abstract： The tag labeled by the user to the resource contains not only the descriptive

4、information of the resource, but also the description of the user. In order to meet the individual needs of users, more accurate to the user recommended labels, the current label recommended system using tensors to store user-resource-label three-dimensional data, digging between the three potential

5、 semantic association. In order to solve the sparseness problem of 3 D data and avoid the data distortion caused by the tensor filling process, this paper proposes a tensor construction method based on the labeling penalty mechanism and a tensor decomposition method of stochastic gradient descent ar

6、e proposed. First, the method uses the tag penalty mechanism to construct the tensor with the user score, and then decomposes the expansion matrix of the tensor using the stochastic gradient descent method. For the user personalized label recommended. Experiments on the data set of Movielens show th

7、at the PMUS-HOSGD tensor decomposition method proposed in this paper can effectively improve the accuracy of the label recommendation.Keyword： tag recommendation; data sparseness; tensor decomposition; tensor construction; penalty mechanism; stochastic gradient descent; 0 概述随着信息技术和互联网的发展, 互联网使用者从信息匮

8、乏的时代步入了信息过载的时代, 用户的个性化需求也越来越大。用户的个性化特征注重的是用户的参与, 用户可以对资源 (视频、歌曲、图片等) 赋予自定义的标签, 逐渐形成了 Folksonomy 的大众分类法1, 这种分类法不仅可以获取并分析用户的兴趣特征, 而且在一定程度上丰富了资源的描述信息。随着网络资源规模爆发式的增长2, 用于标注的标签越来越多, 用户面对大量的数据如何选出自己需要的标签越来越困难。解决信息过载的有效方法是个性化推荐3, 因此基于社会标注系统的标签推荐服务应运而生。例如, 给书籍和视频提供短评的豆瓣网、论文书签网站 Cite ULike 和视频推荐网站 Movie Lens

9、等都是利用社会标注系统对资源进行标注, 然后通过标签推荐系统将用户感兴趣的标签推荐给用户。推荐系统简化了标注过程, 方便用户, 提高了标签的质量和标注的准确性。1 标签推荐算法标签推荐系统的核心是构建“用户-资源-标签”三维数据, 挖掘数据之间的潜在关系, 从而准确的为用户推荐标签。研究领域提出了不同的方法。Tso-Sutter K H L 等人4和 Marinho L 等人5将三维关系拆成“用户-资源”、“用户-标签”和“资源-标签”三个二维矩阵, 使用协同过滤算法进行处理。Hotho 等人受 Google 的 Page Rank 算法6启发, 提出了 Folk Rank 算法7, 同样将

10、三维关系拆分成三个二维关系。但是这些方法破坏了高维空间数据原本的特征结构, 丢失了三者之间的协同关系。为了解决这个问题, 挖掘“用户-资源-标签”之间潜在的语义关联, Symeonidis P 等人8提出使用三维张量存储“用户-资源-标签”数据。在构建初始张量阶段, 目前使用最多的是用“0/1”构建张量, 这种构建方法构建容易, 可读性强, 但是不能体现出标签在资源中的差异。之后, Cantador 等人9发现由于热门标签通常有较大的权重, 导致推荐结果偏向于热门标签, 反而降低了推荐的准确率。因此, Kuncoro B A 等人10、Huang X 等人11、王成等人12提出使用 TF-ID

11、F 来设置惩罚项, 用以区分标签对资源的重要程度, 而且可以减少热门标签对结果的影响。然而上述方法忽略了用户对资源的偏好程度, 因此, 本文提出惩罚机制与用户评分相结合的张量构建方法 PMUS (Penalty Mechanism-User Score) 来计算标签的权值, 该方法既能区分标签在不同资源中的权重、突出用户之间的兴趣差别, 又能有效消除热门标签的负面影响。对构建完成的张量进行分解, 可以挖掘张量包含的潜在信息。Lathauwer L D等人13将奇异值分解方法推广到三维张量, 提出高阶奇异值分解 (HOSVD) 方法对张量进行分解, 该方法保留了三者的关联信息。丁小焕等人14基于

12、矩阵奇异值分解能有效地平滑数据矩阵中的数据特点, 在使用 HOSVD 进行分解的过程中, 结合用户朋友关系修正张量分解结果, 建立张量分解模型。Rendle15等人提出了新的推荐算法 PITF (Pairwise Interaction Tensor Factorization) , 该算法在张量分解的过程中加入了 3 个二维关系之间的潜在联系, 推荐质量得到了提高。针对目前推荐系统存在的稀疏性问题, 李改等人16在 Cube SVD17的基础上进行了改进, 使用 ALS 算法进行矩阵分解, 提出了 Cube ALS 推荐算法, 该算法针对稀疏数据有效提高了标签推荐的准确性。刘振娇等人18提出

13、了一种基于上下文学习和张量分解的个性化推荐算法, 将用户和项目的上下文信息加入两个张量中, 有效改善了数据稀疏性。陈梅梅等人19提出一种改进的基于张量分解的推荐算法, 引入基于标签综合共现的谱聚类方法, 使用 HOSVD-HOOI 算法对初始张量进行分解, 进一步优化了推荐效果。综上, 目前的张量分解方法多数以 SVD 为基础进行改进。使用 SVD 方法对张量的每个维度矩阵进行分解, 在一定程度上提高了推荐的准确性, 但由于构建完成的初始张量极其稀疏, 需要在分解前对初始张量的展开矩阵进行填充, 这样存在两个问题: (1) 填充过程增加了数据量, 同时增加了算法复杂度。 (2) 简单的数据填充

14、易造成数据失真, 从而影响推荐结果的准确度。针对上述问题, 为了提高推荐的准确性, 本文首次提出了基于随机梯度下降的高阶张量分解方法 HOSGD (High Order Stochastic Gradient Descent) 。综上所述, 本文结合 PMUS 张量构建方法与 HOSGD 张量分解方法, 提出 PMUS-HOSGD 算法对“用户-资源-标签”三维数据进行处理, 为用户推荐个性化标签。2 相关工作2.1 张量及其矩阵展开张量由多维数据组成, 是一个 N 维的向量空间, 一维张量是一个向量 (Vector) , 二维张量是一个矩阵 (Matrix) , 三维或者更高维的张量则是高维

15、张量 (Tensor) 。标签推荐系统使用三维张量存储数据, 三个维度分别代表用户、资源、标签。使用表示三维张量的值, 其大小代表用户 i 给资源 j 标注标签 k的概率。例如, 用户 1 给资源 1 标注了标签 2, 则对应张量中的值为 a112=1, 其余的标注 0。矩阵展开是将一个张量的元素重新排列 (即对张量的不同的维度进行重新排列) , 得到一个矩阵的过程。三维张量在第 n 维度上展开矩阵表示为2.2 张量分解基本的张量分解算法 HOSVD 需要对张量 A 每个维度 (n=1, 2, 3) 的展开矩阵进行 SVD 分解, 计算公式是:An=U n S n Vn (1) 通过上述公

16、式对进行奇异值分解, 分别得到三个维度展开矩阵的U 矩阵和奇异值矩阵 S。张量分解中 SVD 的作用是矩阵的低秩逼近, 即保留奇异值矩阵中所占比例较高的奇异值, 达到去噪的目的, 可以将这个比值设为 75%, 并得到张量与矩阵的模积定义了一个张量和一个矩阵的 n-mode 乘积 , 其元素定义为如果 JIn, 那么张量和矩阵的乘积可以看作降维的过程, 它把一个高维度的张量映射到一个低维度的张量空间。例如, 一个矩阵 AR 和一个张量 GR 的乘积最终得到张量 YR, 张量 G 的第一个维度由 7 变成了 4。核心张量存储着张量中各个维度之间的信息, 因此需要利用 SVD 分解得到的计算张量 A 的核心张量根据张量和矩阵模积的计算方法, 构建完成核心张量后, 我们就可以得到初始张量的近似张量 , 计算公式是:其中是核心张量, 是左奇异矩阵降维后的矩阵。3 PMUS-HOSGD 张量分解方法传统的张量分解算法 H

展开阅读全文