基于强化学习的推荐系统分享资料

资源描述

《基于强化学习的推荐系统分享资料》由会员分享，可在线阅读，更多相关《基于强化学习的推荐系统分享资料（68页珍藏版）》请在金锄头文库上搜索。

1、1,基于强化学习的推荐系统,目录,目录S,2,目录,3,1、协同过滤推荐算法,2、基于内容的推荐,5、推荐系统的评价准则,3、基于图结构的推荐,4、混合推荐&其他推荐算法,协同过滤推荐算法,1,用户-项目评分矩阵,User-item rating matrix,协同过滤推荐算法,1.基于用户(user-based)的推荐,根据余弦相似度计算用户间相似度,根据计算出来的相似度估计用户评分：（2.5）,基于记忆的推荐,2.基于项目(item-based)的推荐,根据余弦相似度计算项目间相似度,根据计算出来的相似度估计评分,基于记忆的推荐,采用统计学、机器学习、数据挖掘等方法，根据用户历史数据建立模

2、型，并产生合理推荐。,简单的评分模型：,基于模型的推荐,基于模型的推荐,1.基于朴素贝叶斯分类的推荐,朴素贝叶斯分类方法的前提是假设样本的各个属性相互独立,由朴素贝叶斯假设可得：,=,基于模型的推荐,2.基于线性回归的推荐,线性预测模型：,u=(x1,x2, ,xn)表示用户u对n个项目的评分 p=(a1,a2, ,an)表示评分系数、 m表示偏差,基于模型的推荐,3.基于马尔科夫决策过程MDP的推荐,借鉴强化学习(reinforcement learning)的思想,把推荐过程建模为MDP最优决策问题,即如何产生一个能最大用户收益的推荐项目列表. 将MDP模型定义为一个4元组(S,A,R,P

3、r) 推荐过程对应的MDP过程：,1,2,基于模型的推荐,除以上介绍的方法外,基于模型的协同过滤方法还包括基于聚类的Gibbs抽样方法,概率相关方法和极大熵方法等. 基于模型的协同过滤算法能在一定程度上解决基于记忆的推荐算法面临的主要困难,在推荐性能上更优,但通常算法复杂,计算开销大.,基于模型的推荐,自适应推荐,基于内容的推荐算法,1.文本推荐方法,采用TF-IDF方法：,Term Frequency：词频,Inverse Document Frequency：逆向文件频率,相似度计算公式：,根据历史信息构造用户偏好文档,计算推荐项目与文档的相似度,将最相似的项目推荐给用户.,基于内容的

4、推荐算法,2,关键词的同义和多义现象导致文档相似度不准确. 提出了潜在语义分析方法(Latent Semantic Analysis,LSA).,2.基于潜在语义分析的推荐（LSA和SVD）,LSA方法基于SVD分解：,然后把的r个对角元素的前k个保留（最大的k个）, 后面最小的r-k个奇异值置0, 得到k；最后计算一个近似的分解矩阵：,基于内容的推荐算法,2,3.自适应推荐,偏好文档是基于内容推荐的关键.用户的兴趣会随时间动态变化,因此需要及时更新偏好文档. 采用更新用户文档的自适应过滤方法：（1）首先确定用户偏好模型（2）选择合适的阈值进行过滤（3）比较每一次的偏差（4）根据偏差以

5、及阈值调整公式算下一轮的阈值（5）迭代直到取得合适的阈值,基于内容的推荐算法,3.自适应推荐,主题向量,特征向量,偏好模板,训练集,相似度阈值,阈值,是否成立,非正例文本,正例文本,特征提取,阈值调整,是,否,基于内容的推荐算法,3,用户项目矩阵可建模为二部图，节点表示拥护和项目，借鉴动态网络资源分配过程。该方法的推荐过程如下：,建立推荐二部图.,m个项目,n个用户,计算资源分配矩阵W.,a53=1,基于图结构的推荐算法,3,针对指定用户计算各项目的资源分配. fi=(ai1,ai2, ,aim)表示用户i的初始资源分配,由图可知用户y1的初始资源分配：,fi表示用户i的最终资源分配,则有f

6、i= Wfi.用户1的最终资源分配为：,根据最终资源分配从大到小产生除了用户已经偏好项目外的推荐.对用户1推荐项目的排序是:3142=5,基于图结构的推荐算法,混合推荐：为解决以上三种算法各自问题而提出的.,其他推荐：基于关联规则（啤酒-尿布）和基于知识的推荐,混合推荐算法&其他推荐算法,1.平均绝对误差(mean absolute error,MAE) 用于度量推荐算法的估计评分与真实值之间的差异.,2.均方根误差(root mean squared error,RMSE) RMSE是Netflix竞赛（电影推荐）采用的评价准则.RMSE值越小,算法的准确度越高.,评价准则,3.查全率(re

7、call) 用于度量推荐列表中是否包含了用户偏好的全部项目.,4.查准率(precision) 用于度量推荐列表中是否都是用户偏好的项目.,Li表示推荐算法为用户i产生的推荐列表, Ri表示测试集中用户i偏好的全部项目.,评价准则,1,2,3,基本概念,算法原理,算法框架,目录,24,基本概念,强化学习（ Reinforcement Learning，RL）是指没有任何标签的情况下，通过先尝试做出一些行为得到一个结果，通过这个结果是对还是错的反馈，调整之前的行为，这样不断的调整，算法能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果。,25,基本过程,26,五元组（S,A,R,P,）

8、,1.State(S)：智能体所有可能处于的状态。 2.Action(A)：智能体可以采取的所有可能的动作空间的集合。 3. Reward(r)：环境的即时返回的奖励值，以评估智能体的上一个动作。 4. P：状态转移的概率，描述从当前状态转移到下一状态。 5. : (0,1)，折扣因子，目的是为了减少未来的Reward对当前动作的影响。,fire,right,left,27,强化学习分类,基于策略的,基于值的,学到一个Actor,学到一个Critic,Actor + Critic,Model-free 方法,Model-based方法,28,Actor基本框架,NN as actor,fir

9、e,right,left,通过概率采取下一步的动作,0.7,0.2,0.1,第一步：定义网络结构第二步：定义损失函数第三步：选择最优的模型,29,Actor基本框架,1.设计Actor 网络参数为 2.Actor进行一场游戏，得到如下序列： = 1 , 1 , 1 , 2 , 2 , 2 , , , = =1 3.随机进行n场游戏，使用期望值用来评估 ,30,Actor计算方式,对于每一个序列 = 1 , 1 , 1 , 2 , 2 , 2 , , , = =1 采取该策略的几率为 |, ,= |, 1 =1 , 1 , 2 , ,31,Actor计算方式, = max ,初始化 0 1

10、 0 + 0 2 1 + 1 ,= 1 , 2 , 1 , ,=, 1 2 1 ,32,= | | |,Actor计算方式, = |,= | |, 1 =1 |, = 1 , ,= |, 1 =1 ,33,Actor计算方式, | = 1 1 | 1 , 1 , 2 | 1 , 1 2 | 2 , 2 , 3 | 2 , 2 ,= 1 =1 | , , +1 | , ,由控制,与Actor无关,= 1 , 1 , 1 , 2 , 2 , 2 , , , ,每次进行游戏的概率为：,34,Actor计算方式,= 1 , 1 , 1 , 2 , 2 , 2 , , , , | = 1 =1 | ,

11、 , +1 | , , | = 1 + =1 | , + , +1 | , , | = =1 | ,35,Actor计算方式, 1 =1 |,= 1 =1 =1 | ,= 1 =1 =1 | , 如果较大,调整使得 | 增大, 如果较小,调整使得 | 降低, + ,通过得到序列 1 , 2 , , 1 =1 =1 | ,1 =1 =1 | , | = =1 | ,36,Critic基本框架, ,s, ,数值, 较大, 较小,第一步：定义网络结构第二步：定义损失函数第三步：选择最优的模型,37,Critic计算方式,蒙特卡洛方法：, , , , , , ,38,Critic计算方式,时间差分（TD）方法：, , , , +1 , , , +1, , = +1 + , +1, ,-,39,Critic两种计算方法

展开阅读全文