个性化推荐技术综述4-18.doc

资源描述

《个性化推荐技术综述4-18.doc》由会员分享，可在线阅读，更多相关《个性化推荐技术综述4-18.doc（12页珍藏版）》请在金锄头文库上搜索。

1、个性化推荐技术综述杨莉云（广东商学院华商学院，广州 511300）摘要： Internet的发展在给用户带来丰富信息资源的同时也给用户快速找到自己需要的信息带来了很大的困难，用户迫切需要一种能够根据自身特点组织和调整信息的服务模式，个性化服务应运而生。本文根据推荐原理的不同分别介绍了基于内容的推荐技术、协同过滤推荐技术、混合推荐技术及其它的推荐技术，分析各种技术的优缺点及适用条件，并对今后个性化推荐技术的研究热点和发展方向进行了展望。关键词：推荐系统；基于内容的推荐；协同过滤；关联规则0 引言信息技术的发展和互联网的普及使用户更方便地接触到更多的信息，但用户在享受信息技术带来的便利的同时，也

2、遇到了信息“过载”的问题，用户无法从海量的信息中提取自己所需要的信息。一些搜索引擎通过用户输入关键字可以检索出相关内容，但由于缺乏用户兴趣的知识，会把所有与之相关的信息全部呈现给用户，不能过滤掉用户不感兴趣的信息。也有一些电子商务网站会有“热点推荐”的功能，但是面向所有用户的非个性化推荐。用户如何在一个网站上快速而有效地找到自己所需要的项目和信息？个性化推荐系统是解决这一问题的有效途径。1基于内容的推荐基于内容的推荐起源于信息检索领域，它利用资源和用户兴趣的相似性来过滤信息。首先分析项目的内容，根据用户评价过的项目建立用户的兴趣模型，即用户描述文件。根据用户描述文件的不同又可以分为基于向量空间

3、模型的推荐、基于关键词分类的推荐、基于领域分类的推荐和基于潜在语义索引的推荐。1.1基于向量空间模型的的推荐基于向量空间模型的推荐是基于内容推荐的最常用的方法。该方法将用户描述文件及项目表示成一个维特征向量。向量的每一维由一个关键词及其权重组成。权重可取布尔型和实数值，分别表示了用户是否对某个概念感兴趣及感兴趣的程度1。关键词根据推荐项目的不同可以是项目不同的属性值，对文本项目来说，关键词就是从文档中抽取的单词，权重可以通过TF-IDF技术计算得到。对目标用户进行推荐时，将用户描述文件看成目标项目，可采用多种方式（如欧氏距离、余弦相似性、相关相似性等）计算其它项目与目标项目的相似性，按相似性从

4、大到小的顺序将项目输出给用户。1.2基于关键词分类的推荐Mooney提出了基于文档特征词分类的预测思想：将推荐看成是项目分类问题。首先定义一组类（评分），并让用户对一组训练项目进行评价，基于这个评价计算每个关键词属于某个类的条件概率，从而得出用户的特征描述。然后根据这个特征描述计算推荐候选集中各个项目属于某个类的后验概率。最后将这个后验概率作为项目的推荐预测并将具有最高得分的推荐提交给用户2。作者简介：杨莉云，女，1984年生，汉族，河南驻马店人，讲师；主要研究方向：电子商务、管理信息系统。用户的兴趣也是通过关键词来表达，与向量空间模型不同，用户描述文件用特征词类别矩阵来表示，是特征词个数，是

5、类别数，每一个元素表示第个特征词属于第类的条件概率，项目通过特征词来表达，没有项目描述文件。这种方法的假设条件是，所有的项目都可以通过特征词集合中的特征词来表达，每个特征词出现的概率依赖于项目类别而独立于其它特征词。对给定的项目V，每一个类别的后验概率可以通过如下的贝叶斯规则进行计算：其中为项目的第个特征词，是项目中特征词的数量。前验概率可以被忽略，因为对于任何一个给定的项目其是一个常量。其中的参数按以下方式进行估算：目标用户对每一个训练项目都给予一个评价，于是先验概率可通过下式计算：其中表示被给予评价的所有项目。设表示所有训练项目中的所有不同的特征词，表示训练集中的项目数，对于每一个的类别，

6、表示所有属于该类的的训练项目中的不同特征词的总数，对中的每一个特征词，表示该词语在所有属于该类别的训练项目中的次数，则条件概率可以通过下式来计算：这些参数都通过Laplace估算进行“平滑”以避免对没有出现在有限训练样本中的特征词的零概率估算。文档分类完成后，根据后验概率最高的类目决定项目的预期评价。岑咏华认为这种评价不科学，预期评价应该是所有类目后验概率的数学期望3。最后，将预期评价较高的前个项目作为推荐呈现给用户。1.3基于领域分类的推荐为了更好地区别用户兴趣之间的差异，曾春等提出了一种基于概率模型的文本推荐方法，把用户兴趣文件表示为用户对不同领域感兴趣的概率,先建立一个领域分类模型，然后

7、计算所有文档和用户在这个分类模型上的概率分布，用该概率分布来表达文档和用户兴趣4。假定领域类型的集合为,其中是领域个数，表示第个领域，用户描述文件表示为一个条件概率的矢量：,文档和用户兴趣的表达是一致的：。文档对领域的后验概率为其中，假定文档的所有特征都独立出现，则可以表示为文档所有特征条件概率的乘积：假定n(cj,t)表示特征在类中出现的次数，为中全部特征出现的次数之和，表示文档集中全部不同特征的数目，根据Lidstome连续定律，对一正数，的估计值为：最后计算文档推荐给用户的概率：= 这种方法不仅可以体现用户兴趣的多样性，而且由于用户感兴趣领域的个数远小于关键词的个数，算法的运算速度也得到

8、了提高。基于向量空间模型的推荐和基于领域分类的推荐用户描述文件都用向量空间来表示，只是每一维的含义不同，计算方法也不同。第二种方法的用户描述文件用关键词类别矩阵来表示。方法二和方法三在计算文档的类别时都用到了朴素贝叶斯规则。虽然三种方法各不相同，但有一共同点：都直接或间接用关键词表达用户兴趣，由于同义词和多义词的存在，用关键词表达用户兴趣使得推荐结果难免有些偏颇。潜在主义索引（Latent Semantic Indexing，LSI）是基于向量空间模型的补充和扩展，最初应用于文本信息检索领域，有效地解决了同义词和多义词的问题5。1.4潜在语义索引潜在语义索引（LSI）是一种概念检索方法，通过分

9、析大量的文本集，自动生成关键字概念，文档概念之间的映射规则。该方法试图解决单纯词形匹配方法中的同义词和多义词问题，应用该方法对英文文献进行检索的查准率比传统的词形匹配算法高出10%30%6。LSI方法对索引项文档矩阵进行奇异值分解（Singular Value Decomposition,即SVD），降维后的矩阵表达了索引项与文档之间的潜在主义关系。在LSI模型中，索引项和文档的关系由索引项文档矩阵来表示.其中矩阵的行向量（维）表示个不同的索引项，列微量（维）表示文档集中个不同的文档。矩阵中非0元素表示索引项在文档中出现的次数，通常用索引项加权的方法来表示。对任意索引项文档矩阵都有。其中由的左

10、奇异向量构成，由的右奇异向量构成，,且1 2d0，为矩阵的奇异值。取降维因子，令满足贡献率不等式：，为包含原始信息的阈值。贡献率不等式是参考因子分析的相应概念提出的用于衡量维空间因子对于整个空间的表示程度7。值过小会使一些有用的信息丢失，过大则会使运算量加大，根据不同的文本集和处理要求，最佳的值也不尽相同。SVD降维后的表示为。是阶矩阵，其个行向量分别对应个索引向量，将索引向量由维降为维；是阶矩阵，其个行向量分别对应个文档向量，将文档向量由维降为维。维中的每一维对应一个伪概念。根据矩阵，我们可以计算不同文档向量之间的相似性，找出目标文档的前个邻居列表，然后根据该列表中各用户感兴趣的比例确定该文

11、档的接收对象。基于内容的推荐优点是直接、简单，推荐结果易于解释。但也有一定的局限：仅适用于产品特征容易抽取的领域，在另外一些领域如电影、音乐、餐厅等项目特征不易被一组关键词来清晰描述时，基于内容的推荐就显得无能为力，即便是在文档领域，关键词也仅反映了文档内容的一部分，一般情况下还会有其它一些因素影响用户的评价，如文档的质量，下载所需时间，视觉效果（有无图像等）。所以不能从用户的评价中准确得到用户的兴趣信息。只能推荐与用户已有偏好相似的项目，不能为用户发现新的感兴趣项目。2.协同过滤推荐目前研究最多也是应用最成熟的个性化推荐技术，是与基于内容的推荐完全不同的一种推荐方法，不是推荐与用户过去偏好相

12、似的项目，而是根据其他用户的偏好信息产生推荐。通过分析用户评价信息（评分）把有相似需求或品味的用户联系起来，用户之间共享对项目的观点和评价，这样就可以更好地做出选择。Typestry是最早提出来的协同过滤推荐系统，用于过滤电子邮件，推荐电子新闻,由于其要求用户手工输入查询条件，不牵涉到用户间的相似性计算，严格来讲，它只是一个信息检索系统，只是对检索结果根据其它用户的反馈进行筛选8。其它的协同过滤推荐系统有GroupLens/NetPerceptions,Ringo/Firefly等。根据算法运行期间所用到的数据不同，协同过滤推荐可以分为两大类：基于内存的协同过滤（memory-based co

13、llative filtering）和基于模型的协同过滤（model-based collative filtering）。2.1基于内存的协同过滤基于内存的算法运行期间需要将整个用户数据库调入内存，它包括基于用户的协同过滤和基于项目的协同过滤。基于用户的协同过滤是推荐系统最早采用的一种方之一9，它基于这样一个假设：如果用户对一些项目的评分比较相似，则他们对其它项的评分也比较相似。系统根据用户对不同项目的评分来计算用户之间的相似性（余弦相似性、修正的余弦相似性、相关相似性等），取相似系数最大的前N个作为目标用户的邻居，并根据邻居用户的对项目的评价产生推荐。B Sarwar把算法分为三个主要的阶

14、段：表示阶段、邻居形成阶段、推荐产生10，表示阶段用阶客户-项目评价矩阵表示，由于一个客户所评价/购买的项目只占了所有项目的一小部分，通常不到1%，这就产生了数据稀疏性问题，依此得出的相似系数会很不准确，对邻居形成阶段的相似性计算造成了障碍，由于确定目标用户的邻居用户是协同过滤的关键问题，许多学者对此进行了改进。奇异值分解技术(Singular Value Decomposition)对原始矩阵进行降维处理11，这与基于内容的推荐的潜在语义索引用到的方法是一样的，都减少了相应的列数，增加了数据的稠密性。文献12提出了基于项目的协同推荐，并其证明比基于用户的推荐效果好。首先计算目标项目与其它项目

15、之间的相似性，根据用户已评分项目来预测用户对目标项目的评分，把评分最高的前个项目作为推荐结果输出。二者在算法上并无本质区别，一个是计算用户间的相似性，一个是计算项目间的相似性，一个对客户-项目评价矩阵的行向量进行操作，一个对客户-项目评价矩阵的列向量进行操作。K Goldberg用主成分分析法进行了改进，从原始评分矩阵Rn*m中选出没有空值的k列形成标准矩阵An*k，再对An*k进行主成分分析，把K维降为2维，将n个用户的偏好信息映射到一个二维的特征平面上。在此平面上对用户聚类，预测除k个项目以外的其它项的得分，降序排列后输出给用户13。文献14使用形式符号来表示用户文件（Modal Symb

16、olic User Profile），计算用户每一个评分等级上其它用户的评分分布，最终的用户文件采用一个的矩阵来表示，其中表示共有多少个评分等级。第一行表示用户评分是1的项目其它人的评价是1，2的比例各是多少，每一行的数值相加等于1。这种方法计算简单但结果难以解释。S Kuwata提出“一步到位协同过滤”（ one-shot collaborative filtering）15。与传统协同过滤方法不同，传统方法各自独立地预测未评分项的得分，一步到位协同过滤通过最小化已知评分分布和未知的评分分布的KL散度（Kullback-Leibler divergence）来同时预测所有未评分项的得分，并且各项的得分相互关联。2.2基于模型的协同过滤基于模型的算法首先构造一个用户评分的数据模型，运行期间

展开阅读全文