基于最大熵模型解决协同过滤稀疏性问题研究(1)

资源描述

《基于最大熵模型解决协同过滤稀疏性问题研究(1)》由会员分享，可在线阅读，更多相关《基于最大熵模型解决协同过滤稀疏性问题研究(1)（56页珍藏版）》请在金锄头文库上搜索。

1、中国科学技术大学硕士学位论文基于最大熵模型解决协同过滤稀疏性问题研究姓名：杨磊申请学位级别：硕士专业：管理科学与工程指导教师： 2011-04-07 摘要 I 摘要摘要伴随着 Internet 的普及，网上购物已经越来越成为一种重要的消费行为，但在呈指数级增长的海量信息面前，用户往往无法快速、准确的挑选到自己钟爱的商品，而推荐系统这是基于这样的背景产生的。推荐系统主要通过挖掘用户的兴趣爱好，从而为用户提供推荐。协同过滤作为目前推荐质量最高的推荐系统，也是应用最为广泛的推荐系统。它主要利用用户对于商品的历史评分数据，计算出当前用户的 “最近邻集合” ，然后利用

2、这些“邻居”计算出当前用户对于目标项目的预测评分，最后根据预测评分形成推荐。虽然协同过滤有着诸如算法简单、可以处理不同特征数据、挖掘用户潜在兴趣等优点，但它也存在着很多缺点。其最大的缺点即数据稀疏性，数据稀疏性实际上就是一个用户项目评分矩阵稀疏的问题，因为在现实生活中，大部分的用户都只对少部分的项目有评分，所以大部分的评分都是空白，当然也就无法保证良好的推荐质量。最大熵模型作为一个基本预测模型，它的基本思想就是在只掌握未知部分的部分知识时，我们应该选取符合这些知识并且熵值最大的概率分布。最大熵模型最大的特点就是可以将不同源的信息集中到一个框架下进行综合考虑。大众分类标签（

3、tag）是伴随着 web 2.0 和 3.0 才被广泛应用的，是分享知识的一种机制。 Tag 的最大特点是充分反映了用户的主观性。为了解决传统协同过滤推荐系统中的稀疏性问题，本文提出了一个基于最大熵模型，且综合考虑用户评分信息（rating）和 tag 信息的混合推荐系统。文中构建的最大熵模型把 rating 信息和 tag 信息作为模型输入，在经过最大熵模型处理后，把当前用户对于目标项目的评分作为模型输出结果，从而形成推荐。基于理论研究，本文设计了 3 组仿真实验从不同的角度来验证基于最大熵模型的混合推荐系统的推荐质量，实验结果表明，混合推荐系统较传统协同过滤有着较高的优越

4、性关键词关键词：最大熵；推荐系统；协同过滤；稀疏性；tag Abstract III Abstract With the popularization of the Internet, shopping online is gaining more and more popularity. However, customer couldnt choose their favorite product quickly, because the number of corresponding information is growing by exponential order. One way

5、 to overcome this problem is to use recommender system, which could provide more individual recommendation by analyzing personals interests and hobbies. As the most famous and efficient technology that is implemented in recommender system, collaborative filtering could calculate a set of “nearest ne

6、ighbor set” by using historical data of product assessment. Then, collaborative filtering forecast the possible assessment score to a target product based on this “nearest neighbor set” set and recommend the product with the highest scores to customers. This technology has many achievements, such as

7、 it is easy to compute and could deal with different characteristic of data. However, a main problem of this technology is data sparsity, because most customers only assess a small amount of products while most products dont obtain relative measurement scores. This is such a dilemma that could reduc

8、e the quality of the recommendation. Maximum entropy (ME) model is helpful to solve this problem, which could select a suitable probability distribution to attain a highest value of entropy by using the existing part of information. Besides, mass taxonomy tag method could share information with cons

9、idering the interests and hobbies of the users, and is becoming more and more common based on the wildly use of web 2.0 and 3.0. The present paper proposes a mix recommender system that considers rating and tag information simultaneously based on ME model in order to solve the problem of data sparsi

10、ty. In our system, rating and tag information are viewed as input, while the assessment results to a target product is considered as output for constructing recommendations. After the theoretical research, this paper also designs three groups of phantom experiments to illustrate the quality of our r

11、ecommender system for different angles. The results indicate that the quality of recommender results obtained by our system is higher than by traditional system. Key Words: maximum entropy; recommendation system; collaborative filtering; sparse; tag 中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的

12、成果。除已特别加以标注和致谢的地方外，论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。作者签名：_ 签字日期：_ 中国科学技术大学学位论文授权使用声明作为申请学位的条件之一，学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权，即：学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅，可以将学位论文编入中国学位论文全文数据库等有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文

13、在解密后也遵守此规定。公开保密（_年）作者签名：_ 导师签名：_ 签字日期：_ 签字日期：_ 第 1 章绪论 1 第 1 章绪论第 1 章绪论本章着重介绍了论文的选题背景、选题意义、目前推荐系统国内外的研究现状以及本文的研究工作，最后给出了本文的结构。 1.1 选题背景随着互联网以及电子商务的快速发展，互联网中资源数量也呈指数级增长趋势。据中国互联网络信息中心（CNNIC）数据显示，截至 2009 年 12 月，中国的网民数量已经达到 3.84 亿，与之相对应的互联网普及率亦达到 28.9%。据 CNNIC 另外一份针对国内网络购物市场研究称，截至 2009 年 6

14、月，国内的网上购物用户规模已经达到 8788 万人，同比增加 2459 万，年增长率达到 38.9%。以上数据充分说明在当今社会，伴随着各类网上购物平台的成熟，越来越多的人们愿意采用网络渠道来进行购物。但用户所面临的问题也就应运而生用户无法在海量的信息中寻找到最适合自己的商品。同时，对于商家来说，它们也无法在海量的用户中寻找到自己的潜在目标客户。当然，目前的搜索引擎技术在某种程度上可以解决部分问题，但究其根本，仍然无法做到对于每个客户的个性化处理。因为，搜索引擎返回的内容首先对于每个用户内容都是一样的，其次返回的信息量也非常巨大，无论对于用户或是商家来说，这些都是无法接受的。

15、正是在这种背景下，个性化推荐系统应运而生。它首先通过用户在网络中的使用行为挖掘出用户的兴趣偏好，然后再在海量的信息中发现符合用户兴趣的资源，并且做出相应的推荐。其实质上和传统商业中的销售员非常类似，即：通过对客户先前的购买行为进行分析后，然后把商店中符合客户兴趣的商品推荐给客户，帮助其完成购买过程。推荐系统在实际生活中得到了很多研究机构以及学者的关注，同时也诞生了很多推荐系统应用实例： MovieLens:它是由 Minnesota 大学开发的用来推荐电影的推荐系统。它主要通过浏览器收集用户对于电影的评分以及标记的 tag。其最大的作用即在帮助用户寻找自己感兴趣的电影同时

16、，也不定期的公开发布自己的数据集，为全世界各地的研究爱好人员提供公共的原始数据集。 A:主要采用的是 Item-Item 的协同过滤算法。它的最大特点是根据用户已经评分的项目之间找寻相似项目，从而确定目标项目。其主要运算都放在线下，所以在处理大数据集时也有比较快的运算速度，另外由于其推荐算法具第 1 章绪论 2 有高度的关联性，所以其推荐质量也比较高。豆瓣网：它主要通过用户的收藏以及对于目标项目的评价来计算用户的偏好。其实际应用方式为通过用户当前浏览的网页，推荐出用户可能喜欢的其它项目。从目前来看，推荐系统在电子商务中的应用还是拥有良好的发展前景，并且各大公司也对推荐系统越来越重视

展开阅读全文

基于最大熵模型解决协同过滤稀疏性问题研究(1)

最新文档