硕士毕业论文开题报告资料教程

资源描述

《硕士毕业论文开题报告资料教程》由会员分享，可在线阅读，更多相关《硕士毕业论文开题报告资料教程（19页珍藏版）》请在金锄头文库上搜索。

1、附件1学术学位硕士研究生学位论文开题报告及课题研究计划所在学院计算机科学与工程学科专业计算机软件与理论研究方向信息检索年级 2013级学号研究生指导教师入学年月 2013年9月重庆理工大学研究生处制1论文题目融合主题模型与协同过滤的个性化新闻推荐研究题目来源国家部委省、市、自治区横向联系自选题目类型基础研究应用基础工程技术其他经费一、论文选题的意义近几十年来，通信技术、互联网、移动互联网的不断发展，信息的采集、传播以及展示的速度和规模都达到了空前的水平，人类社会已从工业时代步入了信息时代。信息时代的降临为人们的生活带来了极大便利，知识技能的获取不用再找特定的老师，约

2、定特定的地点进行，远程教育让你即使在家也可以进行学习，网络上大量的资料足以包含任何你想要的内容；电子商务让你随时随地享受购物的快乐；百度一下成为了无所不能的老师，大多数人有了问题首先想到的都是它。信息时代为人们生活带来极大便利的同时，也带来了不少困扰，其中之一就是信息过载，汹涌而来的信息出现在人的眼前，让人不知所措，无所适从。想要从浩瀚如烟的信息海洋中迅速而准确地获得自己最需要的信息，对用户来说已变得非常困难。搜索引擎和分类目录很大程度上为人们解决了信息过载带来的困扰。搜索引擎是信息检索技术在大规模文本集合上的实际应用，是目前最为高效的信息检索方式之一，当用户面临巨大的网络资源不知如何选择时，

3、仅需要输入需求内容所包含的几个关键词，就能快速找到所需的信息，目前的网络搜索引擎如Google和百度，都具备了高可靠性的页面排序算法，不仅能找出用户想要的内容，还为内容的质量进行了排序；分类技术的应用非常广泛，haol23、360导航等分类网站将互联网上主要的网站进行分门别类，各大综合门户网站将其内容划分成了诸如时政、财经、文化、教育等不同的板块，通过分类目录，方便了用户对需求内容的查找。以上两种方法在很大程度上协助人们解决了在浩瀚的信息中找寻自己需要信息的问题，然而，面对每天指数级增长的巨大信息，再强的搜索引擎，再大的分类网站也无法解决如下问题：一种情况是人们无从选择，不知道什么才是需要的信

4、息，只有漫无目的的浏览网站，寻找感兴趣的内容；另一种情况是人们无法准确描述自己的需求。鉴于以上原因，推荐系统开始得到大规模的使用。推荐系统是一种帮助用户快速发现有用信息的工具，它通过用户的历史行为数据分析用户的兴趣和偏好，给用户的兴趣建模，然后根据不同用户兴趣和偏好不同为其推荐能够满足他们兴趣和需求的信息。在新闻领域，同样面临了“信息过载”问题，每天，来自世界各地包括政治、经济、文化、娱乐、生活、社会各种不同板块的新闻铺天盖地而来，各大门户网站无时无刻不再更新各个地方、各个领域发生的大事小事。绝大多数人都有阅读新闻的习惯，为了帮助人们快速而精准地找到自己感兴趣的新闻，不在无聊的新闻阅读上花费时

5、间，研究好的个性化新闻推荐系统成为了学术界和企业界的热点。二、国内外研究现状当前的推荐技术主要分为协同过滤推荐、基于关联规则的推荐、基于内容的推荐以及混合推荐等.协同过滤推荐是利用某个兴趣相投、拥有共同经验的群体的喜好来向使用者推荐其感兴趣的物品或信息，可以是利用当前用户与其他用户对部分项目的已知偏好数据来预测当前用户对其他项目的潜在偏好，或者利用用户对当前项目或者其他项目的已知偏好数据来预测其他用户对当前项目的潜在偏好1；关联规则挖掘是数据挖掘领域中一项重要的课题，它从大量数据中发现物品之间有趣的关联或相关联系。其核心思想是通过对已知数据的挖掘，发现大量数据中所蕴含的，满足一定支持度的规则模

6、式及这些模式间的相互关系2。基于内容的推荐方法起源于信息检索和信息过滤的研究，是协同过滤推荐的延伸与发展。该方法对推荐对象进行内容上的挖掘与分析，基于用户历史行为获得用户的兴趣，并向用户推荐在内容上与其兴趣最匹配的物品3。混合推荐是将以上推荐方法按照不同的方式进行混合，取长补短，克服各自方法的不足。2.1 个性化推荐技术研究现状基于用户的协同过滤是个性化推荐中最古老的算法，该方法在1992年被提出，并应用于邮件过滤系统。在最早期的协同过滤推荐系统中，系统需要用户指定兴趣相似的近邻，只有在用户了解彼此间的兴趣爱好之后才能做出推荐因此，只适用于规模较小且相互熟悉的小型用户群(例如同一办公室或研究小

7、组)，而不适合于电子商务、互联网这种用户群体庞大且相互陌生的环境4。之后出现了以GroupLens为代表的自动化的协同过滤推荐系统5，它允许用户使用评分等方式表达自己的兴趣偏好信息，系统根据兴趣相似的用户的评分信息为当前活动用户进行个性化推荐。自动化的协同过滤推荐系统不需用户指定相似用户，不需要用户之间相互了解，也不需要分析系统项目的内容，它能够自动寻找兴趣相似的用户，发现用户的潜在兴趣，具有较高的个性化和自动化程度，也正因为此，协同过滤算法受到了广泛关注。但随着用户数的增长以及网站规模的扩大，协同过滤算法出现了许多问题和挑战，诸如稀疏性问题，扩展性问题，冷启动问题等，后期的诸多研究也都是围绕

8、如何解决这些问题展开。面对稀疏性问题，Sarwar等人提出了基于项目的协同过滤算法，引入了项目间的相似度和矩阵降维技术，他们指出项目间的相似性要比用户间的相似性面临更低的稀疏性问题，而且更加稳定，项目间相似性的计算可以离线进行，可以提高系统的可扩展性6。有研究者提出了填充的方式，例如使用固定值填充(一般使用项目平均分或用户平均分)、贝叶斯分类预测填充等等。但该方法最明显的的缺点是在一定程度上抹煞了用户的兴趣和特征，尤其是在大规模的填充后，更是如此7。也有学者提出了引入平滑聚类的方法，使用用户-项目评分矩阵对用户进行聚类，然后，在同类用户中寻找兴趣相似用户，最后给出推荐8。但是用户兴趣多样，类别

9、间存在交叉，因此，聚类标准难以确定，最终致使个性化推荐精度较低。针对可扩展性问题，学者们提出了基于模型的协同过滤算法，其基本思想是在离线状态下建立用户的兴趣模型，在线时使用建好的兴趣模型进行预测推荐，以此做到在线时快速响应的效果，建模中主要使用的算法有贝叶斯网络技术9，潜在语义技术10等。该类方法稳定性较好，实时性较高，可以在一定程度上解决可扩展性问题，但建模花费代价高，一般比较适合于用户兴趣与特征比较稳定的环境，不适用于数据频繁更新的系统，而且它还面临推荐精度较低等问题。面对协同过滤的冷启动、数据稀疏性、推荐准确性等问题，学者提出了基于内容的推荐方法。基于内容的推荐方法起源于信息检索和信息过

10、滤的研究，是协同过滤推荐的延伸与发展。该方法对推荐对象进行内容上的挖掘与分析，基于用户历史行为获得用户的兴趣，并向用户推荐在内容上与其兴趣最匹配的物品11。该方法的核心在于对推荐对象内容特征的挖掘，并进行基于内容特征和用户行为的兴趣模型的构建。随着文本信息挖掘技术的日益成熟，目前的研究中以推荐对象为文本的描述为主，基于给定的特定词组的集合，如关键词、属性词或者不限定特定词等，通过统计的方法进行基于文本特征向量的建模。将文本模型与用户兴趣模型进行相似度计算，判断该推荐对象是否符合用户的兴趣。基于内容的推荐不依赖其它用户的数据，能够准确地捕捉用户的兴趣，推荐效果较精确，能够推荐新出现的推荐对象和非

11、热门对象，解决协同过滤推荐的冷启动和稀疏性问题。随着文本处理技术和信息检索技术的成熟，基于内容推荐方法对于文本类内容的推荐已具有相当的优势。但是其应用也存在着一定的局限性：对于无法通过机器学习规则或难于提取内容特征的内容无法进行有效推荐，如多媒体数据(视频、音频等)；无法挖掘用户对推荐对象的真实态度，即默认用户的购买和阅览等行为均为正面行为；过度特性化的推荐过程导致用户没有过行为的相关内容永远不会被推荐，推荐新颖性不足，使得用户失去发现不同类型信息的机会。随着各种推荐方法的发展，近年来有很多研究围绕着多种推荐方法的混合应用展开。混合推荐的主要目的是结合各个方法的优点，取长补短。按照在各个混合推

12、荐系统中进行混合的时间点，可以将其分为以下两种：前期混合：直接混合几种推荐方法，属于方法层次上的混合。混合的策略可以分为互补混合、包含混合、分层混合。互补混合即通过某一算法获得另一算法所需的参数或初始点等，如通过马尔科夫蒙特卡洛方法得到贝叶斯混合效果回归模型的参数12。包含混合是指在某种推荐算法的框架内，混合另外一种算法。如为了克服协同过滤的稀疏性，通过基于内容推荐的特征提取方法，充实用户的兴趣模型，用于计算用户的相似性13。分层混合是指将多个推荐算法按照处理流程的先后顺序，将一个推荐机制的结果作为另一个的输入，得到更准确的推荐结果。后期混合：这种方法是指在不同的推荐方法产生推荐结果之后，将多

13、个推荐引擎获得的结果混合，并通过一定的推荐策略或权重比重，向用户提供综合的推荐结果，以提高推荐的准确性和多样性，满足用户需求。这种基于推荐结果的混合方式，通常的方法有：对结果的线性加权组合、投票选择、分区组合等。虽然在理论研究方面主要承袭国外的一些理念，但国内也有了不小建设性的进步与发展，文献14从影响集的概念中得到启发，提出了基于影响集的协同过滤推荐算法，利用当前活动用户的影响集来提高评分密度，从而缓解稀疏性问题；文献15主要从用户及项目本身的属性考虑，认为不同的用户，具有不同的兴趣与需求，他们总是在某个方面或者某几个方面的兴趣或需求相似，于是提出了一种基于概念格的用户兴趣预测算法，作者充分

14、分析了文档独立性，有效地识别和划分用户偏好，符合用户之间仅仅在某一兴趣上相似、而并非所有兴趣都相似这一特点，该方法有效的缓解了协同过滤算法中的稀疏性问题以及冷启动问题。2.2 个性化新闻推荐研究现状个性化新闻推荐领域，面对海量的新闻内容，如何发现新闻内容与用户之间的相关性，找到与用户兴趣爱好相似的新闻内容是个性化推荐新闻系统的关键。推荐系统通过分析用户行为，如用户浏览、用户评论和用户分享，可以发现用户的兴趣喜好，给不同用户提供不同的个性化页面展示，来提高网站的点击率和转化率。早期的新闻推荐系统可以为用户提供一定程度的内容定制，却不能随着用户的使用来动态调整推荐的新闻16、之后的新闻推荐系统如D

15、igg、Google News都应用了协同过滤的推荐思想1718，用大量兴趣相投、拥有共同经验的用户群之间的喜好的相似性，来向用户推荐感兴趣的新闻。但基于协同过滤的新闻推荐系统仍然存在一些缺陷，如系统没有对新闻内容进行挖掘致使用户兴趣表达不准确完整的问题；由于用户和新闻量的激增导致的系统实时处理能力问题；缺少历史数据而导致的新加入新闻无法被推荐的冷启动问题等19。基于内容的推荐方法已通过多种形式应用于新闻文章的个性化推荐系统中。在基于内容的新闻推荐系统中，计算各个新闻与用户兴趣间的相似度时通常需要考虑新闻内容，当给出一系列最近发布的新闻文章，并给出用户的阅读历史时，基于内容的推荐系统将循序地找到内容与用户阅读兴趣匹配的新闻。新闻内容通常由向量空间模型表示，或通过由语言模型获得的主题分布表示，并基于此对用户兴趣进行建模。传统的用户兴趣模型通常将用户兴趣抽象为关键词、命名实体序列、主题向量、语义网络、本体论等方式20。Amalthaea21从用户阅读过的新闻中抽取关键词，将用户兴趣表示为一组词语序列；文献22提出了一种WEB用户的兴趣模型，

展开阅读全文