数据挖掘与算法作业.doc

上传人:bao****ty 文档编号:144932208 上传时间:2020-09-14 格式:DOC 页数:12 大小:138KB
返回 下载 相关 举报
数据挖掘与算法作业.doc_第1页
第1页 / 共12页
数据挖掘与算法作业.doc_第2页
第2页 / 共12页
数据挖掘与算法作业.doc_第3页
第3页 / 共12页
数据挖掘与算法作业.doc_第4页
第4页 / 共12页
数据挖掘与算法作业.doc_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《数据挖掘与算法作业.doc》由会员分享,可在线阅读,更多相关《数据挖掘与算法作业.doc(12页珍藏版)》请在金锄头文库上搜索。

1、论 文 题 目:数据挖掘算法在电子商务推荐系统的应用 学科、专业名称: 电子商务专业 考试科目: 数据挖掘算法 数据挖掘算法在电子商务推荐系统中的应用摘要在电子商务中,企业只有不断地扩张,才能在竞争中保持自己的优势。其中如何留住老顾客并不断吸引新顾客的加入是企业实现扩张和获取利润的一个重要方面。本文主要是针对电子商务企业中顾客的消费行为进行分析研究的基础上展开论述的。通过聚类算法,对具有不同消费行为的顾客进行分类,利用关联规则算法对顾客的购物篮进行分析,通过算法的组合提高推荐的精度和准确性,从而更好的为顾客服务,以达到留住老顾客和吸引新顾客的目的。一、引言电子商务规模的迅速增长在给用户带来更多

2、选择机会的同时,也使得用户搜索所需商品的成本越来越高。电子商务推荐系统可以向用户提供商品推荐,帮助用户找到所需商品,满足用户个性化的需求,将用户从浏览者转变为购买者,通过网站与用户的互动提高了用户的忠诚度,从而增加企业的效益,同时将用户从繁重的搜索任务中解脱出来。目前几乎所有的大型电子商务网站都不同程度地使用电子商务推荐技术,比如Amazon、CDNow、ebay和dangdang等。二、电子商务推荐系统概述电子商务推荐系统的定义为:“利用电子商务网站向客户提供商品信息和建议, 帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程”。该定义现已被广泛引用1。1998 年 7 月, 由

3、美国 AAAI 组织各学者在威斯康辛州专门召开了以推荐系统为主题的会议,集中讨论了推荐系统的发展问题。目前,推荐系统已广泛运用到各行业中,推荐对象包括书籍、音像、网页、文章和新闻等。推荐系统可以是根据其他客户的信息或是此客户的信息, 根据客户的购买频率、消费金额和购买模式预测未来的购买行为, 为客户提供个性化服务2。根据挖掘的客户行为模式和购买组合来获取新客户、保持老客户、细分客户和实现交叉销售。电子商务推荐系统可以在网页的浏览者中发掘隐藏着的购买者,还可以促进消费,刺激浏览者的购买欲望,并分析购买者的购物习惯,产生推荐集合,留住客户。推荐系统是电子商务不可或缺的重要组成部分。它的个性化发展也

4、直接对电子商务的发展产生影响3。至今在电子商务中研究个性化推荐系统也一直是数据挖掘领域与电子商务领域研究的热点问题所在。推荐系统在电子商务网站中的作用主要有三方面: 将电子商务网站浏览者转变为购买者; 提高电子商务网站交叉销售能力; 提高顾客对电子商务网站忠诚度。应用数据挖掘技术使推荐系统更智能化, 学习能力更强, 推荐效果更好; 其实质是为终端用户和电子商务营销决策者提供相关个性化和智能化服务。电子商务推荐系统, 根据数据源选取大致可以分为基于顾客评分/评价和基于顾客购买历史两类。基于用户评分/评价的推荐系统比较多, 如 LIBRA, Item-Based Top- N recommenda

5、tion 等。这类推荐系统缺乏通用性, 因为收集评分数据需要顾客一些额外配合, 这不是每个电子商务网站都能做到的; 其推荐结果也并不一定客观, 因为不能保证顾客评分能客观反映顾客购买兴趣。基于顾客购买历史的推荐系统则避免了上述不足, 具有良好的通用性。现在基于规则的推荐系统, 往往利用实际交易数据作为数据源, 它符合数据源通用性要求。基于关联规则的推荐系统特点是实现起来比较简洁、推荐效果良好, 并能动态地把客户兴趣变化反映到推荐结果中4。目前,国内在网上购物个性化推荐上的发展状况还基本停留在采用一些简单的推荐策略阶段,比如分类浏览、销售排行、热卖商品、热门新闻等等,并没有实现真正意义上的个性化

6、智能推荐。因此,从某种程度而言,网上购物网站,特别是国内的各网上购物网站的效用并没有得到最大化的发挥,用户的购买潜力也没有得到全部地激发和挖掘。所以,推行网上购物中的个性化推荐技术和应用势在必行。个性化推荐系统是一个非常值得我们关注和研究的方向。各种数据挖掘方法如关联规则挖掘技术5,6、聚类挖掘技术7,8被广泛的应用于个性化推荐中以提高推荐精度。三、数据挖掘的概述商业智能的关键成员包括数据挖掘、联机分析处理(Online Analytical Processing)、企业报表和 ETL(数据抽取、转换和加载)6。其中,作为关键成员之一的数据挖掘指的是分析数据,使用自动化或半自动化的工具来挖掘数

7、据中隐含的模式。企业在日常的运营过程中,需要借助一些商业软件来完成,经过这些软件的不断收集和积累,企业的数据库拥有了海量数据。具体来说,这些海量数据大部分来自金融应用程序、企业资源管理系统(ERP)、客户关系管理系统(CRM)以及 Web 日志等7。对企业的管理者来说,这些海量数据看似数据丰富,但在企业的具体应用中却显得知识贫乏。数据挖掘的目的正在于此:从已有数据中提取模式,从而提高已有数据的内在价值,并把数据进行提炼、转化,使之成为有助于企业进行商业智能管理的知识。(一)数据挖掘解决的商业问题数据挖掘可以应用于许多应用,能解决各种商业问题,为企业提供许多商业价值。下面就是数据挖掘技术能够解决

8、的一些比较典型的商业问题:(1)客户流失分析:流失性分析可以帮助市场经理了解客户流失的主要原因,以此来改善企业与客户的关系,增加客户的忠诚度8。(2)销售预测:在该购物网站,下个月能卖多少个移动硬盘?下个月的库存又是多少?数据挖掘预测技术可以帮助解决与时间相关的销售方面的问题。(3)客户细分:哪些人是该购物网站的客户?客户细分能够帮助市场经理了解客户个人信息的区别,并基于此采取适当的市场策略9。(4)购物篮分析:电子商务企业根据顾客购买的商品,推荐另外的相关商品,这些推荐的商品就来自于数据挖掘分析。如对销售结果进行分析来判断商品是否应该捆绑销售。可以使用数据挖掘的结果来创建一个在线指导系统,或

9、者决定如何捆绑销售能将利润最大化。(5)欺诈检测:这份保险存在欺诈吗?保险公司一天要处理成千上万个投诉,但是保险公司不可能对每一个投诉进行调查。数据挖掘技术能够帮助保险公司鉴别那些投诉可能具有欺诈性。(6)广告定位:针对特定的用户应该使用什么样的广告标语?一些门户网站和 Web 零售商希望为他们的客户个性化广告的内容。通过使用客户的导航模式或者在线购买模式,这些站点可以利用数据挖掘解决方案在客户的浏览器中显示个性化广告。(7)风险管理:给某客户的一项贷款能批准吗?这是银行业极为常见的问题。数据挖掘技术能够用来评价客户的风险级别,帮助管理者对每一项贷款做出合适的决定。(二)数据挖掘的任务大量的商

10、业问题可以采用数据挖掘技术得以解决。在划分数据挖掘的任务的时候,主要根据商业问题的性质来确定。以下是常见的数据挖掘的任务。(1)分类基于一个可预测属性把事例划分成多个类别,这就是分类。每个事例都包含有一组属性,其中有一个可预测属性,即类别(class)属性。分类任务的实现:找到一个模型,且该模型将类别属性定义为属性的函数。数据挖掘中的决策树算法、神经网络算法和贝叶斯算法都是典型的分类算法。分类是最常见的数据挖掘任务之一,像客户流失分析、风险管理以及广告定位之类的商业问题往往会涉及到分类。(2)聚类聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程,聚类又称为细分。它是一种无监督的

11、数据挖掘任务,没有一个属性用于指导模型的构建过程,所有的输入属性都是平等对待的。大多数聚类算法的实现过程:通过多次迭代来构建模型,当模型收敛的时候算法停止,换句话说就是当细分的边界变得稳定时算法停止。聚类分析又称为群分析,在商业中的典型应用就是:帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。另外,其他的应用领域还包括:生物种群划分、图像处理、模式识别、市场细分等。(3)关联关联是另一种常见的数据挖掘任务,也叫购物篮分析。关联是指如果两个或多个事物之间存在一定的关联,则其中一个事物就能通过其他事物进行预测。就关联来说,项是一个产品,也可以说是一个属性/值

12、对。关联任务的目的是为了挖掘出隐藏在数据间的相互关系,即找出频繁项集(Frequent Item sets)和关联规则(Association Rules)。大多数关联型算法的实现分为两个阶段。第一阶段通过多次扫描数据集来找频繁项集。频率阈值(支持度)在处理此模型之前由用户预先指定。假如支持度=5%,那么这意味着此模型只分析出现在至少 5%的购物车中的项。每一个项集都有大小,即频繁项集中所包含的项数。假设有这样一个频繁项集:产品=“可口可乐”,产品=“炸薯条”,产品=“果汁”,该项集的大小就是 3。第二阶段则由频繁项集中产生关联规则。假设 A、B、C 全部包含于频繁项集中,那么关联规则的格式就

13、是:带概率的 A,B=C。概率在数据挖掘中又称为置信度。这个概率(或置信度)是一个阈值,在构建关联规则模型之前由用户来指定。例如,一个典型的规则:产品=“可口可乐”,产品=“炸薯条”,产品=“果汁”,概率为 75%。该规则说明:如果一个客户购买了可口可乐和炸薯条,那么有 75%的可能性会买果汁。关联要解决一个典型的商业问题就是实现交叉销售。具体来说就是电子商务企业首先分析销售事务表,由此来确定哪些商品比较容易销售,哪些商品可以捆绑或搭配销售,哪些商品可以在某地区固定销售等,这样可以有效地提高商品的销售量,增加企业的利润。关联规则挖掘技术的其他应用:在西方金融行业企业中,它可以成功预测银行客户需

14、求。四、聚类算法和关联规则算法在电子商务推荐系统中的组合应用聚类算法用于客户的细分,将不同消费行为的顾客划分为不同的类别,以便能同时提供相似的服务,提高推荐对象的准确性,留住老客户,吸引新客户;关联规则算法,也称为购物篮分析,对顾客购物篮的分析主要目的是对顾客提供商品推荐和实现商品在特定地区的销售。这两部分之间不是各自独立的,而是相辅相成的,二者的组合可以大大提高推荐的效果。数据挖掘中的聚类技术提供了客户细分主要技术支持。聚类则在未知对象的具体差异的情况下,根据对象的若干属性,按照某种聚类算法对其进行划分的一种挖掘技术,而且划分的结果事先不知道。购物篮分析采用的重要技术是数据挖掘中的关联规则算

15、法。关联分析的目的是为了挖掘隐藏在数据间的相互关系。在电子商务中关联分析就是要找到客户对网站上各种文件之间访问的相互联系,从而找出客户购买行为的各种关联。关联分析生成的规则是带有可信度的,因为有时分析人员并不知道数据库中数据的关联函数,即使知道也可能是不能确定的。(一)聚类算法聚类分析主要研究的是统计学中“物以类聚”问题,是数据挖掘的一个重要研究分支。所谓聚类就是按照某种或某些属性将数据对象分组成多个类或簇,在同一个类或簇中的对象之间具有较高的相似度,而位于不同类或簇中的对象的相关属性差别比较大。聚类操作不仅仅对数据进行分组,它能发现用来对数据进行分组的隐含变量,从而可以对数据进行更深入的分析,以获取其他方法不可能获取的信息。聚类算法在销售行业的分析研究中非常流行。聚类技术在市场研究领域的应用是客户细分和市场细分,经常用于寻找特定的目标市场和目标客户群,为进一步的分析研究提供分类数据基础,即它还可以作为其他算法的处理步骤。另外,在其他领域也有广泛的应用,例如模式识别、图像处理、生物种群划分等。聚类分析可以作为一个独立的工具来获得数据发布的情况,观察每个类或簇的特点,集中对特定的某些类或簇做进一步的分析。Microsoft 聚类分析算法提供两种创建分类

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号