数据挖掘系列讲座九、电子商务与数据挖掘剖析

资源描述

《数据挖掘系列讲座九、电子商务与数据挖掘剖析》由会员分享，可在线阅读，更多相关《数据挖掘系列讲座九、电子商务与数据挖掘剖析（30页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘系列讲座九,电子商务与数据挖掘,基于WEB日志的用户访问模式挖掘,电子商务与数据挖掘完美结合,在电子商务中进行成功的数据挖掘得益于：电子商务提供海量的数据如果一个电子商务网站平均每个小时卖出五件物品，那么它一个月的平均点击量是160万次。丰富的记录信息良好的WEB站点设计将有助于获得丰富的信息干净的数据从电子商务站点收集的都是电子数据，无需人工输入或者是从历史系统进行整合研究成果容易转化在电子商务中，很多知识发现都可以进行直接应用投资收益容易衡量,电子商务为数据挖掘提供海量数据,“点击流”（Clickstreams）将会产生电子商务挖掘的大量数据 Yahoo!在200

2、0年每天被访问的页面数是10亿，如此大的访问量将会产生巨大的Web日志（记载页面访问的情况），每个小时产生的Web日志量就达到10GB！即便是一个小的电子商务站点，也会在断时间内产生进行数据挖掘所需的大量数据计算一下，如果你的站点一个小时卖出5件物品，一个月会有多少页面访问： 5件24小时30天/2（转化率，表示访问的人中买东西的人的比率）9页面（平均买一件物品要访问9个页面）1,600,000页面,丰富的记录信息,如果你的电子商务站点设计的好，你将可以获得各种商务的或者是用户访问的信息：商品和商品的属性商品的归类信息（当同时展示多种商品是，归类信息是非常有用的）促销信息关于访问的

3、信息（比如：访问计数）关于客户额信息（可以通过登陆/注册来获得）,“干净的数据”,信息直接从网站上提取无需从历史系统中集成，避免很多错误可以通过良好的站点设计，直接获得跟数据挖掘有关的数据而不是再来分析、计算、预处理要用的数据直接收集的电子数据可靠无需人工数据输入，避免了很多错误可以通过良好的站点设计，良好的控制数据采样的颗粒度颗粒度控制在客户级别或者是session级别，而不是页面级别,有趣的“生日现象”,一个银行通过对客户数据统计发现，它的5的客户都是在同一天出生的（同年同月同日）！为什么？如何解释？,研究成果容易转化,历史上的数据挖掘研究有过许多的知识发现，但是这些

4、知识发现却很少在实际的商业应用中产生什么效果要应用这些发现的知识可能意味着要进行复杂的系统更改、流程更改或是改变人们的办事习惯，这在现实中是非常困难的。在电子商务中，很多知识发现都可以进行直接应用改变站点的设计（改变布局，进行个性化设计等）开始有目标的促销根据对广告效果的统计数据改变广告策略可以很容易的提供捆绑销售,投资收益容易衡量,使用数据挖掘成果的革新带来的收益如何衡量？在传统的商业中衡量投资收益需要长期的测量和观察，Paco Underhill在购物的科学一书中提及，一个超市为了衡量他们的促销策略带来的投资收益，每年要花14,000个小时查看录像带。在电子商务中，衡量革新

5、的投资收益是非常容易的销售变化的报表可以自动产生客户对电子邮件和电子调查的反馈都可以在几天内得到，而不必等个几个月电子商务乃至整个互联网都是传统商业的理想试验室。,对电子商务网站的Web数据挖掘,通常在一个电子商务网站上应用的数据挖掘技术是Web数据挖掘。我们可以在一个电子商务网站挖掘些什么东西？内容挖掘 (Web Content Mining) 结构挖掘 (Web Structure Mining) 使用挖掘 (Web Usage Mining),Web Content Mining,对Web页面内容进行挖掘，从Web数据中发现信息。自动地从数以百万计的Web站点和在线数据库中搜

6、索和获取信息和资料; 尽管人们可以直接从网上通过抓取建立索引，实现检索服务来获得资源，但是大量的“隐藏”信息只能通过内容挖掘来自动挖掘。,Web Structure Mining,Web Structure Mining是对Web页面之间的结构进行挖掘。在整个Web空间，有用的知识不仅包含在页面的内容中，而且也包含在页面的结构中。 Web结构挖掘主要针对的就是页面的超链接结构，如果有较多的超链接指向它，那么该页面就是重要的，发现的这种知识可用来改进搜索路径等。,Web Usage Mining,与Web Content Mining和Web Structure Mining不同的是，Web

7、Usage Mining的挖掘对象是用户和网络交互过程中抽取出来的二手数据，这些数据主要是用户在访问Web时在Web日志里留下的信息，以及其它一些交互信息，日志信息包括访问日期、时间、用户IP地址、服务器IP地址、方法、所请求URL资源、服务器响应状态、用户代理、发送字节等。 Web Usage Mining就是对系统日志信息，以及用户的注册数据等进行挖掘，以发现有用的模式和知识。,Web Usage Mining的作用,通过对电子商务网站应用Web Usage Mining数据挖掘技术，可以提高站点的质量改善WEB缓存，缓解网络交通，提高性能在电子商务中还可捕捉到大量的采购过程的细节

8、，为更加深入的分析提供了可能,Web日志 (1),典型的日志文件片断 - - 01/Aug/1995:00:01:38 -0400 “GET/shuttle/missions/sts-71/images/images.html HTTP/1.0“ 200 8529 133.43.96.45 - - 01/Aug/1995:00:01:39 -0400 “GET/shuttle/missions/sts-72/mission-sts-72.html HTTP/1.0“ 200 3804 133.68.18.180 - - 01/Aug/1995:00:01:48 -0400 “GET /pers

9、ons/nasa-cm/jmd.html HTTP/1.0“ 200 4067,WEB日志通常包含7个字段：第一项：远程主机的地址，即它表明访问网站的究竟是谁。第二项：浏览者的email地址或者其他唯一标识符。到了今天，我们在日志记录的第二项看到email地址的机会已经微乎其微，所以上面用-，标志字段为空,Web日志 (2),典型的日志文件片断 - - 01/Aug/1995:00:01:38 -0400 “GET/shuttle/missions/sts-71/images/images.html HTTP/1.0“ 200 8529,第三项：记录浏览者进行身份验证时提供的名字；对于不需

10、要用户身份验证的网站，这个字段都是空白-；第四项：请求的时间；第五项：告诉我们服务器收到的是一个什么样的请求。该项信息的典型格式是“METHOD RESOURCE PROTOCOL”，即“方法资源协议”；这是Web日志中最有用的信息，在上面的示例中 METHOD是GET RESOURCE是指浏览者向服务器请求的文档，或URL PROTOCOL通常是HTTP，后面再加上版本号。,Web日志 (3),典型的日志文件片断 - - 01/Aug/1995:00:01:38 -0400 “GET/shuttle/missions/sts-71/images/images.html HTTP/1.

11、0“ 200 8529,第六项：状态代码。它告诉我们请求是否成功，或者遇到了什么样的错误。大多数时候，这项值是200，它表示服务器已经成功地响应浏览器的请求，一切正常。第七项：发送给客户端的总字节数。,Web Usage Mining的基本过程,进行Web Usage Mining主要是通过对系统日志信息的数据挖掘 Web 服务器日志 Error Logs Cookies Web Usage Mining的基本实现过程预处理模式发现模式分析,预处理,通过预处理，使挖掘过程更有效、更容易数据清洗其目的在于把日志文件中一些与数据分析、挖掘无关的项清除掉；比如：剔除用户请求方法中不是G

12、ET的记录；用户识别日志文件只是记录了主机或代理服务器的IP地址，要识别用户，需要Cookie技术和用一些启发规则来帮助识别; 路径补充确认Web日志中是否有重要的页面访问记录被遗漏; 事件识别事件识别是与要挖掘什么样的知识有关，将用户会话针对挖掘活动的特定需要进行事件定义。,模式发现,在经过预处理后的数据上应用各种数据挖掘的功能和算法，挖掘出有用的模式和规则的过程。 Web Usage Mining中用到的Web日志分析及用户行为模式的挖掘方法包括: 关联分析分类和预测聚类分析序列模式统计分析,Web Usage Mining关联分析（1）,通过分析用户访问网页间的潜在联系而

13、归纳出的一种规则; 如80%的用户访问Web页面/company/product1时，也访问了/company/product 2; 常用算法 Apriori算法或其变形算法，频繁模式树（FP-树）算法等等，挖掘出访问页面中频繁的在一起被访问的页面集比如可以通过,A=B=C A=B=D,A=B,A=B=E =F,Web Usage Mining关联分析（2）,可以使用通过关联分析挖掘出来的频繁项集（页面集）来预取可能请求的页面，以减少等待时间，对于频繁项集（页面集）A,B,在用户访问A时，将页面B调入缓存中，从而改善Web缓存，缓解网络交通，提高性能促进网上商务对于频繁项集A,B，如

14、果分别代表两个产品的页面，则说明这两个产品间存在相关性，可以利用这点在电子商务的实践中给出更有效的促销策略或广告策略,Web Usage Mining分类和预测,分类和预测功能可以用来提取描述重要数据类的模型，并使用模型预测来判定未知数据的类标号，从而预测未来的数据趋势。常用算法：判定归纳树、贝叶斯分类、k-最近邻分类等应用：可以根据用户的个人资料或者其特定的访问模式，将其归入某一特定的类可以根据用户对某类产品的访问情况，或者时根据其购物情况，或者根据其抛弃购物车的情况，来决定用户的分类（e.g. 对电子产品感兴趣的用户），并对相应的分类使用相应的促销策略。,Web Usage Mini

15、ng聚类分析（1）,聚类：将对象的集合分组成为由类似的对象组成的多个类的过程。（与分类的区别？）常用聚类算法：划分方法、层次的方法、基于密度的方法等等。在Web Usage Mining应用中包含着两种聚类。页聚类将内容相关的页面归在一个网页组，对网上搜索引擎及提供上网帮助很有用用户聚类将具有相似访问特性的用户归在一起，在电子商务的市场分割和为用户提供个性化服务中，能发挥巨大作用,Web Usage Mining聚类分析（2）,聚类分析可以喜好类似的用户，从而动态地为用户定制观看的内容或提供浏览建议。比如：购买推荐系统或动态促销系统作用： 1)方便用户查询和浏览 2)增强广告的

16、作用 3)促进网上销售 4)提高用户忠诚度,Web Usage Mining统计分析（1）,统计分析通过求出现率、求平均、求中值等，统计最常访问的网页，每页平均访问的时间，浏览路径的平均长度等，以获得用户访问站点的基本信息。还能提供有限的低层次的错误分析，比如检测未授权入口点，找出最常见不变的URL等。可以用来计算客户对某页面的访问次数，停留时间等，得到访问次数最多的页面（或产品、URL等）,Web Usage Mining统计分析（1）,常用的电子商务网站用户访问数据统计（节选）平均一个用户访问810个页面在站点上花5分钟每个页面上花35秒平均一个购物的用户访问50个页面在站点上花30分钟这是经过大量的数据统计得出的结果，具有高度一致性。,Web Usage Mining序列模式,序列模式试图找出页面依照时间顺序出现的内在模式序列模式可以用来做用户的浏览趋势分析，即一组数据项之后出现另一组数据项，从而形成一组按时间排序的会话，以预测未来的访问模式，这将有助于针对特别

展开阅读全文