7 Web mining Web挖掘基础商业智能课件

资源描述

《7 Web mining Web挖掘基础商业智能课件》由会员分享，可在线阅读，更多相关《7 Web mining Web挖掘基础商业智能课件（27页珍藏版）》请在金锄头文库上搜索。

1、Web挖掘基础挖掘基础赵卫东赵卫东赵卫东赵卫东博士博士博士博士复旦大学软件学院复旦大学软件学院复旦大学软件学院复旦大学软件学院提纲提纲提纲提纲Web挖掘的概念挖掘的概念Web内容挖掘内容挖掘Web结构挖掘结构挖掘Web日志挖掘日志挖掘知识知识WWWWeb 挖掘的挑战挖掘的挑战WebWeb数据量太庞大：数据量太庞大：Server Level Collection、Client Level Collection和和 Proxy Level CollectionWebWeb数据的复杂性高于传统的文本文档数据的复杂性高于传统的文本文档WebWeb是一个动态性极强的信息源是一个动态性极强的信息源We

2、bWeb面对的是一个广泛的用户群体面对的是一个广泛的用户群体WebWeb上的信息只有很小的一部分是相关的或有用的上的信息只有很小的一部分是相关的或有用的Web挖掘与挖掘与IRWeb上的上的IRIR是是Web挖掘的一个方面，仅是对信息有序化。挖掘的一个方面，仅是对信息有序化。Web挖掘是智能化的挖掘是智能化的IRIR，IRIR出现早，技术成熟。出现早，技术成熟。Web挖掘概念挖掘概念Web挖掘是从大量挖掘是从大量Web文档的集合文档的集合C中发现隐含的、有用的中发现隐含的、有用的模式模式P的过程：的过程：CP 。Web挖掘主要处理文本、图形和图像等半结构、非结构化的挖掘主要处理文本、图形和图像等

3、半结构、非结构化的数据，这些数据分布在数据，这些数据分布在Web文档、文档、Web服务器的日志、用户服务器的日志、用户cookies等等。Web挖掘分类挖掘分类 Web挖掘挖掘类项目目Web内容挖掘内容挖掘Web结构挖掘构挖掘Web日志挖掘日志挖掘处理数据理数据类型型IR方法：无方法：无结构数据、半构数据、半结构数据构数据Web结构数据构数据用用户访问Web数据数据主要数据主要数据自由化文本、自由化文本、HTML标记的超文本的超文本Web文档内及文档文档内及文档间的超的超链Serverlog,Proxy serverlog,Client log表示方法表示方法词集、段落、概念、集、段落、概念

4、、IR的三种的三种经典模型典模型图关系表、关系表、图处理方法理方法统计、机器学、机器学习、自然、自然语言理解言理解机器学机器学习、专有算有算法法统计、机器学、机器学习、关关联规则主要主要应用用分分类、聚、聚类、模式、模式发现页面面权重重分分类聚聚类模式模式发现Web站点重建，商站点重建，商业决策决策Web内容挖掘内容挖掘基于网页内容或其基于网页内容或其描述中抽取知识的描述中抽取知识的过程。过程。Web内容挖掘主要内容挖掘主要包括文本挖掘和多包括文本挖掘和多媒体挖掘两类，其媒体挖掘两类，其挖掘对象包括文本、挖掘对象包括文本、图像、音频、视频图像、音频、视频和其他各种类型的和其他各种类型的数据。

5、数据。日志的预处理日志的预处理IP AddressTime/DateMethod/URIReferrerAgent202.120.224.415:30:01/2-Jan-01GET Index.htmhttp:/ok.edu/link.htmMozilla/4.0(IE5.0W98)202.120.224.415:30:01/2-Jan-01GET 1.htmhttp:/ex.edu/index.htmMozilla/4.0(IE5.0W98)202.120.224.415:30:01/2-Jan-01GET A.htmhttp:/ex.edu/index.htmMozilla/4.0(IE5

6、.0W98)202.120.224.415:37:09/2-Jan-01GET E.htmhttp:/ex.edu/C.htmMozilla/4.0(IE5.0W98)202.120.224.415:33:04/2-Jan-01GET Index.htmhttp:/ok.edu/res.phpMozilla/4.0(IE4.0NT)202.120.224.415:33:04/2-Jan-01GET 1.htmhttp:/ex.edu/index.htmMozilla/4.0(IE4.0NT)202.120.224.415:33:04/2-Jan-01GET A.htmhttp:/ex.edu/

7、index.htmMozilla/4.0(IE4.0NT)202.120.224.415:35:11/2-Jan-01GET B.htmhttp:/ex.edu/A.htmMozilla/4.0(IE4.0NT)202.120.224.415:35:11/2-Jan-01GET C.htmhttp:/ok.edu/A.htmMozilla/4.0(IE5.0W98)Web文本挖掘文本挖掘 Web文本挖掘针对包括文本挖掘针对包括Web页面内容、页面结构和用户访问页面内容、页面结构和用户访问信息等在内的各种信息等在内的各种Web数据，应用数据挖掘方法发现有用的知数据，应用数据挖掘方法发现有用的知识

8、帮助人们从大量识帮助人们从大量Web文档集中发现隐藏的模式文档集中发现隐藏的模式。Web文本挖掘的方法文本挖掘的方法文本概括文本概括：从文本（集）中抽取关键信息，用简洁的形式总结文从文本（集）中抽取关键信息，用简洁的形式总结文本（集）的主题内容本（集）的主题内容。例如搜索引擎在向用户返回查询结果时，例如搜索引擎在向用户返回查询结果时，通常需要给出文本摘要通常需要给出文本摘要。文本分类文本分类：把一些被标记的文本作为训练集，找到文本属性和文把一些被标记的文本作为训练集，找到文本属性和文本类别之间的关系模型，然后利用这种关系模型判断新文本的类本类别之间的关系模型，然后利用这种关系模型判断新文本

9、的类别。召回率和精度。别。召回率和精度。文本聚类文本聚类：根据文本的不同特征划分为不同的类根据文本的不同特征划分为不同的类。从大量文档中发现一对词语出现模式的关联分析以及特定数据在从大量文档中发现一对词语出现模式的关联分析以及特定数据在未来的情况预测。未来的情况预测。 Web文本挖掘的应用文本挖掘的应用搜索引擎领域：利用搜索引擎领域：利用Web文本挖掘可以更合理地组织搜文本挖掘可以更合理地组织搜索结果：按照页面之间的相似程度分为若干簇索结果：按照页面之间的相似程度分为若干簇。自然语言理解领域自然语言理解领域：结合自然语言处理技术和结合自然语言处理技术和Web文本文本挖掘技术挖掘技术。文本挖

10、掘在垃圾邮件过滤中的应用文本挖掘在垃圾邮件过滤中的应用Web多媒体挖掘多媒体挖掘 Web多媒体挖掘是从大量多媒体数据中通过综合分析多媒体挖掘是从大量多媒体数据中通过综合分析视听特性和语义，发现隐含的、有价值的和可理解的视听特性和语义，发现隐含的、有价值的和可理解的模式，得出事件的趋向和关联，为用户提供决策支持。模式，得出事件的趋向和关联，为用户提供决策支持。多媒体挖掘包括图像挖掘、视频挖掘和音频挖掘等类多媒体挖掘包括图像挖掘、视频挖掘和音频挖掘等类别别。多媒体挖掘系统的结构多媒体挖掘系统的结构多媒体挖掘的典型应用多媒体挖掘的典型应用视频挖掘视频挖掘：从电影、监控录像等视频数据中提取视频场从

11、电影、监控录像等视频数据中提取视频场景内容和其中运动对象的特征及其时空位置变化，并在景内容和其中运动对象的特征及其时空位置变化，并在此基础上发现场景的内容特征，运动对象的行为模式和此基础上发现场景的内容特征，运动对象的行为模式和事件模式等事件模式等。在线诊疗系统在线诊疗系统：对新产生的医学图像进行分类，从而对对新产生的医学图像进行分类，从而对病人进行疾病的诊断病人进行疾病的诊断。Web结构挖掘结构挖掘有用的知识不仅存在于有用的知识不仅存在于Web页面间的链接结构和页面间的链接结构和Web页页面内部结构，而且也存在于面内部结构，而且也存在于URL中的目录路径结构（页中的目录路径结构（页面之间的

12、目录结构关系）面之间的目录结构关系）。Web结构挖掘是指挖掘结构挖掘是指挖掘Web链接结构模式，即通过分析链接结构模式，即通过分析页面链接的数量和对象，从而建立页面链接的数量和对象，从而建立Web的链接结构模式。的链接结构模式。Web结构挖掘主要方法结构挖掘主要方法PageRank算法算法HITS算法算法WebLogIndexSESpiderSpamFreshnessQuality results20M queries/dayBrowser800M pages?24x7SESEPageRank算法算法PRi ：the PageRank value of page iPRj : the Page

13、Rank value of page jkj ：number of the pages j refer tod：a parameter ranging 0,1.Web结构挖掘的应用结构挖掘的应用信息检索信息检索社区识别社区识别网站优化网站优化 Web日志挖掘日志挖掘 Web日志挖掘是从用户访问日志（包括日志挖掘是从用户访问日志（包括搜索引擎日志等搜索引擎日志等）中）中获取有价值的信息，即通过分析获取有价值的信息，即通过分析Web日志数据，发现访问者日志数据，发现访问者存取存取Web页面的模式。页面的模式。理解用户的行为，改进站点结构，发现潜在用户，为用户提理解用户的行为，改进站点结构，发

14、现潜在用户，为用户提供个性化的服务，增强网站的竞争力。供个性化的服务，增强网站的竞争力。 Web日志挖掘的应用日志挖掘的应用获取用户访问模式信息，理解用户的意图和行为获取用户访问模式信息，理解用户的意图和行为分析用户的存取模式，为用户提供个性化的服务分析用户的存取模式，为用户提供个性化的服务确定网站的潜在客户群，合理制订网络广告策略等确定网站的潜在客户群，合理制订网络广告策略等改进改进WebWeb站点的结构，使网站点随时间、用户需求的变化而不断调站点的结构，使网站点随时间、用户需求的变化而不断调整整对日志数据进行多种统计，包括频繁访问页、单位时间访问频度、对日志数据进行多种统计，包括频繁访问

15、页、单位时间访问频度、访问量的时间分布等访问量的时间分布等利用关联规则确定相关利用关联规则确定相关Web查询（查询修正）查询（查询修正）隐私保护数据挖掘隐私保护数据挖掘数据挖掘可能会违反用户的隐数据挖掘可能会违反用户的隐私私在原始数据库中，类似于标识在原始数据库中，类似于标识符、姓名、地址和喜好等数据符、姓名、地址和喜好等数据作为用户的隐私应该被保护。作为用户的隐私应该被保护。对用户的敏感的原始数据进行对用户的敏感的原始数据进行变换，以便数据的使用者不能变换，以便数据的使用者不能对用户的原始数据进行查看，对用户的原始数据进行查看，以此保护用户的私有数据。以此保护用户的私有数据。病人原始病历编号

16、编号姓名姓名性别性别年龄年龄是否发热是否发热呼吸困难呼吸困难淋巴细胞数淋巴细胞数(10(109 9/L)/L)1张三男40是是1.22李四男25否是0.63王五女29是是0.8转换后的病历信息008650469202124597920071164880015347179502489290600016528691000000001202676257440000000168015018528001501852800002500126000000001602676257440000000108032565457501501852800002500102000000002000327452000000000124015018528001501852800002500112医疗数据挖掘隐私保护医疗数据挖掘隐私保护

展开阅读全文

7 Web mining Web挖掘基础 商业智能课件

最新文档

7 Web mining Web挖掘基础商业智能课件