内容挖掘幻灯片－金锄头文库

资源描述

《内容挖掘幻灯片》由会员分享，可在线阅读，更多相关《内容挖掘幻灯片（23页珍藏版）》请在金锄头文库上搜索。

1、内容挖掘,内容,一、内容挖掘的定义二、国内外的研究情况三、内容挖掘的分类四、内容挖掘的相关算法及其应用五、参考文献,一、内容挖掘的定义,Web上的信息量随着因特网的飞速发展以惊人的速度增长，面对Web上海量、分布、动态、异质、复杂、非结构化的丰富信息资源，用户如何从中查找、抽取自己想要的数据和有用信息，由此产生了Web挖掘技术。 Web挖掘就是从大量的Web文档和Web活动中发现、抽取感兴趣的、潜在的有用模式和隐含的、事先未知的、潜在的信息。Web信息的多样性决定了Web挖掘任务的多样性。Web挖掘可分为三类：Web内容挖掘、Web结构挖掘和Web应用挖掘。 Web内容挖掘是指对We

2、b页面内容进行挖掘，从Web文档的内容信息中抽取知识。Web内容挖掘是一种基于网页内容的Web挖掘,是从大量Web数据中发现信息、抽取有用知识的过程。Web内容挖掘是Web挖掘的一个重要方面。,二、国内外研究现状,(1)国外研究概况 Web内容挖掘和信息检索有较深的渊源，因此，许多技术都是源自信息检索领域。互联网上信息量大，由于这些信息缺乏结构化、组织的规整性，目前几乎所有的互连网查询工具(搜索引擎)都面临匹配的查准率低，给出的查询结果大量冗余而查全率又不高的问题。对这个问题的研究，大致有两个方向：一是从信息检索角度研究这个问题，主要研究如何处理文本格式和超链接文档，这些数据是非结构化或者是

3、半结构化的。数据以词组、短语、n-维词元、词包等形式表示，采用TFIDF(文档特征权值表示常用方法)和变量、机器学习和词组统计包括自然语言的统计等研究方法对文档进行分类、聚类，研究抽取词组在文档中出现的规律。Craven等研究了用关系模型表示文档内容，采用修改了的贝叶斯算法，给超文本链接分类，寻求Web页面关系，抽取规则。Crimmins研究了用短语、超级链接和信息元表示,文档内容，采用自动和非自动学习的分类算法，对文档进行聚类和分层分类。Furnkranz和Joachims用超级链接信息表示文档内容，采用规则学习算法PTFIDF，对超级链接文档进行分类。二是从数据库角度研究，主要处理半结构

4、化的Web数据库，也就是超级链接文档。数据多采用带权图或者对象嵌入模型(Object Embedded Model OEM)，或者关系数据库表示，应用Proprietary算法或者经过修改了的关联规则挖掘算法，寻找出网站页面之间的内在联系。Goldman、Nestorov等人用OEM表示文档，采用Proprietary算法，分别在半结构化数据中，寻找标引字段和数据的层次结构。Zaiane等用关系数据库表示数据，采用面向对象的推理方法，寻找多层次数据库的构建策略，为文献标引提供决策依据。无论是从IR角度还是从数据库角度研究，都是为了研究如何实现文本分析(Text Analysis)、文本解释(

5、Text Interpretation)和文本分类(Text Classification)等工作的自动化。从而提高网上搜索引擎的查准率和查全率。,(2)国内研究概况国内互联网是从1997年开始迅速蓬勃发展起来的，国内学者从1999年才开始关注Web数据挖掘，与国外相比起步较晚。周斌等介绍了采用E-OEM模型，并用5个用户访问模式做训练数据集，尝试着进行了关联规则挖掘。刘明吉等提出了基于遗传算法的Web文本特征的算法，进一步提高Web文本处理的效率，为文本分类、聚类以及其他处理提供了简练的特征表示方法。 Web数据挖掘在国内已经逐渐引起人们的关注。但是，由于起步比较晚，还没有开发出具有商

6、用价值的系统，而且国内大多数网站经营管理者对发掘有用信息的重要性认识不充分，网络管理人员还停留在关注服务器性能阶段，还没有达到关注网站服务质量的层次。,以往的研究大都是对Web数据挖掘的某一部分在某个特定领域的应用，目前，国内外都有一种把不同部分结合起来进行研究的趋势。如：Web内容挖掘和Web应用挖掘的集成在国内外都得到了广泛的研究，在Web使用挖掘的过程中引入Web内容挖掘的结果，可以更准确地找到具有相似爱好的用户，从而根据这些知识为不同的用户类定制个性化的服务，优化网络拓扑结构，方便用户快速地找到感兴趣的内容。,挖掘的结合使用,三、内容挖掘的分类,Web内容挖掘是指从Web的文档内容或描

7、述中抽取知识，它包括：从www上提取信息的搜索引擎；从Web上提取信息的智能搜索工具；Web信息结构化；HTML页面内容挖掘。 Web内容挖掘主要有两种方式：直接挖掘文档的内容；根据搜索引擎的查询结果进行挖掘。按所挖掘内容的类型划分，Web挖掘分为Web文本挖掘和多媒体文本挖掘。,文本挖掘的定义,Web文本挖掘是以计算语言学、统计数理分析为理论基础，结合机器学习和信息检索技术，从大量的文本数据中发现和提取隐含的、事先未知的知识，最终形成用户可理解的、有价值的信息和知识的过程。作为一个新的数据挖掘研究领域,目前尚无统一的、确切的定义。内容挖掘多为基于文本信息的挖掘。按照文本挖掘的对象可把文本

8、挖掘分为：基于单文档的数据挖掘和基于文档集的数据挖掘。基于单文档的数据挖掘对文档的分析并不涉及其它文档，其主要的挖掘技术有：文本摘要、信息提取 (包括名字提取、短语提取、关系提取等)。基于文档集的数据挖掘是对大规模的文档数据进行模式抽取，其主要的技术有：文本分类、文本聚类、个性化文本过滤、文档作者归属、因素分析等。从功能上Web文本挖掘主要是对Web上大量文档集合的内容进行总结、分类、聚类、关联分析以及利用Web文档进行趋势预测等。Web文本挖掘中，文本的特征表示是挖掘工作的基础，文本的分类和聚类是最重要、最基本的挖掘功能。,多媒体文本挖掘定义,多媒体文本数据挖掘(Multimedia

9、 Text data Mining，MTM)是数据挖掘的一个新的研究课题，也是多媒体数据挖掘中一个热点课题，它能洞察多媒体文档中用传统方法无法发现的模式。多媒体文本数据挖掘是指从多媒体文本数据中抽取事先未知的、隐藏的、完整的、新颖的知识，为决策领域提供服务的过程。Web多媒体信息挖掘通常采用的方法有关联规则法和特征提取法。也有人把数据挖掘分为两部分内容挖掘和应用挖掘。（基于WEB的数据挖掘技术WEB内容挖掘的设计与实现一文涉及到）,四、Web内容挖掘的相关算法以及相应的应用,4.1 Web内容挖掘的相关算法 Web文本挖掘中，文本的分类和聚类是最重要、最基本的挖掘功能。Web多媒体信息挖掘

10、通常采用的方法有关联规则法和特征提取法。本报告中主要讨论一下分类法、聚类法和关联规则的相关算法。（1）分类法分类法就是根据数据Web数据的某些属性分成若干簇，各簇之间可以由判别函数分割区分。分类方法的核心就是通过训练的方法找出显示或隐藏的判别函数，然后用判别函数对凸集进行研究、分割归类。判别函数的实现方法：令X为实赋范线性空间,其对偶空间为X*。令算子fX*，于是，。令K为X中的一个,凸集，则定义于X*中K的支撑泛函数，此函数起着判别函数的作用。 (2)聚类分析法聚类算法在工程技术领域发挥着十分重要的作用，如模型识别、系统模拟、图像处理、通信、数据挖掘等。聚类分析是将预先不知道数

11、据到底有多少类，通过数据建模简化数据，以某种度量为标准的相似性，实现在同一聚类之间的样本差异最小化，而在不同聚类样本之间的差异最大化的一种挖掘技术。聚类技术能把不同格式的数据快速分簇，其中主要有K-均值聚类方法。 K-均值聚类方法是一种在无类标号数据中发现簇和簇中心的方法，通过迭代把对象划分到不同的簇中，以求目标函数最小化，使生成的簇尽可能地紧凑和独立。,设需分析的样本为Xi，i = 1，2 ，N。给定一组初始中心Ck，k=l，2 ，K。初始中心可以是从训练数据中随机选择的个体。K-均值算法交替执行的步骤： (1) 对每个样本Xi，找出离它最近的中心点( 簇) ： k = arg min k

12、（l，2 ，K ）d（ Ck ,Xi ）, k=l，2 ，K (2) 计算每个簇中数据点的均值，并且该均值向量成为该簇新的中心：其巾nk为第 k簇包含的样本数。,（3）关联规则技术关联分析是从数据库中发现知识的一种重要方法，在多个数据中找到某种关联，并建立相应的关联规则。如在超级市场，顾客买电磁炉，通常还买电磁锅，这就是一种关联。关联规则的任务就是要找出满足预先指定的频率和精度标准的所有规则,最常用的方法是Apriori算法和FP-growth算法。Apriori算法的核心是通过迭代检索出事物数据库中的所有频繁项集，然后从频繁项集中构造出满足用户最低信任度的规则。设I=（i1,i2,i

13、m）是文本数据和多媒体数据项目的集合，D为事务数据库，事务T是一个项目子集合，对应每个事务具有唯一的事务标志。设A是I中项构成的集合，称其为项集，当且仅当，则事务T含项集A。如果项集A中包含 k个项日，则称之为k项集。集A在事务数据库中D出现的次数，占D中的总事务的百分比为项集的支持度。如果项集的支持度超过用户给定的最小支持度阚值，就称该项集是频繁项集（或大项集）。关联规则是形如,的逻辑蕴含式，其中 ,且且AB不为空。如果事务数据库D有s的事务包含AUB，则表示关联规则的支持度为s，即s= P(AUB)。若事务数据库D有c的事务包含A项集的同时也含B项集。则关联规则在数据库中具有c

14、的可信度，即c=P(BA) 。因此可得： Support ( ) = P(AUB) Confidence ( )=P(BA) 简单的说，支持度是选项A和选项B同时出现的概率，可以用公式P(AUB) 来表示，置信度是在选项A出现的前提下，选项B出现的概率，可以用公式 P(BA) 来表示。同时满足最小支持度阀值和最小可信度阀值的规则称之为关联规则。,4.2 相应应用由于Web内容挖掘和平面文本挖掘的渊源关系，因此，Web内容挖掘可以借鉴文本挖掘的思想来对Web文档集合进行分类、聚类，关联分析以及趋势预测等。分类是按照主题的特征规则，对一新的Web文档进行判断，确定其属于哪一类主题。Web内容

15、挖掘一个广泛的应用就是对大量的Web应用文档进行自动分类。目前，Yahoo!、Sohu等搜索引擎通过手工对文档进行分类，其索引页面的覆盖范围远远小于已使用了自动分类的Google等。分类技术还可以集合机器学习来设计用于个人的文件过滤系统，一些邮件系统已成功应用该技术来过滤垃圾邮件。而文本聚类是将文档集划分成若干个簇，需要满足簇内文档内容的相似度尽可能的大，而簇间的相似度尽可能的小。研究文本聚类的意义在于：与用户查询相关的文档通常会与聚类比较近，而远离与用,户不相干的文档。所以利用文本聚类技术将搜索引擎的结果划分为若干个簇，用户只需要考虑那些相近相关的簇，从而用户可以大大减少浏览页面的数量。

16、对文本进行关联分析，旨在从文档集合中找出不同特征词条之间的关联和相互关系。用户的背景和目的不同，使得他们研究的文档集合的类型和角度不同。基于不同的被处理的文档和词条集合，可分别挖掘出不同类型人感兴趣的模式，从中导出各自感兴趣的规律。Brin利用一种挖掘对词条出现的模式的算法在Web上寻找作者和书名的出现模式，结果发现数千本在Amazon网站上找不到的新书籍。 Web内容挖掘是Web数据挖掘的一个重要的领域，有着及其广泛的应用前景。,笼统地说，基于Web的数据挖掘可以在广义上定义为从WWW上发现和分析有用的信息。这个定义包含了两层含义：自动的在线信息搜索，也就是在WWW资源上进行的信息发现，称为Web内容挖掘；研究用户访问Web服务器的模式，也就是挖掘用户浏览、访问WWW的模式，称作Web应用挖掘。 Web内容挖掘是Web挖掘的一个重要方向，它包括基于代理访问和数据库访问。其中，基于代理访问分为：智能搜索代理、

展开阅读全文

内容挖掘幻灯片

最新文档