数据挖掘与知识发现

资源描述

《数据挖掘与知识发现》由会员分享，可在线阅读，更多相关《数据挖掘与知识发现（24页珍藏版）》请在金锄头文库上搜索。

1、第12章文本数据挖掘与Web挖掘技术第 1 节文本挖掘概述1.1 文本挖掘的出现在现实世界中，我们面对的数据大都是文本数据，这些数据是由各种数据源（如新闻文章、研究论文、书籍、数字图书馆、电子邮件和 Web 页面等）的大量文档组成。所以，随着文档信息量的飞速增长，文本数据的数据量也急剧地增长。文本数据是所谓的半结构化数据（Semi-StructureData）,它既不是完全无结构的也不是完全结构化的。如，文档可能包含结构字段，比如：标题、作者、出版日期长度、分类等，也可能包含大量的非结构化的文本，如摘要和内容。文本挖掘（Text Mining，国外有人称之为文本数据挖掘（Text D

2、ata Mining和文本分析（Text Analysi）。文本挖掘一词大约出现于1998年4月在欧洲举行的第十届机器学习会议上，组织者Kodratoff明确地定义了文本挖掘的概念，并分清它与“信息检索”的不同点和共同点。Kodratoff认为，文本挖掘的目的是从文档集合中搜寻知识，并不试图改进自然语言理解，并不要求对自然语言的理解达到多高水平，而只是想利用该领域的成果，试图在一定的理解水平上尽可能多地提取知识。因此，文本挖掘需要数据挖掘、语言学、数据库以及文本标引和理解方面的专家参与。我国于1998年在国家重点基础研究发展规划（“973 计划”）首批实施项目中，包括了文本挖掘

3、的内容。1.2 文本挖掘的基本概念1、概念文本挖掘是一个从大量文本数据中提取以前未知的、可理解的、可操作的知识的过程。文本数据包括：技术报告、文档集、新闻、电子邮件、网页、用户手册等。文本挖掘对单个文档或文档集（如， Web 搜索中返回的结果集）进行分析，从中提取概念，并按照指定的方案组织、概括文档，发现文档集中重要的主题。它除了从文本中提取关键词外，还要提取事实、作者的意图、期望和主张等。这些知识对许多，如市场营销、趋势分析、需求处理等，都是很有用的。2、任务主要任务有：1）文本标引和短语提取，即在读取大量的非结构化文本时，应用自然语言处理技术提取文本，集中所有相关的短语

4、。提取时要处理同义词和词义模糊现象。可以形象地把文本挖掘看作是一支荧光笔，它通读文本时高亮度显示有关的短语，这些短语放在一起就可以得到对文本的一个较好的理解。（2）概念提取（聚类），即对这些短语之间的关系，建立一个“词汇网”；将相关短语分组，并增强这些组中最重要的特征；最后得到的模式反映了该文本集中的主要概念。然后，通过提取出的概念集发现未知的知识。（3）可视化显示和导航。对挖掘得来的信息（词频、相关概率、时事性话题、地域依赖信息、时间序列等），可以从多个视角出发进行分析。3、文本挖掘与数据挖掘相似点在于：两者都处理大量的数据，都有归属到知识管理的知识发现领域中。差别在于

5、：许多经典的数据挖掘算法，如数值预测、决策树等都不太适用于文本挖掘，因为它们依赖于结构化的数据。而像概念关系分析等工作则是文本挖掘所独有的，如表所示。文本挖掘与数据挖掘的区别数据挖掘文本挖掘研究对象用数字表示的、结构化的数据无结构或者半结构化的文本对象结构关系数据库自由开放的文本目标抽取知识，预测以后的状态检索相关信息，提取意义，分类方法归纳学习、决策树、神经网络、粗糙集、遗传算法等标引、概念抽取、语言学、本体成熟度从1994年开始得到了广泛应用从2000年开始得到了应用1.3 文本挖掘与信息检索信息检索是文本挖掘相关的一个概念，但它与文本挖掘又是不同的两个概念。信息检索

6、是指从大量的文档集合C中，找到与给定的查询请求q相关的、恰当数目的文档子集 S 的过程。区别主要表现在如下几个方面：(1) 方法论不同信息检索是目标驱动的，用户需要明确提出查询要求；而文本挖掘结果独立于用户的信息需求，是用户所无法预知的。I ( 2)着眼点不同III信息检索着重于文档中字与词和链接；而文本挖掘在于理解文本的内容和结构。III ( 3)目的不同I2.1 文本特征的表示与数据库中的结构化数据相比，文档具有有限的结构，或者根本就没有结构。即使具有一些结构，也是着重于格式，而非文档内容。不同类型的文档结构也不一致I 信息检索的目的在于帮助用户发现资源，即从大量的文本中找到满足其

7、查询请求II 的文本子集；而文本挖掘是为了揭示文本中隐含的知识。II( 4)评价方法不同II信息检索用査准率(Precision,检索到的文档中的相关文档占全部检索到的文档I装的百分比)和査全率(Recall,即被检索出的文档中的相关文档占全部相关文档的百I分比)来评价其性能，要求尽可能多的检索出相关文档，同时不相关的文档尽可能II 少。而文本挖掘采用收益(Gain)、置信度(Certainty)、简洁性(Simplicity等来衡量II 所发现知识的有效性、可用性和可理解性。订I( 5、使用场合不同I有时信息检索系统返回太多的结果以致用户无法一一浏览，有时用户没有明确的II信息需求，有时用户

8、希望发现文档集合中所具有的结构、趋势、含义，在这些场合I1下，就需要使用挖掘技术。I尽管文本挖掘是比信息检索层次更高的技术，但它并不是用来取代信息检索技术II的，二者是相辅相成的。一方面，这两种技术各有所长，有各自适用的场合；另一III方面，可以利用文本挖掘的研究成果来提高信息检索的精度和效率，改善检索结果I的组织，使信息检索系统发展到一个新的水平。IIIIIIII第 2 节文本特征表示与提取IIII此外，文档的内容是人类所使用的自然语言，计算机很难处理其语义。文本信息源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上。这就需要对文本进行预处理，抽取其特征的元数据。这些特征可以用

9、结构化的形式保存，作为文档的中间表示形式。文本的特征指的是关于文本的元数据，分为：(1) 描述性特征，如文本的名称、日期、大小、类型等；(2) 语义性特征，如文本的作者、机构、标题、内容等；一般，描述性特征易于获得，而语义性特征则较难得到。W3C(中国万维网联盟) 近年来制定的 XML (ExtensibleMarkup Language,可扩展标记语言)、RDF(Resource Description Framework, 一种用于描述Web资源的标记语言)等规范提供了对文档资源进行描述的语言和框架。在此基础上，可以从半结构化的文档中抽取作者、机构等特征。对于内容这个难以表示的特征，

10、首先要找到一种能够被计算机所处理的表示方法。矢量空间模型(VSM)是近年来应用较多且效果较好的表示文本特征的方法。在该模型中，文档空间被看作是由一组正交词条矢量所张成的矢量空间，每个文档 d 表示为其中的一个范化特征矢量：V (d) = (t , w (d);t , w (d);t , w (d)1 1 i i n n其中，t为词条项，w (d)为t在d中的权值。t可以是d中出现的所有单词，也可i i i i以是d中出现的所有短条，从而提高内容特征表示的准确性。w (d) 一般被定义为tii 在d中出现的频率f (d)的函数，即w (d) = p (f (d)。常用的申有：titii(

11、 1 )布尔函数1 f (d) 0 p = Vi0 f (d) = 0ti(2) 平方根函数P =皿(d) %(3) 对数函数p = logf (d) + 1)ti(4) TFIDF 函数P = f (d) x logtini其中，N为所有文档的数目，n为含有词条t的文档数目。ii2.2 文本的特征提取特征提取主要是识别文本中代表其特征的词项。提取过程是自动的，提取的特征大部分是文本集中表示的概念。文本特征分为一般特征和数字特征，其中一般特征主要包括动词和名词短语，如人名、组织名等；数字特征主要包括日期、时间、货币以及单纯数字信息。这些特征包含重要的信息，因此特征提取是一种强有力的文本

12、挖掘技术。通过文本的特征抽取，记录文本的特征，可以更好地组织文本，如文本的存储、检索、过滤、分类和摘要等。中文姓名识别属于中文信息处理中未登录词处理的范畴，中文姓名在文章中的出现频率虽然不高，但绝非可以忽略，因为中文姓名本身包含着重要的信息，它可能是整个句子甚至整个段落的语义中心，如果不予处理，将影响文本挖掘的性能。数字特征反映一定的信息，但不能表达文本的中心思想，通常只作为文本挖掘中的参考信息。姓名特征提取算法所提取的姓名特征，作为文本内容的特征表示。构成文本的词汇，通常数量很大，因此表示文本的向量空间的维数也相当大，可以达到几万维，需要压缩维数。为了提高分类精度，对于每一类

13、，应去除那些表现力不强的词汇，筛选出针对该类的特征项集合。目前，存在多种筛选特征项的算法，如根据词和类别的互信息量判断、根据词熵判断、根据KL距离判断等。比如，根据词和类别的互信息量进行特征项抽取的判断标准，其算法过程如下：(1) 初始情况下，该特征项集合包含所有该类中出现的词；(2) 对于每个词，计算词和类别的互信息量P(W | C )lo gfj)P (W )1 + 为 N (W , d )其中，P(W I C ) = E； P(W I C )为W在C类中出现的j|V | |D |j jI V I +乙乙 N (W , d )sis = 1 i = 1比重；I D |为该类的训练样本数

14、；N (W , d )为词W在文本d中的词频;I V Iii为总词汇；X N (W , d ) 为该类所有词的词频和； P (W ) 为词 W 在所有 sis =1 i =1训练样本中的比重。3）对于该类中的所有词，依据上面计算的互信息量排序；4）抽取一定数量的词作为特征项，具体需要抽取多少维的特征项，目前无很好的解决方法。一般采用先定初始值，然后根据实验测试和统计结果确定最佳值，初始值一般定在几千左右；（5）将每类中所有的训练样本，根据抽取的特征项，进行向量维数压缩，精简向量表示。第 3 节文本挖掘3.1 文本分类文档分类是一种重要的文本挖掘工作，由于现在存在大量的联机文档，自

15、动对其分类组织以便对文档的检索和分析，是至关重要的。如何进行文档的自动分类？一般做法如下：首先，把一组预先分类过的文档作为训练集；然后对训练集进行分析以便得出分类模式。这种分类模式通常需要一定的测试过程，不断地细化。之后就用这些导出的分类模式对其他联机文档加以分类。这一处理过程与关系数据的分类相似，但还是存在本质的区别。因为，关系数据是结构化的，而文档数据库则不是结构化的，它没有“属性，值”对的结构。因此对关系数据的分类方法，如决策树分析，并不适用对文档数据库的分类。对文档分类的有效方法是基于关联的分类，它基于一组关联的、经常出现的文本模式对文档加以分类。基于关联的分类方法处理过程如下：（1）通过简单的信息检索技术和关联分析技术，提出关键词和词汇；（2）使用已经有的词类，或基于专家知识，或使用某些关键字分类方法，生成关键字和词的概念层次，或类层次结构。（3）词关联挖掘方法用于发现关联词，它可以最大化区分一类文档与另一类文档。这导致了对每一类文

展开阅读全文