文本数据挖掘及其应用

资源描述

《文本数据挖掘及其应用》由会员分享，可在线阅读，更多相关《文本数据挖掘及其应用（7页珍藏版）》请在金锄头文库上搜索。

1、1文本数据挖掘及其应用摘要：随着 Internet 上文档信息的迅猛发展，文本分类成为处理和组织大量文档数据的关键技术。本文首先对文本挖掘进行了概述包括文本挖掘的研究现状、主要内容、相关技术以及热点难点进行了探讨，然后通过两个例子简单地说明了文本挖掘的应用问题。关键词：文本挖掘研究现状相关技术应用1 引言随着科技的发展和网络的普及，人们可获得的数据量越来越多，这些数据多数是以文本形式存在的。而这些文本数据大多是比较繁杂的，这就导致了数据量大但信息却比较匮乏的状况。如何从这些繁杂的文本数据中获得有用的信息越来越受到人们的关注。“在文本文档中发现有意义或有用的模式的过程n1的文本挖

2、掘技术为解决这一问题提供了一个有效的途径。而文本分类技术是文本挖掘技术的一个重要分支，是有效处理和组织错综复杂的文本数据的关键技术，能够有效的帮助人们组织和分流信息。2 文本挖掘概述2.1 文本挖掘介绍数据挖掘技术本身就是当前数据技术发展的新领域，文本挖掘则发展历史更短。传统的信息检索技术对于海量数据的处理并不尽如人意，文本挖掘便日益重要起来，可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。1）文本挖掘的定义文本挖掘作为数据挖掘的一个新主题引起了人们的极大兴趣，同时它也是一个富于争议的研究方向。目前其定义尚无统一的结论，需要国内外学者开展更多的研究以进行精确的定义，类似于我们熟

3、知的数据挖掘定义。我们对文本挖掘作如下定义。定义 2.1.1 文本挖掘是指从大量文本数据中抽取事先未知的可理解的最终可用的信息或知识的过程。直观地说，当数据挖掘的对象完全由文本这种数据类型组成时，这个过程就称为文本挖掘。2 )文本挖掘的研究现状国外对于文本挖掘的研究开展较早，50年代末，H.P.Luhn在这一领域进行了开创性的研究，提出了词频统计思想于自动分类。1960年，Maron 发表了关于自动分类的第一篇论文，随后，众多学者在这一领域进行了卓有成效的研究工作。研究主要有围绕文本的挖掘模型、文本特征抽取与文本中间表示、文本挖掘算法（如关联规则抽取、语义关系挖掘、文本聚类与主题分析、趋势分析

4、）、文本挖掘工具等，其中首次将KDD中的只是发现模型运用于KDT 。我国学术界正式引入文本挖掘的概念并开展针对中文的文本挖掘是从最近几年才开始的。从公开发表的有代表性的研究成果来看，目前我国文本挖掘研究还处于消化吸收国外相关的理论和技术与小规模实验阶段，还存在如下不足和问题：(1) 没有形成完整的适合中文信息处理的文本挖掘理论与技术框架。目前的中文文本挖掘研究只是在某些方面和某些狭窄的应用领域展开。在技术手段方面主要是借用国外针对英文语料的挖掘技术，没有针对汉语本身的特点，没有充分利用当前的中文信息处理与分析技术来构建针对中文文本的文本挖掘模型，限制了中文文本挖掘的进一步发展。(2) 中文文本

5、的特征提取与表示大多数采用 “词袋”法，“词袋”法即提取文本高词频构成特征向量来表达文本特征。这样忽略了词在文本（句子）中担当的语法和语义角色，同样2也忽略了词与词之间的顺序，致使大量有用信息丢失。而且用“词袋”法处理真实中文文本数据时，特征向量的维数往往是高维的，这将使挖掘算法效率大大降低。(3) 知识挖掘的种类和深度有限，一般只是进行文本的分类、聚类或者信息抽取，而且针对开放语料的实验结果也不是很理想。2.2 文本挖掘主要内容存储信息使用最多的是文本，所以文本挖掘被认为比数据挖掘具有更高的商业潜力，当数据挖掘的对象完全由文本这种数据类型组成时，这个过程就称为文本数据挖掘，事实上，最近研究表

6、明公司信息有80%包含在文本文档中。1）文本分类文本分类指按照预先定义的主题类别，为文档集合中的每个文档确定一个类别。这样用户不但能够方便地浏览文档，而且可以通过限制搜索范围来使文档的查找更容易、快捷。目前，用于英文文本分类的分类方法较多，用于中文文本分类的方法较少，主要有朴素贝叶斯分类（Nave Bayes），向量空间模型（Vector Space Model）以及线性最小二乘LLSF(Linear Least Square Fit)。2）文本聚类聚类与分类的不同之处在于，聚类没有预先定义好的主体类别，它的目标是将文档集合分成若干个簇，要求同一簇内文档内容的相似度尽可能的大，而不同簇之间的相

7、似度尽可能的小。3）文本结构分析其目的是为了更好地理解文本的主题思想，了解文本表达的内容以及采用的方式，最终结果是建立文本的逻辑结构，即文本结构树，根结点是文本主题，依次为层次和段落。4）Web文本数据挖掘 4在Web迅猛发展的同时，不能忽视“信息爆炸”的问题，即信息极大丰富而知识相对匮乏。据估计，Web已经发展成为拥有3亿个页面的分布式信息空间，而且这个数字仍以每 4-6个月翻1倍的速度增加，在这些大量、异质的Web信息资源中，蕴含着具有巨大潜在价值的知识。人们迫切需要能够从Web上快速、有效的发现资源和知识的工具。文本挖掘目前面临的问题有挖掘算法的效率和可扩展性、遗漏及噪声数据的处理、私有

8、数据的保护与数据安全性等。2.3 文本挖掘技术 1,2文本挖掘不但要处理大量的结构化和非结构化的文档数据，而且还要处理其中复杂的语义关系，因此，现有的数据挖掘技术无法直接应用于其上。对于非结构化问题，一条途径是发展全新的数据挖掘算法直接对非结构化数据进行挖掘，对于数据非常复杂，导致这种算法的复杂性很高；另一条途径就是将非结构化问题结构化，利用现有的数据挖掘技术进行挖掘，目前的文本挖掘一般采用该途径进行。对于语义关系，则需要集成计算语言学和自然语言处理等成果进行分析。我们按照文本挖掘过程介绍其涉及的主要技术及其主要进展。1）文本数据预处理技术预处理技术包括Stemming（英文）/ 分词（中文）

9、、特征表示和特征提取。与数据库中的结构化数据相比，文本具有有限的结构，或者根本就没有结构。此外，文档的内容是人类所使用的自然语言，计算机很难处理其语义。文本信息源的这些特殊性使得数据预处理技术在文本挖掘中更加重要。(1)分词技术在对文档进行特征提取前，需要先进行文本信息的预处理，对英文而言需要进行Stemming处理，中文的情况则不同，因为中文词与词之间没有固定的间隔符（空格），需3要进行分词处理。目前主要有基于词库的分词算法和无词典的分词技术两种。基于词库的分词算法包括正向最大匹配、正向最小匹配、逆向匹配及逐次遍历匹配法等。这类算法的特点是易于实现，设计简单；但分词的正确性很大程度上取决于所

10、建的词库。因此基于词库的分词技术对于歧义和未登录词的切分有很大的困难。基于无词典的分词技术的基本思想是：基于词频的统计，将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计，出现的次数越高，成为一个词的可能性就越大，在频率超过某个预先设定的阈值时，就将其作为一个词进行索引。这种方法能够有效地提出未登录词。(2)特征表示文本特征指的是关于文本的元数据，分为描述性特征（如文本的名称、日期、大小、类型等）和语义性特征（如文本的作者、机构、标题、内容等）。特征表示是指一定特征项（如词条或描述）来代表文档，在文本挖掘时只需对这些特征项进行处理，从而实现对非结构化的文本处理。这是一个非结构化向结构化转

11、换的处理步骤。特征表示的构造过程就是挖掘模型的构造过程。特征表示模型有多种，常用的有布尔逻辑型、向量空间模型（Vector Space Model，VSM）、概率型以及混合型等。W3C近来制定的XML，RDF等规范提供了对Web文档资源进行描述的语言和框架。(3)特征提取用向量空间模型得到的特征向量的维数往往会达到数十万维，如此高维的特征对即将进行的分类学习未必全是重要、有益的（一般只选择2%-5% 的最佳特征作为分类数据），而且高维的特征会大大增加机器的学习时间，这便是特征提取所要完成的工作。特征提取算法一般是构造一个评价函数，对每个特征进行评估，然后把特征按分值高低排队，预定数目分数最高的

12、特征被选取。在文本处理中，常用的评估函数有信息增益（Information Gain）、互信息（Mutual Information）、文本证据权（The Weight of Evidence for Text）和词频。2）文本挖掘分析技术文本转换为向量形式并经特征提取后，便可以进行挖掘分析了。常用的文本挖掘分析技术有：文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布分析和趋势预测等。(1)文本结构分析其目的是为了更好地理解文本的主题思想，了解文本所表达的内容以及采用的方式。最终结果是建立文本的逻辑结构，即文本结构树，根节点是文本主题，依次为层次和段落。(2)文本摘要文本摘要是指

13、从文档中抽取关键信息，用简洁的形式对文档内容进行解释和概括。这样，用户不需要浏览全文就可以了解文档或文档集合的总体内容。任何一篇文章总有一些主题句，大部分位于整篇文章的开头或结尾部分，而且往往是在段首或段尾，因此文本摘要自动生成算法主要考察文本的开头、结尾，而且在构造句子的权值函数时，相应的给标题、子标题、段首和段尾的句子较大的权值，按权值大小选择句子组成相应的摘要。(3)文本分类文本分类的目的是让机器学会一个分类函数或分类模型，该模型能把文本映射到已存在的多个类别中的某一类，是检索或查询的速度更快，准确率更高。训练方法和分类算法是分类系统的核心部分。用于文本分类的分类方法较多，主要有朴素贝叶

14、斯分类、向量空间模型、决策树、支持向量机、后向传播分类、遗传算法、基于案例的推理、K-最邻近、4基于中心点的分类方法、粗糙集、模糊集以及线性最小二乘等。厉宇航等指出传统特征提取的方法是基于词形的，并不考察词语的意义，忽略了同一意义下词形的多样性，不确定性以及词义间的关系，尤其是上下位关系。该文的方法在向量空间模型的基础上，以“概念”为基础，同时考虑词义的上位关系，使得训练过程中可以从词语中提炼出更加概括性的信息，从而达到提高分类精度的目的。(4)文本聚类文本分类是将文档归入到已经存在的类中，文本聚类的目标和文本分类是一样的，知识实现的方法不同。文本聚类是无教师的机器学习，聚类没有预先定义好的主

15、题类别，它的目标是将文档集合分成若干个簇，要求同一簇内文档内容的相似度尽可能大，而不同簇间的相似度尽可能小。Hearst 等人的研究已经证明了“ 聚类假设”，即与用户查询相关的文档通常会聚类的比较靠近，而远离与用户查询不相关的文档。(5)关联分析关联分析是指从文档集合中找出不同词语之间的关系。Feldman和Hirsh研究了文本数据库中关联规则的挖掘，提出了一种从大量文档中发现数千本在Amazon 网站上找不到的新书籍；Wang Ke等以Web上的电影介绍作为测试文档，通过使用OEM模型从这些半结构化的页面中抽取词语项，进而得到一些关于电影名称、导演、演员、编剧的出现模式。(6)分布分析与趋势

16、预测分布分析与趋势预测是指通过对文档的分析，得到特定数据在某个历史时刻的情况或将来的取值趋势。Feldman R等使用多种分布模型对路透社的两万多篇新闻进行了挖掘，得到主题、国家、组织、人、股票交易之间的相对分布，揭示了一些有趣的趋势。Wuthrich B等通过分析Web上出版的权威性经济文章对每天的股票市场指数进行预测，取得了良好的效果。(7)可视化技术数据可视化（Data Visualization）技术指的是运用计算机图形学和图像处理技术，将数据转换为图形或图像在屏幕上显示出来，并进行交互处理的理论、方法和技术。它涉及到计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域。国内外学者已经对信息可视化技术进行了大量的研究，运用最小张力计算、多维标度法、语义分析、内容图谱分析、引文网络分析及神经网络技术，进行了信息和数据的可视化表达。2.4 文本挖掘热点难点问题显然，目标不同，文本挖掘的过程也不尽相同。但不论何种目标，都不可忽视如下几个方面的研究：1)文本建模向量空间模型，也称为“词袋”法，是目前文本处理的标准模式

展开阅读全文