数据挖掘中的文本挖掘讲述

上传人:最**** 文档编号:118120807 上传时间:2019-12-11 格式:PPT 页数:22 大小:1.18MB
返回 下载 相关 举报
数据挖掘中的文本挖掘讲述_第1页
第1页 / 共22页
数据挖掘中的文本挖掘讲述_第2页
第2页 / 共22页
数据挖掘中的文本挖掘讲述_第3页
第3页 / 共22页
数据挖掘中的文本挖掘讲述_第4页
第4页 / 共22页
数据挖掘中的文本挖掘讲述_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《数据挖掘中的文本挖掘讲述》由会员分享,可在线阅读,更多相关《数据挖掘中的文本挖掘讲述(22页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘中的文本挖掘 张聪 目录 Contents 一 三 二 四 结语 文本挖掘过程 文本挖掘的主要研究方向 关于数据挖掘和文本挖掘 一 数据挖掘与文本挖掘 Data Mining and Text Mining 数据挖掘一般是指从大量的数据中 自动搜索隐藏于其中的有着特殊关系性( 属于Association rule learning)的信息 的过程。数据挖掘通常与计算机科学有关 ,并通过统计、在线分析处理、情报检索 、机器学习、专家系统(依靠过去的经验 法则)和模式识别等诸多方法来实现上述 目标。 文本挖掘一般指文本处理过程中产 生高质量的信息,其主要处理过程是对大 量文档集合的内容进行

2、预处理、特征提取 、结构分析、文本摘要、文本分类、文本 聚类、关联分析等操作。高质量的信息通 常通过分类和预测来产生,如模式识别。 文本挖掘的分类 二 文本挖掘的主要研究方向 Main Research Direction of Text Mining 文本检索 文本分类 文本聚类 网络浏览 文档总结 网络浏览 文本挖掘技术可以通过分析用户的网络行为等 ,帮助用户更好地寻找有用信息 一个典型的例子是 CMU的WebWatcher 。这是一个在线用户向导, 可以根 据用户的实际点击行为分析用户的兴趣 , 预测用户将要选择的链接 , 从而 为用户进行导航 。 文本检索 文本检索主要研究对整个文档文

3、本信息的表示 、存诸、组织和访问 ,即根据用户 的检索要求, 从数据库中检索出相关的信息资料。 主要检索方法有三种 :布尔模型是简单常用的严格匹配模型;概率模型利用 词条间和词条与文档间的概率相关性进行信息检索;向量空间模型在于将文 档信息的匹配问题转化为向量空间中的矢量匹配问题处理。 文本分类 文本分类是指按照预先定义的主题类别, 为文档集合中的每个文档确定一个类别 。这样用户不仅可以方便地阅读文档, 而且可以通过限制搜索范围来使文档查找 更容易 。 近年来涌现出了大量的适合于不同应用的分类算法,如:基于归纳学习的决 策树、基于向量空间模型的 K-最近邻、基于概率模型的 Bayes 分类器

4、、神 经网络 、基于统计学习理论的支持向量机方法等 文本聚类 与文本分类相对应的是文本自动聚类 。文本聚类是一种典型的无监督机器学习问 题 。 它与文本分类的不同之处在于, 聚类没有预先定义好的主题类别, 它的目标 是将文档集合分成若干个簇 ,要求同一簇内文档内容的相似度尽可能大, 而 不同簇间的相似度尽可能小 。 文档总结 文档总结也是 Web 文本挖掘的一个重要内容 。它是指从文档中抽取关键信息 , 用简洁的形式 ,对文档内容进行摘要和解释, 这样用户不需阅读全文就可了解文 档或文档集合的总体内容 。 搜索引擎向用户返回查询结果时, 通常需要给出文档摘要 ,这就是文档总结 的一个实例 。

5、三 文本挖掘过程 Process of Text Mining 文本挖掘过程图示 文本预处理 文本预处理是文本挖掘的第一个步骤, 对文本挖掘效果的影响至关重要, 文本的 预处理过程可能占据整个系统的 80 %的工作量。 与传统的数据库中的结构化数据相比,文档具有有限的结构,或者根本就没 有结构即使具有一些结构,也还是着重于格式,而非文档的内容,且没有统 一的结构,因此需要对这些文本数据进行数据挖掘中相应的标准化预处理; 此外文档的内容是使用自然语言描述,计算机难以直接处理其语义,所以还 需要进行文本数据的信息预处理。信息预处理的主要目的是抽取代表文本特 征的元数据(特征项),这些特征可以用结构

6、化的形式保存,作为文档的中 间表示形式。 文本的表示 基于自然语言处理和统计数据分析的文本挖掘中的文本特征表示指的是对从文本 中抽取出的元数据(特征项)进行量化,以结构化形式描述文档信息。这些特征 项作为文档的中间表示形式,在信息挖掘时用以评价未知文档与用户目标的吻合 程度,这一步又叫做目标表示。 文本表示的模型常用的有:布尔逻辑模型, 向量空间模型潜在语义索引和概 率模型。其中VSM是使用最多的方法也是效率最好的方法。VSM的基本思想 是使用词袋法表示文本,这种表示法的一个关键假设,就是文章中词条出现 的先后次序是无关紧要的,每个特征词对应特征空间的一维,将文本表示成 欧氏空间的一个向量。

7、特征集约减 通常,特征子集的提取是通过构造一个特征评估函数,对特征集中的每个特征进 行评估,每个特征获得一个评估分数,然后对所有的特征按照评估分大小进行排 序,选取预定数目的最佳特征作为特征子集。 特征集约减的目的有三个:1)为了提高程序效率,提高运行速度;2)数万维的 特征对文本分类的意义是不同的,一些通用的、各个类别都普遍存在的特征对分 类的贡献小,在某个特定的类中出现的比重大而在其他类中出现比重小的特征对 文本的贡献大 。3)防止过拟合(Overfit)。对每一类,去除对分类贡献小的特 征,筛选出针对反映该类的特征集合。 一个有效的特征集直观上说必须具备以下两个特点: 1)完全性:确实体

8、现目标文档的内容; 2)区分性:能将目标文档同其他文档区分开来。 文本挖掘方法 常用的文本分类方法有基于概率模型的方法,如朴素Bayes方法,隐马尔可夫模型 等;基于关系学习的决策树方法等;基于统计学习的支持向量机方法等;基于向 量空间模型的K-近邻分类法和神经网络方法等。 常用的聚类划分方法有K-平均算法和K-中心算法。K-平均算法是划分方法中 基于质心技术的一种算法,以K为参数,把n个对象分为K个簇,以使簇内具 有较高的相似度,而簇间的相似度较低,相似度的计算根据一个簇内对象的 平均值(质心)来计算。K-平均算法对于孤立点敏感,为消除这种敏感性不 采用簇中对象平均值作为参考点,而选用簇中位

9、置最中心的对象为参考点, 这就是K-中心算法。 四 结语 Summary 文本挖掘和数据挖掘在目的上是一致的,都 是试图从大量的信息中抽取知识。数据挖掘是从 原始数据中抽取,而文本挖掘则是从文本材料中 抽取。文本挖掘也就可以看成一种数据挖掘,但 是数据挖掘倾向于非常精确和结构化,多数研究 只考虑从数据库中抽取知识, 这正是许多数据挖 掘技术并不能自如地应用于文本挖掘领域的原因 。 另外在对文本集进行相关分析时,往往会损 失文本中的大量信息,这种信息的遗漏,会影响 到挖掘的效果,因此还要探索更高效的文本挖掘 新方法。文本挖掘最大的动机来自于潜藏在电子 形式的文本中的大量数据。 将来的工作 如何将现存的数据挖掘技术应用与文本 挖掘领域很好地融合,那样文本挖掘就能 够更有效地进行; 发展全新的非结构化文本挖掘算法; 将文本挖掘与自然语言处理、计算语言 学等有效集成, 处理文档中的语义关系。 感谢聆听! 张聪

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号