基于Web的文本分类挖掘的研究论文

资源描述

《基于Web的文本分类挖掘的研究论文》由会员分享，可在线阅读，更多相关《基于Web的文本分类挖掘的研究论文（43页珍藏版）》请在金锄头文库上搜索。

1、首都师大学学士学位论文基于Web的文本分类挖掘的研究学位论文原创性声明本人重声明：所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名：日期：年月日学位论文使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分容编入有关数据库进行检索，可以采

2、用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名：日期：年月日导师签名：日期：年月日中文提要文本分类最初是应文本信息检索的要求出现的，但是随着文本数据的激增，传统的研究方法己经不适合大规模文本分类，文本数据挖掘应运而生。作为文本数据挖掘的一个重要功能，文本分类技术日益成为研究热点。文本分类目的是对文本集有序组织，便于文本信息高效管理，为人的决策提供支持。但是传统的人工分类的做法存在许多弊端，不仅是耗费大量人力、物和精力，而且受人为因素影响较大，分类结果一致性不高。与之相比，文本自动分类具有快速、高效的特点，且分类准确率较高。对文本分类技术进行研究

3、，介绍文本分类的基本过程，论述文本特征提取方法，讨论朴素贝叶斯、K近邻、支持向量机、投票等常用的文本分类原理与方法，探讨中文文本分类技术。采用支持向量机技术，设计并实现了一个开放的中文文档自动分类系统。实验表明，它不仅具有较高的训练效率，同时能得到很高的分类准确率和查全率。关键词：文本挖掘文本分类支持向量机向量空间模型外文提要Text categorization appears initially for text information retrieval system; however text data increases so fast that traditional res

4、earch methods have been improper for large-scale text categorization. So text data mining emerges, and text categorization becomes more and more important as a major research field of it.The purpose of text categorization is to organize text by order,so as to manage text information efficiently and

5、support decisions of human being. However categorization by hand not only consumes plenty of manpower, material resources and energy, but also makes categorization accuracy inconsistent. Compared with categorization by hand, automatic text categorization classifies texts faster and its categorizatio

6、n accuracy rates higher.Introduces the techniques of text categorization, including its basic process ,the algorithms of text feature extraction ,the theories and technologies such as Nave bayes, KNN, SVM, Voted and so on. Chinese text classification is discussed. An open Chinese document classifica

7、tion system using support is designed and implemented.The experiment shows that it not only improves training efficiency, but also has good precision and recall.Key wordtext mining Text categorization Support Vector Machine(SVM) vector space model目录中文提要外文提要目录第一章绪论1.1文本自动分类研究的背景和意义1.2问题的描述1.3国外文本

8、自动分类研究动态第二章中文文本分类技术研究2.1文本预处理2.1.1文本半结构化2.1.2自动分词2.1.3特征选择122.2分类模型2.2.1贝叶斯（Naive Bayes）方法142.2.2K-近邻（KNN）方法2.2.3决策树（Decision Tree）分类2.2.4基于投票的方法2.2.5支持向量机（SVM）方法172.3分类性能评价第三章基于支持向量机的中文文本分类3.1统计学习理论3.2支持向量机原理3.3支持向量机的特点第四章基于支持向量机的中文文本分类器的实现4.1系统体系结构4.1.1文本训练模块设计4.1.2文本分类模块设计第五章系统的性能测试5.1开发环境和数据集

9、5.2测试结果及分析第六章总结与展望6.1全文总结6.2进一步工作及展望附录（附图）参考文献致第一章绪论1.1文本自动分类研究的背景和意义分类最初是应信息检索(Information Retrieval,简称IR)系统的要求而出现的，也是数据挖掘应用领域的重要技术之一1.随着全球计算机与通讯技术的飞速发展、互联网的普及与应用，信息爆炸的现实使人们越来越注重对自动分类的研究，文本自动分类及其相关技术的研究也日益成为一项研究热点。信息检索系统必须操纵大量的文本数据，其文本信息库可能相当庞大。如何在海量文本信息中获取潜在的、有价值的知识，模型或规则,这就需要引入文本数据挖掘概念。数据挖掘是从

10、大量的文本数据中提取出事先未知的、可理解的、可应用的信息和知识的过程。数据挖掘融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术，能够对将来的趋势和行为进行预测，从而很好地支持人们的决策。文本数据挖掘（Textual Data Mining），亦称文本挖掘（Textual Mining），或者从文本数据库中发现知识，以文本数据为特定挖掘对象的数据挖掘，是数据挖掘的扩展。文本挖掘抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识，并且利用这些知识更好地组织信息的过程。1998年底，国家重点研究发展规划首批实施项目中明确指出，文本挖掘是“图像、语言、自然语言理解与知识挖掘”中

11、的重要容。文本挖掘利用智能算法，如神经网络、基于案例的推理、可能性推理等，并结合文字处理技术，分析大量的非结构化文本源（如文档、电子表格、客户电子、问题查询、网页等），抽取或标记关键字概念、文字间的关系，并按照容对文档进行分类，获取有用的知识和信息。从目前文本挖掘技术的研究和应用状况来看，从语义的角度来实现文本挖掘的很多，目前研究和应用最多的几种文本挖掘技术有：文档聚类、文档分类和摘要抽取2。（1）文档聚类首先，文档聚类可以发现与某文档相似的一批文档，帮助知识工作者发现相关知识；其次，文档聚类可以将一个文档聚类成若干个类，提供一种组织文档集合的方法；再次，文档聚类还可以生成分类器以对文档进行

12、分类。文本挖掘中的聚类可用于：提供大规模文档集容的总括；识别隐藏的文档间的相似度；减轻浏览相关、相似信息的过程。聚类方法通常有：层次聚类法、平面划分法、简单贝叶斯聚类法、K-最近邻参照聚类法、分级聚类法、基于概念的文本聚类等。（2）文档分类分类和聚类的区别在于：分类是基于已有的分类体系表的，而聚类则没有分类表，只是基于文档之间的相似度。由于分类体系表一般比较准确、科学地反映了某一个领域的划分情况，所以在信息系统中使用分类的方法，能够让用户手工遍历一个等级分类体系来找到自己需要的信息，达到发现知识的目的，这对于用户刚开始接触一个领域想了解其中的情况，或者用户不能够准确地表达自己的信息需求时特别有

13、用。传统搜索引擎中目录式搜索引擎属于分类的畴，但是许多目录式搜索引擎都采用人工分类的方法，不仅工作量巨大，而且准确度不高，大大限制了起作用的发挥。另外，用户在检索时往往能得到成千上万篇文档，这让他们在决定哪些是与自己需求相关时会遇到麻烦，如果系统能够将检索结果分门别类地呈现给用户，则显然会减少用户分析检索结果的工作量，这是自动分类的另一个重要应用。文档自动分类一般采用统计方法345678或神经网络91011以及机器学习来实现。常用的方法有：简单贝叶斯分类法， K-最近邻参照分类算法以及支持向量机分类方法等。（3）自动文摘互联网上的文本信息、机构部的文档及数据库的容都在成指数级的速度增长，用户在

14、检索信息的时候，可以得到成千上万篇的返回结果，其中许多是与其信息需求无关或关系不大的，如果要剔除这些文档，则必须阅读完全文，这要求用户付出很多劳动，而且效果不好。自动文摘能够生成简短的关于文档容的指示性信息，将文档的主要容呈现给用户，以决定是否要阅读文档的原文，这样能够节省大量的浏览时间。简单地说自动文摘就是利用计算机自动地从原始文档中提取全面准确地反映该文档中心容的简单连贯的短文。自动文摘具有以下特点：1) 自动文摘应能将原文的主题思想或中心容自动提取出来。2) 文摘应具有概况性、客观性、可理解性和可读性。3) 可适用于任意领域。按照生成文摘的句子来源，自动文摘方法可以分成两类，一类是完全使用原文中的句子来生成文摘，另一类是可以自动生成句子来表达文档的容。后者的功能更强大，但在实现的时候，自动生成句子是一个比较复杂的问题，经常出现产生的新句子不能被理解的情况，因此目前大多用的是抽取生成法。利用文本挖掘技术处理大量的文本数据，无疑将给企业带来巨大的商业价值。因此，目前对于文本挖掘的需求非常强烈，文本挖掘技术应用前景广阔。1.2问题的描述文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息，总结出分类的规律

展开阅读全文