Web信息抽取中的文本分类

资源描述

《Web信息抽取中的文本分类》由会员分享，可在线阅读，更多相关《Web信息抽取中的文本分类（72页珍藏版）》请在金锄头文库上搜索。

1、摘要摘要在机器学习理论中支持向量机（SVM）有着重要的地位，无论是求解分类问题还是求解回归问题，SVM都有着广泛的应用。本文简单的介绍了SVM的基本原理，讨论了SVM在文本分类中的应用，并详细的分析了如何利用SVM构造文本分类器。这里说明了文本分类的详细处理过程，并介绍了这些过程中的关键技术，如：分词技术、向量空间模型（VSM）、特征选取技术和SVM的交叉验证技术等等。结合着分析和讨论又概略的说明了利用Microsoft Visual C+ 6.0创建文本分类系统的过程，介绍了重要的类和关键处理函数的实现和优化，以及如何利用动态链接库来实现C+到Java的迁移。最后给出了由本系统得到的实验数

2、据和结论。关键字：机器学习文本分类支持向量机（SVM）ABSTRACTABSTRACTSupport Vector Machines (SVM) has an important position in Machine learning theory, whether it is to solve the classification problem or request for the reunification issue, SVM has a wide range of applications. In this paper, a short introduction into t

3、he basic principles of SVM, a detailed discussion of the SVM in the text classification, and a careful analysis of how to make use of SVM to construct classifier for a text classification. Heres the text of the detailed classification process and introduced in the course of these key technologies, s

4、uch as: segmentation technology, vector space model (VSM), features selection technology, cross-verification technology of the SVM and so on. With the analysis and discussion also briefly described the process of making use of Microsoft Visual C+ 6.0 to create the text classification system, introdu

5、ced the realization and optimization of the key class and important functions, and how to use of dynamic link library to achieve the migration from C+ to Java. Finally, the experimental data and conclusions produced by this system are shown.Keywords: machine learning text classification SVM(support

6、vector machine)目录目录第一章引言11.1 总体项目背景11.1.1 基于Web的信息集成系统11.1.2 基于Web的信息集成系统的需求和系统结构21.2 文本分类系统的任务和目标31.3 本文主要研究内容4第二章相关理论72.1 文本自动分类72.3 支持向量机(SVM)82.4 SVM的原理92.4.1 线性支持向量机92.4.2 非线性支持向量机112.5 SVM文本分类13第三章需求分析153.1 SVM的两个阶段153.2 训练阶段目标163.3 测试阶段目标183.4 外部接口18第四章总体设计与实现工具的选择214.1 总体结构214.2 训练阶段214

7、.2.1 分词及词频统计214.2.2 文本向量空间模型(VSM)及文本特征选取274.2.3 文本向量化314.2.4 文本分类器324.3 测试阶段364.3.1 分词及词频统计364.3.2 文本向量化364.3.3 分类处理374.4 实现工具的选择与跨语言迁移37第五章详细设计与实现395.1 界面设计395.2 配置文件config.xml405.3 LIST类405.4 Frequency类425.5 partition函数435.6 SORT类465.7 预处理与文本特征的选择策略的设计475.8 scale方法与Matrix.txt文件的生成495.9 libsvm调用51

8、5.10 动态链接库SVMDLL.dll的实现和接口定义54第六章测试及结果576.1 二分测试576.2 多分测试596.3 测试总结616.3.1 二分情况616.3.2 多分情况62致谢63参考文献65第一章引言 1第一章引言1.1 总体项目背景本文主要讨论基于Web的信息集成系统中的一个子系统文本分类系统的设计与实现，但这里有必要介绍一下基于Web的信息集成系统的基本情况以及文本分类系统在整个项目中的位置与调用关系。1.1.1 基于Web的信息集成系统基于Web的信息集成系统通过统一平台将松散的Web信息以统一的规范和编码集成于统一系统平台中，去除平台与系统的差异，提供统一的界面

9、与接口，提高信息的共享与可用性。伴随着互联网技术的发展和大规模的应用，网络已经越来越深刻的影响到人们的生活和社会。人们正快步走进“网络生活”的时代，从学习、工作到生活购物，无一不深深的依赖着互联网。在过去的几年中，有很多的技术与网络事物涌现并应用于现在的网络中，如：网络微应用程序、个人网页、VoIP、网络化桌面、Web2.0技术、Ajax、网络视频等等。从学习网络到网络生活，互联网给生活带来极大方便的同时，其承载的信息却以几何基数增长着，随着网络社区化的推进和电子商务悄然兴起，快速准确的找到可用信息已越来越有其现实意义。Web信息和服务有着分散、庞杂、大量重复、系统差别大等特点，如何能有效的屏

10、蔽平台与系统的差异，将散乱的信息聚合成统一界面与接口的信息系统，更具有现实应用价值。但仅将信息简单聚合并不能满足用户对信息准确定位与获取的需求，而互联网信息又存在着信息概念与含义的多态性，对准确定位可用信息增加了很大的难度。无论是从现在的电子商务、网络新闻还是到网络信息检索、网络信息共享，都有Web信息的集成需求与需要。1.1.2 基于Web的信息集成系统的需求和系统结构基于Web的信息集成系统有着以下的需求：（1）实现多信息源信息的抽取、清洗和合并；（2）对多个信息源进行包装，去除信息源本身特征，提供统一访问接口；（3）实现数据源与系统的松耦合；（4）为用户提供统一的查询界面与结果显示；（5

11、）根据用户的语义进行数据源的准确定位和查询优化；（6）根据用户的偏好进行信息筛选；（7）根据用户的兴趣域进行信息过滤。综合上述需求提出了如图1.1所示的系统结构。1、用户界面用户界面层为用户提供统一、清晰的查询接口及结果呈现模式。用户通过选择领域（或兴趣区域）对结果进行领域过滤，提高查询准确度。用户同样可以通过偏好设置来选择不同的全局模式，只抽取感兴趣的信息。2、中介器中介器的功能是接收针对全局模式生成的查询，根据数据源描述信息（元数据）及映射规则将接收的查询分解为针对于每个数据源的子查询，再根据数据源描述信息进行查询计划的优化。最后将子查询发送到每个数据源的包装器。3、包装器包装器将数据源包

12、装成Web Service并发布，包装器与中介器绑定之后，接受中介器发来的子查询并将这些子查询翻译成符合每个数据源模型或模式的查询，并把查询结果返回给中介器。4、支持库为中介器、包装器提供数据及算法支持。5、数据源可产生结构化和半结构化的数据。图 1.1 基于 Web信息集成系统模型及文本分类系统的位置1.2 文本分类系统的任务和目标文本分类系统位于基于Web的信息集成系统的包装器中，如图1.1所示，实现领域过滤功能，根据领域的需求选择相应的领域模型进行领域过滤。例如：在一个图书销售的Web信息集成系统中，当用户键入关键字“计算机”，需要得到计算机领域中有关“计算机”的图书信息的时候，系统应该

13、能够较为准确地过滤掉非计算机领域的图书信息，因为很多领域（如化学领域）的图书都会涉及到“计算机”。文本分类系统在整个信息集成系统中仅作为一个较为独立的功能模块，所以在实现这个子系统的时候，需要做到：（1）功能完整（2）封装完整（3）可独立运行（4）调用方便（5）运行高效作为一个插件式的子系统，必须要有完整的功能来保证这个子系统的正常运行并为整个系统提供良好的支持；另一方面讲也需要将完善的功能加以封装，这样才能快速的调整和修改子系统内部的资源和工作模式。文本分类系统被设计成一个子系统而不是一个简单功能函数，这样做的一个好处就是它可以脱离总系统来调试和修改，这一点对于整个系统的开发和集成

14、都是至关重要的。一个子系统最终要被整个系统调用，不能希望一个完全不了解文本分类系统的人完全弄懂这个子系统后再来调用，所以必须提供很好的接口，使调用者能够快速的理解和方便的调用。一个接口的好坏直接影响着整个系统集成的效率和质量。效率也是一个子系统需要重点考虑的问题，一个子系统必须能够高效的完成本模块的任务，这样才成保证整个系统的响应时间，任一个模块的效率低下都有可能成为整个系统的瓶颈致使整个系统失败。1.3 本文主要研究内容本文主要研究基于Web的信息集成系统中的文本分类系统的设计与实现。下面将简要介绍后边各章节所要讨论的内容，第二章将简单的介绍文本分类所需要的理论和技术，进而研究支持向量机的理

15、论以及这种理论如何应用于文本分类当中。在做好理论和技术的准备后，第三章将讨论SVM分类器的两个阶段在文本分类的过程中如何应用的问题，最后将分析外部接口定义和如何实现的问题。第四章将详细讨论文本分类的SVM方法，经过第三章的研究和讨论，这一章提出了文本分类系统的总体结构，并分别分析了SVM方法在训练阶段的四个处理过程和测试阶段的工作流程。由于文本分类系统的设计和开发语言是C+，但总系统的设计和开发语言是Java，所以在这一章的最后一部分分析了如何实现跨语言调用的问题。第五章讨论详细设计与实现的问题，包括LIST类、Frequency类和SORT类三个主要功能类的设计与实现，重要文件和函数的设计与实现，SVMDLL动态链接库的实现及Java接口的定义等。第六章将对整个文本分类系统进行相应的测试，并以图表形式总结出测试的结论。第二章相关理论

展开阅读全文

Web信息抽取中的文本分类

最新文档