中文文本分类特征选择方法研究

上传人:小** 文档编号:89507944 上传时间:2019-05-26 格式:DOCX 页数:63 大小:608.32KB
返回 下载 相关 举报
中文文本分类特征选择方法研究_第1页
第1页 / 共63页
中文文本分类特征选择方法研究_第2页
第2页 / 共63页
中文文本分类特征选择方法研究_第3页
第3页 / 共63页
中文文本分类特征选择方法研究_第4页
第4页 / 共63页
中文文本分类特征选择方法研究_第5页
第5页 / 共63页
点击查看更多>>
资源描述

《中文文本分类特征选择方法研究》由会员分享,可在线阅读,更多相关《中文文本分类特征选择方法研究(63页珍藏版)》请在金锄头文库上搜索。

1、分类_TP391_ 密级_ 硕士学位论文中文文本分类特征选择方法研究陈建华导师姓名职称:王治和教授专业名称:计算机应用技术研究方向:数据库技术及应用(数据挖掘) 论文答辩日期:2012年 5月学位授予日期:2012年 6月答辩委员会主席:评阅人:二一二年五月硕士学位论文M.D Thesis 中文文本分类特征选择方法研究Research of Feature Selection Method for Chinese TextClassifization陈建华Chen Jian-huaI摘要随着科技的发展和网络的普及,人们可获得的数据量越来越多,这些数据多数是以文本形式存在的。而这些文本数据大多是

2、比较繁杂的,这就导致了数据量大但信息却比较匮乏的状况。文本挖掘技术为解决这一问题提供了一个有效的途径。而文本分类技术是文本挖掘技术的一个重要分支,是有效处理和组织错综复杂的文本数据的关键技术,能够有效的帮助人们组织和分流信息。文本分类的两个重要的研究方向是:特征选择与文本分类算法。特征选择是指从高维的文本特征空间中选择出最能代表文本内容的特征,好的特征选择方法一方面能够降低文本特征空间的维数,以利于提高文本分类的效率,另一方面好的特征选择方法通过去除对文本分类无效的特征也有利于提高文本分类的分类精度。而好的文本分类方法则能够直接有效地提高文本分类的效果。目前在文本分类领域较常用到的特征选择算法

3、中,仅仅考虑了特征与类别之间的关联性,而对特征与特征之间的关联性没有予以足够的重视。针对这种情况,本文提出一种基于类别区分度和关联性分析的综合特征选择算法。首先利用类别区分度提取出具有较强类别区分能力的特征词来降低特征空间的稀疏性,再通过特征的关联性分析衡量特征与类别的相关性以及特征之间的冗余度,最终选择出具有类别代表性且相互之间不存在冗余的特征词。经实验验证,该算法能有效地改善分类器的性能。关键字:文本分类;特征选择;类别区分度;C-关联;F-关联;相关独立度IIAbstractWith the development of technology and networks penetrati

4、on , more and moredata is available to people and most of these data is in the form of text. Theseunstructured form of data leads to a status with large volume of data but withrelatively rare information. Text mining technology has provided an effective way tosolve this problem. Text classification

5、techno1ogy is a branch of text miningtechnology, which means it is one key technology of managementing and organizingcomplex text data effectively. Text mining can help people organize and streaminformation effectively. Two important research directions of text classification are:feature selection m

6、ethod and text classification algorithm.Feature selection refers to select the feature terms which can best represent thecharacteristics of text from high-dimensional feature term space. Good featureselection method on one hand can reduce the dimension of the text feature space,resulting in the impr

7、ovement of text classification efficiently, on the other hand goodfeature selection method can improve the accuracy of text classification throughremoving invalid feature terms. Good text classification method is able to improvetext classification result directly.Current feature selection algorithms

8、 frequently used in text categorization merelytake the correlation between feature and class into account but pay less attention tocorrelation between the features. In view of this situation, this paper proposes asyntaxic feature selection algorithm, which based on category discriminating powerand c

9、orrelation analysis. The algorithm firstly uses discrimination power to extract thefeatures that reveal larger differences among categories to reduce the sparsity offeature spaces, and then employs correlation analysis of features to measure relativitybetween features and categories and redundancy a

10、mong features, so can acquire thefeature subset which are more representative and have no redundancy each other.Experiments demonstrate that the proposed algorithm can improve the performance ofthe classifier effectively.Keywords: text categorization; feature selection; category discriminating power;C-correlation; F-correlation; relevant independencyIII目录独创性声明 . I摘要 . IIAbstract. III第一章绪论. 11.1 研究背景和意义. 11.2 研究历史与现状. 21.3 研究内容及组织结构. 41.3.1 本文研究内容. 41.3.2 论文组织结构. 5第二章文本分类技术.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号