债券主体垃圾新闻自动过滤

资源描述

《债券主体垃圾新闻自动过滤》由会员分享，可在线阅读，更多相关《债券主体垃圾新闻自动过滤（7页珍藏版）》请在金锄头文库上搜索。

1、债债券主体垃圾新券主体垃圾新闻闻自自动过滤动过滤一、应用背景随着网络技术的迅猛发展以及电脑的普遍使用，电子化的文档得到了“爆炸性”的增长，各种各样的文档层出不穷，充斥着网页各个角落。一方面提高了人们获取信息的便利性与快捷性，丰富了人们的阅读世界，另一方面也存在大量的垃圾文档包括垃圾新闻、垃圾邮件等等，鱼目混珠，良莠不齐。本文主要基于“it-SaiD 它说”平台的债券主体新闻模块尝试了垃圾新闻的自动分类以达到自动过滤垃圾新闻的效果。文本分类（Text categorization）是指在给定分类体系下，根据文本内容自动确定文本类别的过程。20 世纪 90 年代以前，占主导地位的文本分类方法一直是

2、基于知识工程的分类方法，即由专业人员手工进行分类。人工分类非常费时，效率非常低。90 年代以来，众多的统计方法和机器学习方法应用于自动文本分类，文本分类技术的研究引起了研究人员的极大兴趣。目前在国内也已经开始对中文文本分类进行研究，并在信息检索、Web 文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。而本文所提到的债券垃圾新闻自动过滤实际上可以看做文本分类的一个特例，文本二分类的问题，即垃圾新闻与非垃圾新闻的分类问题，从而为垃圾债券主体新闻的自动过滤奠定了理论及实践基础。下面将从数据预处理，分类算法设计与实现及算法评估几方面

3、具体说说债券主体垃圾新闻自动过滤的处理过程。二、数据预处理数据预处理属于文本分类的一个非常重要阶段，它主要包括数据的过滤，转化，清洗等过程，数据预处理的好坏一定程度上影响到后续算法分类效果的好坏。本文采用的数据来源为通过武大爬虫，万德数据库以及鹏元爬虫获取到的新闻，本文抽取 8306 条新闻数据作为样本集并对数据做了如下处理：1. 记录txt 文档；非 UTF-8 编码UTF-8 编码2. 去掉 html 标记、换行符、多余空格；3. 针对该样本集进行垃圾新闻与非垃圾新闻的人工标记，最终非垃圾新闻数量为 5807 条，垃圾新闻数量为 2499 条。垃圾新闻样例如下：三、算法实现常见的机器学习分

4、类算法包括决策树，神经网络，贝叶斯，KNN，SVM 等。本文主要采用贝叶斯，KNN 以及 SVM 分类算法对垃圾债券主体新闻自动过滤进行算法实现。各种算法的主要思想如下文所示：（1）贝叶斯对于给定的待分类项,求解在此项出现的条件下各个类别出现的概率，哪个最大，就把此待分类项归属于哪个类别.贝叶斯公式如下：（2）KNNKNN 算法又称为 k 最近邻分类(k-nearest neighbor classification)算法。该算法从训练集中找到和新数据最接近的 k 条记录，然后根据他们的主要分类来决定新数据的类别。该算法涉及 3 个主要因素：训练集、距离或相似的衡量、k 的大小。（3）SVM

5、SVM 为 support vector machine(支持向量机)的缩写，它的主要思想是建立一个超平面作为决策平面，使得正例与反例之间的间隔最大化，这两类的样本中离决策平面最近的训练样本就叫做支持向量。本文使用经数据预处理后的 8306 条新闻作为最终的样本集，并对样本集进行中文分词处理，构造样本集文本对象，构建样本集 TF_IDF 词向量空间，然后使用相关分类算法进行预测分类结果。具体的算法流程图如下：四、算法评价常见的评价一个分类系统的好坏的分类指标大体可以分为两大类。线上的指标还有离线的指标。线上的指标包括用户满意度等，需要通过调查问卷等方式进行采集。离线的指标包括平均绝对误差（me

6、an absolute error，MAE），ROC（Receiver Operating Characteristic）曲线，精度，召回率，F1-score，覆盖率等。本文使用精度、召回率，错分率以及 F1-score，混淆矩阵作为主要的评价指标。下面简单介绍一下精度、召回率，错分率以及 F1-score，混淆矩阵：（1）精度（Precision，也称为准确率）：是检索出的相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率。精度（Precision）= 系统检索到的相关文件 / 系统所有检索到的文件总数（2）召回率（Recall Rate，也叫查全率）：是检索出的相关文档数和文档库

7、中所有相关文档数的比率，衡量的是检索系统的查全率。（3）错分率为另外一个角度对召回率的刻画，满足错分率+召回率=1（4）F1-score 综合考虑了精度以及召回率，是两者的协调评价指标。（5）混淆矩阵（confusion matrix），是由 false positives，falsenegatives，true positives 和 true negatives 组成的两行两列的表格。它允许我们做出更多的分析，而不仅仅是局限在正确率。本文按照 10%测试集、90%训练集的数据集随机切分方式对分类结果进行了交叉验证（cross_validation），最终的分类结果如下：五、结论由上图可知：

8、SVM 算法在垃圾债券新闻的自动过滤上能取得最好的过滤效果，贝叶斯算法也能取得相当不错的效果，这一定程度上说明了垃圾债券新闻与非垃圾债券新闻两者的区分度很高，两种算法在垃圾债券新闻自动过滤上基本达到了可以相媲美的高度。而 KNN 算法则在区分度上不高。小编后期抽空画了 SVM 及贝叶斯的 ROC 曲线，结果如下：由上图可知 SVM 及贝叶斯的 ROC 曲线的 AUC 值基本为 1，AUC 值是一个概率值，当你随机挑选一个正样本以及负样本，当前的分类算法根据计算得到的 Score 值将这个正样本排在负样本前面的概率就是 AUC 值，AUC 值越大，当前分类算法越有可能将正样本排在负样本前面，从而能够更好地分类。AUC 值之所以为 1 主要是因为基于 svm 线性核进行预测得分，存在一定误差，但这一定程度上也能看出 SVM 及贝叶斯确实在债券垃圾新闻的自动过滤上几乎可以达到完美的结果，进一步验证了上面的结论。

展开阅读全文

债券主体垃圾新闻自动过滤

最新文档