基于改进的贝叶斯模型的中文网页分类器

资源描述

《基于改进的贝叶斯模型的中文网页分类器》由会员分享，可在线阅读，更多相关《基于改进的贝叶斯模型的中文网页分类器（7页珍藏版）》请在金锄头文库上搜索。

1、基于改进的贝叶斯模型的中文网页分类器基于改进的贝叶斯模型的中文网页分类器基于改进的贝叶斯模型的中文网页分类器秦兵郑实福刘挺张刚李生（哈尔滨工业大学信息检索研究室，哈尔滨 150001） qinb,zsf,tliu,bert, 摘要摘要本文提出了一种改进的基于统计的中文网页的分类算法，通过对传统的基于计算相似度文本分类方法和基于贝叶斯模型文本分类算法的研究，我们对贝叶斯模型分类算法进行了改进，提出了利用类别密度函数似然比来增加特征词的可分性信息的算法。通过对计算相似度方法，贝叶斯方法及改进的贝叶斯方法对比实验表明,改进算法可以最大化类与类的间隔，因而具有较高的分

2、类精确率和召回率。关键字：关键字：似然比，贝叶斯方法，文本概率模型，网页分类 An Improved Bayes Classifier for Chinese Web Pages Qin Bing Zheng ShiFu Liu Ting Zhang Gang Li Sheng (Information Retrieval Laboratory, Harbin Institute Technology, Harbin, 150001) qinb,zsf,tliu,bert, Abstract This paper presents a modified statistic Chinese w

3、eb page classification algorithm. Similarity based method and Bayes model based method are the popular approaches for text classification .In this paper, we modified Bayes model method, then uses the probability likelihood ratio of each class to increase the separability of feature words vectors .In

4、 the following method: Similarity based method, Bayes model based method, modified Bayes model based method . The experiment shows that among these methods, the modified algorithm not only presents the maximum distance between classes , but also improves precision and recall. Keywords:Keywords: like

5、lihood ratio, Bayes model, text probability model, web page classification 1. 引言引言随着在线信息的迅速增长，对信息获取的速度和数量要求越来越高，使得文本分类成为日益重要的研究领域。文本分类技术可以用在许多方面，信息过滤，建立个人信息档案，在网上快速定位各类需要的信息等。文本分类是将未知文本类别的文本自动划分到其所属的类别中。传统上，是由人来完哈尔滨工业大学信息检索研究室论文集第一卷c2003 成的，如果是用手工来将不断增加和变化的文本加入到主体分类中，将是非常费时费力的，特别是 internet 上

6、在线信息的增加，使自动文本分类作为信息处理领域的一个重要研究课题，成为了当前的一个研究热点。在目前的自动文本分类方法主要有两种：一种是类似于专家系统的基于规则方法，通常需要手工建立规则库，并且修改起来非常困难。另一种是归纳学习方法，在已知类别的训练集基础上自动地建立分类器，采用归纳学习方法建立的分类器具有许多优势，分类器易于建立和更新。目前的文本分类研究中应用了许多统计分类和机器学习技术，如相关反馈，贝叶斯概率模型，神经网，决策树，最近邻法，支持向量机等。本文在传统的计算相似度和贝叶斯模型进行分类的过程中，提出了一种改进的贝叶斯模型，即将特征词类别间似然比与贝叶斯方法相

7、结合，提高了特征词区分性信息，实验表明，该方法不仅理论上易于建立和更新，而且分类的精确率也得到了提高。本文其余部分组织如下：第二节文本分类中的贝叶斯方法及改进算法；第三节系统实现步骤；第四节实验结果；第五节结论。 2. 文本分类中的贝叶斯方法及改进算法文本分类中的贝叶斯方法及改进算法应用最广泛的文本分类的学习算法是在信息检索中发展起来的计算相似度的方法，在文本分类中是通过对训练集学习，构成类别向量 Cj，然后以向量的内积计算待分类向量 d与类别向量距离，对每一类都由一个特征向量 Cj，由带类别标记训练集的得到的。用这些向量对待分文本 d分类，待分文本也表示成向量 d

8、，然后分别计算与各类特征向量的余弦，d 将属于余弦值最大的类别。见公式 ),cos(maxarg)(dCdHj CCj= （1）文本分类中常用的统计方法是利用文本的概率模型，基本思想是利用词和文本的联合概率估计文本所属类别的概率，纯粹贝叶斯假设文本是基于词的 unigram 模型，即文本中词的出现依赖于文本类别，但不依赖于其他词及文本的长度也就是说，词于词之间是独立的。具体算法如下：设集合 X 代表文本的内容，其中元素 x 表示训练文本 d 包含 x 的概率即为 p(x|d) 通过全概率理论和贝叶斯理论，我们可以得到： )|Pr()|Pr()|Pr(),|Pr()|Pr(),|P

9、r()|Pr(dxxCxdxCddxdxCdCj XxjXxjj=（2）为了便于处理假设 X 提供的关于 d 的信息足够多，包含 Cj 类别信息，即 Cj 的信息是冗余的，可以认为)|Pr(),|Pr(xdxCdj= 则（2）简化为： XxjjdxxCdC)|Pr()|Pr()|Pr( （3）对于 X 集的选择，元素 x 是通过 n-gram 模型计算的得到的，即 x 的概率是与特征集 F 前 n基于改进的贝叶斯模型的中文网页分类器个词的相关的，从中我们可以看到，n 的大小决定了分类算法的质量和精确度，在这里我们采用最简单的形式 n=1 作为开始，可以想象，若 n=|d|，Pr(C

11、 Pr(w|Cj)的值： DCCj j=)Pr(，其中 |Cj| 为训练集中某一类的文档数， |D| 训练集的总文本数jjCDFC=)|Pr(，DF 为 Cj 类中出现 w 的次数，|Cj|为训练集中该类的文本数,我们可以得到文本类别贝叶斯判别式为： )|()Pr() |Pr()Pr()|Pr(maxarg) ( PrdprCCCCdHFjjCCTFIDFj= （6）在对上述方法的实现中，文本特征均以 DF 来表示，通过我们实验表明，DF 是特征表示法中的一个简单、费用较低的工具，其效果与其它方法相当。获取 DF 的过程，首先除去停用词，然后统计

12、词频，这里采用的词频即某一个词 w 出现在该类文本中个数，给定阈值后，词频大于阈值的词作为该类文本的特征，形成特征向量 F。在对篮球和足球分类中我们发现，对于不易分别的文本，会在两类特征向量中由很多相似的特征，且在两类文本中出现的概率均衡，区分性信息不好，如“得分” ，在篮球和足球中都会经常出现，但仅通过这个词，我们不能文本属于哪一类，而两类中出现词频差别较大的词，即使词频较低，也具有很强的区分信息，因此我们提出了一种改进的分类方法，在贝叶斯分类的基础上，对区分性好的词增加权重，对分类性差的词降低权值，具体方法是：用出现的词频作第一次的排序，再用似然比对其分类性能

14、现整个系统的实现是在 Linux 下用 KDevelop1.2 开发的。系统的流程如下图所示：系统包括两方面：训练部分和测试部分。训练和测试都包含预处理过程。具体过程如下：由于我们的语料都是从 Internet 上下载的网页，格式多种多样，为了确保实验的顺利进行，首先要对语料格式进行处理，去掉网页中多余的标记。使语料满足实验要求的格式。然后再对语料进行分词，分词是预处理的主要任务，分词的效果好坏会直接影响到后面的其他处理过程。我们的已有的分词模块能够解决大部分的组合歧义和交集型歧义，同时还有较强的未登陆词的识别功能，能够很好的对人名、地名进行识别，这就为进一步的处理

15、提供了基础。在训练过程中，首先拿出一部分已经分好类的语料作为训练语料。把不同类的语料存在不同的目录下。然后通过统计每个词在这些语料中出现的频率 DF/DocNum 来提取特征向量（F）。DF 为文档频率，DocNum 为训练文档的总数。对 DF/DocNum 取一个阈值，将所有 DF/DocNum 大于这个阈值词加入特征向量中。 DF/DocNum 的值越小，得到的特征词就越多。然后计算每个特征词在各类文档中出现的概率)|Pr(jC，同时，为了计算)Pr(jC还需要记录每类文档的文档数。训练的最后结果保存在两个文件中，这两个文件的结构如图 1 所示。表 1 训练结果文件的结构训练结果文件一：训练结果文件二：文档类特征向量 Pr(|Cj) 第 1 DF(1)/DocNum1一 2 DF(2)/DocNum1类。。。。。。第 1 DF(1)/DocNum2二 2 DF(2)/DocNum2类。。。。。。文档类文档数第一类 DocNum1第二类 DocNum1。。。。。。图 1 系统流程图测试语料训练语料预处理训练分类器预处理分类器分类分类

展开阅读全文

基于改进的贝叶斯模型的中文网页分类器

最新文档