基于改进的贝叶斯模型的中文网页分类器

上传人:ji****n 文档编号:47458403 上传时间:2018-07-02 格式:PDF 页数:7 大小:421.56KB
返回 下载 相关 举报
基于改进的贝叶斯模型的中文网页分类器_第1页
第1页 / 共7页
基于改进的贝叶斯模型的中文网页分类器_第2页
第2页 / 共7页
基于改进的贝叶斯模型的中文网页分类器_第3页
第3页 / 共7页
基于改进的贝叶斯模型的中文网页分类器_第4页
第4页 / 共7页
基于改进的贝叶斯模型的中文网页分类器_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《基于改进的贝叶斯模型的中文网页分类器》由会员分享,可在线阅读,更多相关《基于改进的贝叶斯模型的中文网页分类器(7页珍藏版)》请在金锄头文库上搜索。

1、基于改进的贝叶斯模型的中文网页分类器 基于改进的贝叶斯模型的中文网页分类器基于改进的贝叶斯模型的中文网页分类器 秦兵 郑实福 刘挺 张刚 李生 (哈尔滨工业大学信息检索研究室, 哈尔滨 150001) qinb,zsf,tliu,bert, 摘要摘要 本文提出了一种改进的基于统计的中文网页的分类算法, 通过对传统的基于计算相似度 文本分类方法和基于贝叶斯模型文本分类算法的研究, 我们对贝叶斯模型分类算法进行了改 进, 提出了利用类别密度函数似然比来增加特征词的可分性信息的算法。 通过对计算相似度 方法,贝叶斯方法及改进的贝叶斯方法对比实验表明,改进算法可以最大化类与类的间隔, 因而具有较高的分

2、类精确率和召回率。 关键字:关键字:似然比,贝叶斯方法,文本概率模型,网页分类 An Improved Bayes Classifier for Chinese Web Pages Qin Bing Zheng ShiFu Liu Ting Zhang Gang Li Sheng (Information Retrieval Laboratory, Harbin Institute Technology, Harbin, 150001) qinb,zsf,tliu,bert, Abstract This paper presents a modified statistic Chinese w

3、eb page classification algorithm. Similarity based method and Bayes model based method are the popular approaches for text classification .In this paper, we modified Bayes model method, then uses the probability likelihood ratio of each class to increase the separability of feature words vectors .In

4、 the following method: Similarity based method, Bayes model based method, modified Bayes model based method . The experiment shows that among these methods, the modified algorithm not only presents the maximum distance between classes , but also improves precision and recall. Keywords:Keywords: like

5、lihood ratio, Bayes model, text probability model, web page classification 1. 引言引言 随着在线信息的迅速增长, 对信息获取的速度和数量要求越来越高, 使得文本分类成为 日益重要的研究领域。文本分类技术可以用在许多方面,信息过滤,建立个人信息档案,在 网上快速定位各类需要的信息等。 文本分类是将未知文本类别的文本自动划分到其所属的类别中。传统上,是由人来完哈尔滨工业大学信息检索研究室论文集 第一卷c2003 成的,如果是用手工来将不断增加和变化的文本加入到主体分类中,将是非常费时费力的, 特别是 internet 上

6、在线信息的增加,使自动文本分类作为信息处理领域的一个重要研究课 题,成为了当前的一个研究热点。 在目前的自动文本分类方法主要有两种:一种是类似于专家系统的基于规则方法,通 常需要手工建立规则库,并且修改起来非常困难。另一种是归纳学习方法,在已知类别的训 练集基础上自动地建立分类器, 采用归纳学习方法建立的分类器具有许多优势, 分类器易于 建立和更新。目前的文本分类研究中应用了许多统计分类和机器学习技术,如相关反馈,贝 叶斯概率模型,神经网,决策树,最近邻法,支持向量机等。本文在传统的计算相似度和贝 叶斯模型进行分类的过程中, 提出了一种改进的贝叶斯模型, 即将特征词类别间似然比与贝 叶斯方法相

7、结合, 提高了特征词区分性信息, 实验表明, 该方法不仅理论上易于建立和更新, 而且分类的精确率也得到了提高。 本文其余部分组织如下: 第二节文本分类中的贝叶斯方法及改进算法; 第三节系统实现 步骤;第四节实验结果;第五节结论。 2. 文本分类中的贝叶斯方法及改进算法文本分类中的贝叶斯方法及改进算法 应用最广泛的文本分类的学习算法是在信息检索中发展起来的计算相似度的方法, 在文 本分类中是通过对训练集学习,构成类别向量 Cj,然后以向量的内积计算待分类向量 d与 类别向量距离, 对每一类都由一个特征向量 Cj,由带类别标记训练集的得到的。用这些向 量对待分文本 d分类,待分文本也表示成向量 d

8、,然后分别计算与各类特征向量的余弦,d 将属于余弦值最大的类别。见公式 ),cos(maxarg)(dCdHj CCj= (1) 文本分类中常用的统计方法是利用文本的概率模型, 基本思想是利用词和文本的联合概 率估计文本所属类别的概率,纯粹贝叶斯假设文本是基于词的 unigram 模型,即文本中词的 出现依赖于文本类别,但不依赖于其他词及文本的长度也就是说,词于词之间是独立的。具 体算法如下: 设集合 X 代表文本的内容, 其中元素 x 表示训练文本 d 包含 x 的概率即为 p(x|d) 通过全概率理论和贝叶斯理论,我们可以得到: )|Pr()|Pr()|Pr(),|Pr()|Pr(),|P

9、r()|Pr(dxxCxdxCddxdxCdCj XxjXxjj=(2) 为了便于处理假设 X 提供的关于 d 的信息足够多,包含 Cj 类别信息,即 Cj 的信息是冗余的,可以认为)|Pr(),|Pr(xdxCdj= 则(2)简化为: XxjjdxxCdC)|Pr()|Pr()|Pr( (3) 对于 X 集 的选择,元素 x 是通过 n-gram 模型计算的得到的,即 x 的概率是与特征集 F 前 n基于改进的贝叶斯模型的中文网页分类器 个词的相关的, 从中我们可以看到,n 的大小决定了分类算法的质量和精确度,在这里我 们采用最简单的形式 n=1 作为开始,可以想象,若 n=|d|,Pr(C

10、j|d)=Pr(Cj|x),精确度将很高, 但计算起来将非常复杂,我们采用纯粹贝叶斯假设,即词与词之间是独立的,即 n=1 作为 研究的起点,则(3) 就被简化为 FjjdCdC)|Pr()|Pr()|Pr( (4) 其中: Pr(w|d)用训练文本 d 中 w 出现的次数来表示,ddTF dTFdTFdF),( ),(),()|Pr( = Pr(Cj|w)表示当文本中有词 w 出现时,文属于第 j 类的概率。通过训练集由贝叶斯公式得到 后验概率: =CCjj jCCCCC) Pr() |Pr()Pr()|Pr()|Pr( (5) 其中:由训练语料的文本数我们可以得到 Cj 先验概率和后验概率

11、 Pr(w|Cj)的值: DCCj j=)Pr(, 其 中 |Cj| 为 训 练 集 中 某 一 类 的 文 档 数 , |D| 训 练 集 的 总 文 本 数jjCDFC=)|Pr(,DF 为 Cj 类中出现 w 的次数,|Cj|为训练集中该类的文本数,我们可以得到文本类别贝叶斯判别式为: )|()Pr() |Pr()Pr()|Pr(maxarg) ( PrdprCCCCdHFjjCCTFIDFj= (6) 在对上述方法的实现中,文本特征均以 DF 来表示,通过我们实验表明,DF 是特征表示 法中的一个简单、费用较低的工具,其效果与其它方法相当。 获取 DF 的过程,首先除去停用词,然后统计

12、词频,这里采用的词频即某一个词 w 出现 在该类文本中个数, 给定阈值后, 词频大于阈值的词作为该类文本的特征, 形成特征向量 F。 在对篮球和足球分类中我们发现, 对于不易分别的文本, 会在两类特征向量中由很多相似的 特征,且在两类文本中出现的概率均衡,区分性信息不好,如“得分” ,在篮球和足球中都 会经常出现, 但仅通过这个词, 我们不能文本属于哪一类, 而两类中出现词频差别较大的词, 即使词频较低,也具有很强的区分信息,因此我们提出了一种改进的分类方法,在贝叶斯分 类的基础上,对区分性好的词增加权重,对分类性差的词降低权值,具体方法是:用出现的 词频作第一次的排序,再用似然比对其分类性能

13、作第二次处理,即对每一项加权 Pr(w|cj)/Pr(w|ci), 对两类问题, 我们可以用两类密度函数似然比作因子, 提高平均可分信息, 推广到多类问题, 我们可以用某一类的密度函数与各类密度函数的均值进行比较, 对于在各 类中表现均衡的词,即出现概率相近的词,得到权值的很小,对在各类中出现概率差别较大 的词,其权值较大,从而提高了可分性信息。改进后的文本分类判别公式如下: 哈尔滨工业大学信息检索研究室论文集 第一卷c2003 )|()Pr() |Pr()Pr()|Pr()|Pr()|Pr(maxarg) ( PrdprCCCCCCdHFjjjCCTFIDFj= (7) 3. 系统实现系统实

14、现 整个系统的实现是在 Linux 下用 KDevelop1.2 开发的。系统的流程如下图所示: 系统包括两方面: 训练部分和测试部分。 训练和测试都包含预处理过程。 具体过程如下: 由于我们的语料都是从 Internet 上下载的网页,格式多种多样,为了确保实验的顺利进 行,首先要对语料格式进行处理,去掉网页中多余的标记。使语料满足实验要求的格式。然 后再对语料进行分词, 分词是预处理的主要任务, 分词的效果好坏会直接影响到后面的其他 处理过程。 我们的已有的分词模块能够解决大部分的组合歧义和交集型歧义, 同时还有较强 的未登陆词的识别功能,能够很好的对人名、地名进行识别,这就为进一步的处理

15、提供了基 础。 在训练过程中, 首先拿出一部分已经分好类的语料作为训练语料。 把不同类的语料存在 不同的目录下。然后通过统计每个词在这些语料中出现的频率 DF/DocNum 来提取特征向量 (F) 。DF 为文档频率,DocNum 为训练文档的总数。对 DF/DocNum 取一个阈值,将所有 DF/DocNum 大于这个阈值词加入特征向量中。 DF/DocNum 的值越小, 得到的特征词就越多。然后计算每个特征词在各类文档中出现的概率)|Pr(jC,同时,为了计算)Pr(jC还需要记录每类文档的文档数。 训练的最后结果保存在两个文件中, 这两个文件的结构如图 1 所示。 表 1 训练结果文件的结构 训练结果文件一: 训练结果文件二: 文档类 特征向量 Pr(|Cj) 第 1 DF(1)/DocNum1一 2 DF(2)/DocNum1类 。 。 。 。 。 。 第 1 DF(1)/DocNum2二 2 DF(2)/DocNum2类 。 。 。 。 。 。 文档类 文档数 第一类 DocNum1第二类 DocNum1。 。 。 。 。 。 图 1 系统流程图测试语料训练语料 预处理 训练分类器 预处理 分类器 分类 分类

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 初中教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号