一种基于资源优化神经网络(RON)的中文文本分类方法

上传人:我** 文档编号:111658007 上传时间:2019-11-03 格式:DOC 页数:6 大小:322.50KB
返回 下载 相关 举报
一种基于资源优化神经网络(RON)的中文文本分类方法_第1页
第1页 / 共6页
一种基于资源优化神经网络(RON)的中文文本分类方法_第2页
第2页 / 共6页
一种基于资源优化神经网络(RON)的中文文本分类方法_第3页
第3页 / 共6页
一种基于资源优化神经网络(RON)的中文文本分类方法_第4页
第4页 / 共6页
一种基于资源优化神经网络(RON)的中文文本分类方法_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《一种基于资源优化神经网络(RON)的中文文本分类方法》由会员分享,可在线阅读,更多相关《一种基于资源优化神经网络(RON)的中文文本分类方法(6页珍藏版)》请在金锄头文库上搜索。

1、6一种基于资源优化神经网络(RON)的中文文本分类方法张燕平 乔立秋(通讯作者) 朱远枫 徐庆鹏安徽大学 计算智能与信号处理教育部重点实验室 合肥 230039Email: qlqjohn_摘 要:文章应用有指导的机器学习方法实现了一个文本分类器。运用改进型的CHI统计量方法对分词结果进行特征提取,对传统的TF-IDF加权公式进行了一些改进(称之为:ETF-IDF),运用资源优化神经网络(RON)构建分类器。在复旦大学提供的中文文本分类语料库上进行分类实验,实验结果表明该分类器较之BP算法有较高的分类质量,且ETF-IDF加权公式较之传统的TF-IDF加权公式有其优越性,提高了分类的精度和性能

2、,满足了中文文本自动分类的要求。关键词:文本分类;CHI统计量;RON;资源优化神经网络 A Text Categorization Method Based on Resource-optimizing Networks (RON)Zhang Yan-Ping,Qiao Li-Qiu,Zhu Yuan-Feng,Xu Qing-Peng( Key Lab. of Intelligent Computing & Signal Processing, Ministry of Education, Anhui University , Hefei 230039 , China)Abstract:T

3、his paper makes use of supervised machine learning theory to implement a text classifier. The method can be conducted as following, text segmentation, feature extraction using Improved CHI statistic, improving Traditional TF-IDF Formula(Called: ETF-IDF), and constructing classifier using Resource-op

4、timizing Networks (RON).Experiments on some test dataset taken from the Corpus of Fudan University show that the classifier we constructed performs better than BP network and ETF-IDF Formula is performs better than Traditional TF-IDF Formula in text classification , so the text classification based

5、on RON we constructed is feasible and effective.Key words:Text classification;CHI statistic;RON;Resource-optimizing Networks0 引 言基金项目:国家重点基础研究973计划项目(2004CB318108, 2007CB311003),国家自然科学基金项目(60675031).作者简介:张燕平(1962-),女,教授,硕士生导师,研究方向为人工神经网络、机器学习及应用; 乔立秋,男,硕士生,研究方向为智能计算与数据挖掘;朱远枫,女,硕士生,研究方向为智能计算与数据挖掘.徐庆鹏

6、,男,硕士生,研究方向为智能计算与数据挖掘目前,文本分类技术的研究比较活跃,已经出现了多种文本自动分类算法1,并且被广泛应用于多个领域。文本自动分类算法基本上都是基于概率统计模型的,例如贝叶斯分类算法2(Naive Bayes,Bayes Network),支持向量机3(SVM),最大熵模型4(Maximum Entropy Model),K近邻算法(KNN)5等等。本文就是基于RBF神经网络算法,并根据理论描述使用C+语言构建了一个神经网络分类器。实验表明,构建的神经网络分类器可以取得了良好的分类效果。1 文本预处理文本表示首先要确定的问题就是表示文本的基本单位,用于表示文本的基本单位通常称

7、为文本的特征或特征项。中文文本不同于英文文本,需要对其进行分词处理才能得到特征项。本文采用中国科学院计算技术研究所汉语词法分析系统ICTCLAS3.06进行分词。另外,对于文本中的特征项,能标识文本类别特性的往往是文本中的实词,如名词、动词、形容词等。而文本中的一些虚词,如感叹词、介词、连词等,对于标识文本的类别特性贡献并不大甚至会产生噪音。所以我们只保留那些对于文本分类有用的实词即:名词、动词和形容词。即便如此,要对文本进行分类,数据量还是会很大。为此,我们还需要进行特征提取,提取出对文本分类贡献大的特征项。2 特征提取特征提取就是提取出最能代表某篇文章所属类别的特征项,以达到降维的效果而减

8、少文本分类的计算量。7中介绍了一些典型特征提取方法。这些方法有:信息增益( Information Gain):从信息论角度出发,根据特征取值情况来划分学习样本空间时,所获信息增益的多少,来选择相应的特征;互信息(Multi - Information) :根据词条和类别的互信息量来决定特征词的取舍;文档频度(Document Frequency) :根据出现词条的文档数量的多少来选取特征词; 2 统计量(CHI) ;下面重点介绍 2 统计:(2-1)其中:表示文本总数;表示t和c同时出现的文本个数;表示t出现但c不出现的文本个数;表示t不出现但c出现的文本个数;表示t和c都不出现的文本个数。

9、本文使用如下改进型的CHI方法: (2-2)其中:N 、A 、B 、C、D 的含义同 2, 为出现t 的文档数. 它基于如下的假设:如果词条出现的文档数接近训练集中所有的文档数时,即时此类词条应该过滤掉,并且适当地提高了低频词的权重。这样计算某个特征词可能同时出现在几个类中,为使其应用于多类中,一种方法是取其均值,别一种方法是取其最大值。本文使用前者,即: (2-3)计算出所有特征词的CHI统计值后,按从大到小进行排序,然后根据需要从上到下选取一定数量的特征词构建文本分类的特征词库。3 特征加权特征权重计算算法有多种,各有优劣。本文使用一种改进型的TF-IDF来计算特征词的权重。TF-IDF公

10、式有很多变种,下面是一个比较常见的TF-IDF公式:(3-1)其中,是类别个数,的取值范围是,为所有文档数目,为含有词条的文档数目。表示为第个特征项在第类上的平均词频。 (3-2)其中,是特征项在类中第篇文档中的词频,的取值范围是:。TF-IDF公式是建立在两条假设之上:1.在一个文本中出现很多的词条,在另一个同类文本中出现次数也会很多,其分类能力也就越强,反之亦然(公式:);2.若一个词条出现的文本频率越小,它区别不同类别的能力就越大(公式:)8。TF-IDF公式并没有考虑到词条在不同类别中的分布差异性即:词条出现的文本频率越小,其区别不同类别的能力未必越大。例如:设词条e和词条f,文档集中

11、共有A,B,C,D 4个类别,每一类有10篇文章,词条e类别分布为9,0,0,0,词条f为2,2,2,2。从特征词之间类别分布来看,很显然,词条e的分类能力要比词条f强,但是,根据TF-IDF公式的第二条假设(不考虑词条在文档中出现的频率)得出词条e的分类能力比词条f差。这显然是不合理的,为此,需要修改公式:。TF-IDF公式问题的存在是因为没有考虑到词条在类间的分布信息。设词条对于待分类集合C中的每个类别都存在一个后验概率,表示文本出现特征词后属于类别的可能性(即:词条对类别的分类贡献能力)。向量称为该词的类间概率分布。其中可以这样计算得到(3-3)定义: (3-4)其中表示类别个数,表示了

12、词条在类别间的分布信息(即:词条对分类的贡献能力大小)。根据再看以上的例子可以得到:对于词条e,;对于词条f,可以计算得到:;,显然词条e的分类能力要比f强。参照,本文改进后的特征词的权值计算公式(称之为:ETF-IDF)为:(3-5)该改进考虑到了特征词在类别间的分布信息,克服了传统TF-IDF公式的缺点。4 资源优化神经网络网络(RON)9RBF网的非线性动态系统在线建模的资源优化网络(Resource-optimizing Networks,简称RON)方法是在资源分配网络(RAN)的学习过程中引入了滑动窗口和网络结构在线优化的思想,使网络能根据最近一段时间内的误差信息自动实现网络结构优

13、化,从而使RBF网络既能在线适应对象的变化,又能使网络规模维持在较小水平,并保证了网络的泛化能力使用滑动窗口技术使RON对学 习参数变化具有较好的鲁棒性,并更易收敛。考虑一个m-h-n结构的RBF网,其中,m和h分别为网络的输入向量维数和隐节点个数,n为输出向量维数。向量 为网络的输入,为第i个隐节点(或基函数)的数据中心,为该数据中心的扩展常数(或称宽度)。采用的RBF网模型隐节点输出为: (4-1)其中,为第j个隐节点的输出,x为网络的m维输入向量。网络输出为: (4-2)式中为网络第i个输出节点的输出,为第j个隐节点到第i个输出层的权值。假定当前时刻输入的新样本为。一般地,此时神经网络的

14、输出与目标输出总是存在偏差,即:其中为目标输出,定义误差函数为: (4-3)4.1滑动窗口滑动窗口是一个固定长度的先进先出的队列,队列中的元素则是在线输入的样本,按进入窗口的时间顺序排列,其中是最新样本,是最老的样本。长度为的滑动窗口可以表示为:。考虑滑动窗口中所有样本和遗忘因子的影响,神经网络学习的误差函数为: (4-4)式中为窗口中第i个样本的训练误差,为加权系数,其取值采用“遗忘因子”思想,如本文采用线性方式。4.2隐节点在线生成新输入一个样本,并将该样本放入滑动窗口后,如果当前网络对样本的偏差过大,且样本输入离现有的所有数据中心都较远(即没有激活任意一个隐节点),则认为样本是不能由当前

15、网络实现,此时就应该增加新的隐节点以消除偏差。该新隐节点分配后,应使得网络的输出等于模式期望输出,则新隐节点的数据中心应取,隐节点与输出节点之间的权值取当前网络的误差,隐节点的扩展常数取输入与离之最近的数据中心的距离。4.3网络参数在线调节如果样本激活了一个或多个隐节点(激活是指当前样本与隐节点的距离值小于某个阈值),则通过调节被激活隐节点的数据中心、扩展常数、输出权值和偏移来调节偏差。当前神经网络对数据中心和扩展常数以及权值的梯度为:(4-5)(4-6)(4-7)式中为第i个隐节点对x的输出,考虑滑动窗口中所有样本和遗忘因子的影响,和以及权值的调节量为: (4-8) (4-9) (4-10)4.4隐节点在线合并和删除当调节网络中的数据中心和扩展常数时,可能会出现以下两种情况:一种情况是两个或多个隐节点不仅数据中心比较接近,而且扩展常数也基本相等,此时这些隐节点应该合并;另一种情况是某些隐节点逐渐偏离工作区域,成为无用节点。这两种情况都会浪费资源并影响网络性能。第一种情况:假定i和j两个隐节点的数据中心比较接近(同时也是互为最近的隐节点),此时有: (4-11) (4-12)于是对于任意输

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号