中文文本投诉信息自动分类系统研究

上传人:油条 文档编号:1226026 上传时间:2017-06-04 格式:PPT 页数:27 大小:571.50KB
返回 下载 相关 举报
中文文本投诉信息自动分类系统研究_第1页
第1页 / 共27页
中文文本投诉信息自动分类系统研究_第2页
第2页 / 共27页
中文文本投诉信息自动分类系统研究_第3页
第3页 / 共27页
中文文本投诉信息自动分类系统研究_第4页
第4页 / 共27页
中文文本投诉信息自动分类系统研究_第5页
第5页 / 共27页
点击查看更多>>
资源描述

《中文文本投诉信息自动分类系统研究》由会员分享,可在线阅读,更多相关《中文文本投诉信息自动分类系统研究(27页珍藏版)》请在金锄头文库上搜索。

1、中文文本投诉信息自动分类系统研究,汇报内容,国内外研究现状与问题,1,选题背景及意义,2,论文发表情况,4,主要研究内容及创新点,3,一、国外研究现状,Text 1,Tex 2,Text 3,Text 4,文本分类的发展过程 大致可以划分为四个阶段,可行性研究,实验研究,实用性研究,基于因特网的研究,一、国外研究现状,一、国内研究现状,辅助分类阶段,自动分类系统阶段,可行性探讨阶段,一、存在的主要问题,缺少统一的大规模数据集分词效果不理想特征提取及文本分类算法的研究不够完整测试标准不统一分类器的综合运用,二、选题背景及意义,结合理想信息技 术 研究院的项 目长春市市长公开电话智能综合服务网络,

2、关于如何对市民发出的投诉信息有效分类的问题进行研究。,系统研究如何运用文本分类方法将投诉信息进行准确地分类,并基于该方法构造一个中文文本投诉信息自动分类系统。,建立起的文本自动分类系统可以代替人工分类,协助政府数字化办公,提高工作效率和减轻人员开支。本文的研究工作对系统的分类效率具有积极作用。,背景,研究目标,意义,三、主要研究内容及创新点,类别,匹配,文本表示,若干特征项,对类别进行表示,若干特征项,关键词,关键词组,构建基于关键词组的投诉领域分类体系库 SLCC,同义词扩展,构建模糊词典,提高分词效率,匹配,提高分类准度,待分类文本,自动分词,创新点,三、主要研究内容及创新点,2.基于关键

3、词组的SLCC构建 (创新点),1.文本分类系统的框架设计,3.基于文本分类语料库的模糊词典构建 (创新点),4.文本分类关键技术研究,3.1 系统框架设计,训练文本,分类结果,分类运算,测试文本,构造分类器,文本分词预处理,特征项权重,分类器,特征集合,权值,词库,图1 中文文本分类系统框架设计,训练过程,分类过程,特征项权重,文本分词预处理,特征选取,特征选取,3.2 基于关键词组的SLCC构建,描述关系,类别 A(市教育局),(68中学,工农大路,) ,类别(政府各级部门),属性信息,描述关系,类别B(交通),类别,并列关系,关键词组,隶属关系,类别a1(宽城区教育局),类别a2(朝阳区

4、教育局),隶属关系,关键词组,描述关系,1. SLCC概述:,3.2 基于关键词组的SLCC构建,最大类别,类别2,类别,类别11,类别12,类别1,类别21,类别22,类别,图2 类别的结构图,2.类别的层次结构:,3.2 基于关键词组的SLCC构建,C=R1 ( K1 ) , R2 ( K2 ) , Rn ( Kn ) ,C: R ( w1, w2, , wn ) | 0P(A)P(BC)的时候,歧义字 段ABC分解为AB和C,否则分解为A和BC。,分词算法研究:,3.4 文本分类的关键技术研究,1.正向扫描结果:原子|结合|成分|子;2.逆向扫描结果:原子|结合|成|分子;3.正向和逆向

5、的扫描结果不一致,产生歧义字段“成分子”; 4.利用基于成词概率的交集型歧义消解方法考察 “P(成分)P(子)”和“P(成)P(分子)”的出现概率;5.经考查 P(成分)P(子)P(成)P(分子),6.“原子结合成分子”的分词结果为:原子|结合|成|分子。,分词算法举例: “原子结合成分子”,研究内容小结,完成的工作:面向投诉领域构建了基于关键词组的分类体系库。对“类别”和“关键词组”的形式化描述、存储形式进行深入研究。(创新点)为了提高词典的分词效率,对词典中词条的同义词进行扩展,建立了模糊词典。 (创新点)研究了适合本系统的最大匹配分词法和KNN分类算法。,不足:结合关键词组的概念,寻求更

6、有效的关键词组匹配模式对本系统是至关重要的。,四、论文发表情况,致谢,值此论文完成之际,谨向给予我无私帮助的老师和同学们致以最诚挚的谢意! 首先要特别感谢我的导师钟绍春教授。他严谨的治学态度、行胜于言的工作作风、勤奋踏实的生活态度和高尚的个人修养都使我终生受益。本课题从研究方向的确定、论文选题到最后论文工作都是在钟教授的悉心指导下完成的。在学习和实践中,钟教授不断提出新思想和新方法,为我创造了宽松、自由的研究环境,提供了很好的科研条件和宝贵的交流机会,并对我的研究工作给予了极大的信任和鼓励。在此谨向钟教授表示衷心的感谢和深深的敬意。 特别要感谢张琢教授在读研期间为我的研究方向提供的思想、方法、各种资料和素材,使我了解和学习到很多新知识,也感谢您像母亲一样对我的谆谆教导。 特别要感谢王伟博士,是她刻苦钻研的学习态度和学习积极性深深的感染着我,并且对我的研究给予无私的帮助,使我的论文能够有序的进展。 同时感谢和我一起学习研究的同学们和身边的朋友们、室友们,和你们在一起不仅学到了很多东西还让我拥有许多快乐的时光。 最后感谢我的家人,谢谢他们给予我无私的关怀和照顾!,请各位评审老师提出宝贵意见!,Thank You !,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号