化工专业词典结构设计及中文分词系统的开发

上传人:w****i 文档编号:115456187 上传时间:2019-11-13 格式:PDF 页数:58 大小:2.98MB
返回 下载 相关 举报
化工专业词典结构设计及中文分词系统的开发_第1页
第1页 / 共58页
化工专业词典结构设计及中文分词系统的开发_第2页
第2页 / 共58页
化工专业词典结构设计及中文分词系统的开发_第3页
第3页 / 共58页
化工专业词典结构设计及中文分词系统的开发_第4页
第4页 / 共58页
化工专业词典结构设计及中文分词系统的开发_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《化工专业词典结构设计及中文分词系统的开发》由会员分享,可在线阅读,更多相关《化工专业词典结构设计及中文分词系统的开发(58页珍藏版)》请在金锄头文库上搜索。

1、北京化工大学 硕士学位论文 化工专业词典结构设计及中文分词系统的开发 姓名:齐皓爽 申请学位级别:硕士 专业:计算机应用技术 指导教师:许南山 20100525 化工专业词典结构设计及中文分词系统的开发 摘要 中文分词是中文信息处理的重要的基础工作,是语义理解的最初 环节,中文分词的准确与否直接影响后期语义分析的质量。对于搜索 引擎而言,中文分词技术直接影响搜索结果,它是搜索引擎的核心技 术之一。 本文在研究现有中文分词技术的基础上,为了使中文分词技术适 用于化工专业搜索引擎,设计并实现了一个专门针对专业化工词汇的 中文分词系统,为化工专业领域的人士快速准确地获取信息提供帮 助。 本文设计和实

2、现了系统界面和分词器,主要介绍了分词器的实 现,包括分词词典机制和分词算法。分词词典机制主要涉及词典的物 理结构和逻辑结构,采用基于字符串匹配的分词方法,结合化工专业 词汇的构词特点,提出一种基于T R I E 索引树的改进结构,以达剑提 高分词结果准确率的目的。首字散列表由汉字内码哈希得到首宁的位 置,沿着指针可查询其他字;分词算法是根据索引树的结构设计的搜 索查询算法,沿着指针链搜索匹配字符。由词典建立和文件扫描方向 的彳 e l s eN 是否为终止符 i f ( i s t e r m i n a t e e q u a l s l g n o r e C a s e ( ”T ”)

3、) 终止标识符为“T “ p o s = i ; i 一;指向前一个字符的下标 e l s e 终止标识符为“F ” i ;指向j 订一个字符的下扔: ) ) e l s e 没有查询到该字符 p o s 一:下标返回记录的位置 s t r l i n s e r t ( i , “ ”) ;在记录位置的字符后面插入分隔符“” p o s 一; i :p o s ;指向下一个字符的下标 s i g n a l = t r u e ; i f f i s c h e m i c a l e q u a l s l g n o r e C a s e ( ”T ”) ) 化工词汇标识符为“T ”

4、c h e m i c a l w o r d s n u m b e r + + ;# 化工词汇个数增加 ) e l s e 化工词汇标识符为“F ” u n c h e m i c a l w o r d s n u m b e r + + ;- 非化工词汇个数增加 3 7 北京化T 大学硕I :学伯沦义 4 3 系统界面 作为一个实际应用的中文分词系统,简洁明了、使用方便、界面友好可以使 用户在熟悉使用分词系统所耗费的时间大大降低。另一方面,为了系统测试阶段 更方便地获取数据,本系统在设计与实现上主要完成以下功能: 1 、文本输入 本分词系统能够处理的数掘足纯文本,用户可以选择打丌本地文

5、件中的文本 文件显示在屏幕上进行分词,也可以直接在屏幕上输入待处理的文本进行分词。 2 、文本输出 本分词系统的输j 结果也是纯文本,用户如果选择“知幕分词”,则分洲结 果直接显示在屏幕上,如果用户选择“文件分词”,则分词结果存放在用户指定 的文件罩。 3 、文本编辑 本分词系统为用户提供了简单的文本编辑功能,包括剪切、复制、粘贴等, 当用户选择“屏幕分词“ 时,可以使用这些功能。 4 、分词结果保存 本分词系统为用户提供了保存的功能,分词结束后,用户可以选择把此次分 词结果保存下来,已备以后使用。 5 、分词系统测试 本分词系统为了系统测试方便,提供了统计功能,即在界面中显示分词所耗 费的时

6、间、分词总个数、化工词汇个数、非化工词汇个数、分词效率这些测试信 息。 本分词系统的界面设计主要遵循简单实用、整洁大方的原则,希望可以为用 户提供便捷的分词服务。本系统的界面如图4 1 1 所示: 第p q 章中义分诃系统的实现 L 到审交分:面磊德L 童二j 乏量j ! 蔓翻 文件缡辑分同算法帮助 嘉分子材料:以高分子化含物为基础的材料,高分子材料是由相对分子质旦较高的化台 物构成的材料,包括橡胶、塑料、纤维、涂料、捩粘荆和高分子基夏台材料,由千百个 捧子彼此以共价键结合形成相对分子质星特别犬、具有重夏结构单元的有机化含物。惠 劳子的分子里从几千 乎是通过共价键连接 高分 翔两 构单 到几十

7、万甚至几百万,所含原子数目一般在几万以上,而且这些臻 起来的。高分子化台物中的原子莲接成很长的线状分子时,叫线型 子。如果高分子化台物中的原子连接成网状日寸,这种熹分子由于一般鄯不是平面结 是立体结构,所以也叫l 参型赢分子。高分子材料的嘉分子激通常是由 0 3 - 10 5 个结 元组成,高分子锤结构和许许多多高分子锈黎在一起的聚集态结构形成了高分子材 p 的特殊结掏。因而高分子辫辩踩具有低分子化台物所具有的结构特征曲同分异构体 ;、几何结构、旋转异构) 外,i 至具有许多特殊的结构特征。高分子结构通常分为镪结构 翔聚嘉态结构两个部分。激结构是指单个高分子化台物分子的结构和形态,所以镞结构

8、| 叉可分为近程和远程结构。近程结构属于化学结构,也称一级结构,包括镪中原子的种 纳 臣蛀熟土冀纂构;嵩基的张装翁拘单乏煎朔 列咂魔! 童爨类型拥长度等竺运强结构 耗费时间: 二二二二二 分淘慧个数: 二二二二二二二 化工习汇十数: 二二二非化工词汇1 。数: 二二二 分闯效率: l 。,。j压喀习 图4 一1 1 中文分词系统的主界面 F i g 4 - 1 1T h eM a i nI n t e r f a c eo f C h i n e s eS e g m e n t a t i o nS y s t e m 根据上图显示,本分词系统的界面分为三个区域: 1 、菜竹选项区 本区域提

9、供了五个主菜啦选项:文件、编辑、分训、算法、帮助,每一个生 菜单选项巾还有子菜单选项。“文件”主菜单中包括打丌文件、保存文什、另存 为、退出系统四个子菜单;“编辑”主菜单中包括剪切、复制、粘贴、全选 J q 个 子菜单;“分词”主菜单中包括屏幕分词和文件分词两个子菜单;“算法”主菜单 中包括正向最长匹配算法和逆向最长匹配算法两个子菜单;“帮助”主菜单中包 括帮助主题和关于两个子菜嗨。 2 、分词信息区 本区域位于整个界面的中部,主要显示输入文本、输出结果,是用户主要操 作的区域。 3 、分词统计结果显示区 本区域位于整个界面的下部,为用户方便了解本分词系统的性能,本区域分 三行显示分词所耗费的

10、时间、分词总个数、化工词汇个数、非化工词汇个数、分 3 9 北京化丁大学硕士学位论文 词效率以及“退出”按钮。 4 4 本章小结 本章根据适用于化工专业搜索引擎的设计目的和上一章中介绍的设计原则, 主要完成了本中文分词系统的实现部分。本章中详细介绍了中文分词系统的词典 机制和分词算法的具体实现细节: 1 、分词词典机制:主要介绍了分词词典的物理结构和逻辑结构; 2 、分词机制:主要介绍了预处理模块和分词算法,预处理模块主要完成词 典加载到内存的过程,分词算法是根据词典的结构设计的正向最长匹配算法和逆 向最长匹配算法。 最后介绍了分词系统的界面设计与实现。 第五章实验结果与性能测试 第五章实验结

11、果与性能测试 系统测试是检验系统性能的关键环节,在测试中能够发现设计是考虑不完善 的一些问题,以便进行修改完善。本系统测试主要对两个方面进行测试:分词速 度测试和分词精度测试: 本系统测试运行环境介绍如下 l 、硬件环境 C P U :I n t e l ( R ) C o r e ( T M ) 2D u oT 8 3 0 0 2 4 0 G h z ; 内存容量:2 0 0 G B ; 2 、软件环境 操作系统:V i s t a ; J a v a 虚拟机版本:1 6 00 3 5 1 分词速度测试 l 、测试方案 测试所选择的语料是未经分割的语料,是纯文本,因为经过搜索引擎索引模 块归

12、一化处理后就是纯文本。根据本中文分词系统的专业性要求,测试分为专业 文本测试和二 E 专业文本测试;另一方面,对于文本长度对系统的影响的测试,可 以以增加定长的方法测试。 专j I k 性测试中,分别选用普通文本和专业性文本进行测试,分1 j i = 是否为专业 性文本对系统的分词效率有何影响。 文本长度测试中,将文本的K 度从1 0 0 0 字开始以2 0 0 0 个字符为单位递增, 选择八个区间分别测试。 分词耗费时f u J 以纳秒( n s ) 为单位,分词效率定义为单位时I u J 内切分字符的个 数,即分词效率= 切分字符个数s ;分词速度定义为蕾位时f n J 内处理的汉字个 数

13、,即分词速度= 处理的汉字个数分词所耗费的时间。 2 、测试结果 凶系统运行环境不可能保持不变的状态,同一文本每次切分所耗费的时f 日j 不 尽相同,所以对每个文本反复测试,取耗费时间的平均值( 以下两个表的耗费时 间换算成了毫秒级) 。 4 1 北京化_ 1 :火学颂上学位论文 表5 - 2 普通文本按长度测试结果 T a b l e S - 2O r d i n a r yT e s to ft e x tw i t hd i f f e r e n tl e n g t h 文本 K 度9 9 4 2 9 9 64 9 8 56 8 7 98 8 9 21 0 9 5 51 2 9 4

14、61 5 5 9 7 ( 字符) 从上述的数据表可以看出,随着文本的长度增加,分词所耗费的时问也在逐 步增加,但随着文本字符个数以2 0 0 0 个字符为一个区间增长时,分词所耗费的 时问仍然保持在纳秒级 根据文本长度的不同,两种文本的分词速度进行比较,文本长度与分词速度 的关系如图5 1 所示: 44斛4O4 谢度:曲 舯糊仔梳 第五章实验结果与性能测试 魁 斛 曙 求 根据文本长度不同的测试速度 l2 3 4 5678 文本长度 一普通文本测试速度 化_ 丁文本测试速度 图5 - 1 分词速度与文本长度的关系图 F i g 5 - 1T h eD i a g r a mo f l l h

15、eS p e e da n dT h el e n g t ho ft e x t 由图可知,分词速度是随着文本长度增加而变慢的,但是增长的单位是毫秒 级。由于一般化工词汇特别是化学物质名称较普通词汇的长度要长,有些i ,J 能长 达2 0 多个字符,凶此在查洵匹雌的时候,普通义小的分训速度要快j :化工类文 本的分词速度,但相差不大。 5 2 分词精度测试 1 、测试方案 分词的精度测试主要检验一个指标,即分训准确率。由于本系统是针对化 专j 业词汇而设计的,因此只测试化工专业词:7 厂切分得准确与否,普通 司汇不在测 试范围内。分词准确率定义如下: 分词准确率= 正确识别出的词汇个数系统切

16、分出的词汇个数术1 0 0 2 、测试结果 测试文本选择化工类文本,分词结果举例如图5 2 所示: 4 3 0 O O O O 0 O O 0 踟衙的狗 北京化下人学硕 :学位论文 r , , , ?、 1 瀵d 审寰分谪象统固l 囱魏一; 文件编辑分同算法帮助 l 高分子丰j 料f :,以福分子化台物为基础袖粥料,藕分子材料涅由碍目对移予子獗囊蔼交 赢的毗台物舛勾成_ ;豹豺才料f ,咆括德膨、艘料t 、轩维,、睬树,、蒎粘剂湘蒋分子基, 复台材料,油洱百价,原子磁此似洪价谴黠台形成舛配扮子蝻里特别呔,、浸青, 萤夏鲒构单元豹痛机亿合搠,o 瘟分子稠吩子璧搬叽千剧叽十万堪至讥西万h 新 詹碾子数目卜艋卑芏列_ L 万,以上,骊且绣些钮更子堤确l 边哄价键裢接起来韵,o 蒋分子

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号