分类词典编撰的领域词语聚类实现

上传人:宝路 文档编号:3174615 上传时间:2017-07-31 格式:DOC 页数:6 大小:122.50KB
返回 下载 相关 举报
分类词典编撰的领域词语聚类实现_第1页
第1页 / 共6页
分类词典编撰的领域词语聚类实现_第2页
第2页 / 共6页
分类词典编撰的领域词语聚类实现_第3页
第3页 / 共6页
分类词典编撰的领域词语聚类实现_第4页
第4页 / 共6页
分类词典编撰的领域词语聚类实现_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《分类词典编撰的领域词语聚类实现》由会员分享,可在线阅读,更多相关《分类词典编撰的领域词语聚类实现(6页珍藏版)》请在金锄头文库上搜索。

1、1分类词典编撰的领域词语聚类实现刘华 1 中文提要:针对分类词典中学科词条的获取和选择问题,我们利用文本分类和聚类中特征提取的方法进行词语聚类,从而达到辅助词典编撰的目的。关键词:分类词典 文本分类 特征提取 词语聚类Studies on Words Clustering in lexicographyLiu Hua1,2 Zhou LingYan1 Zhang Pu21(College of Chinese Language and Culture of Jinan University ,Guangzhou,510000)2(Beijing Language University,Beij

2、ing,100000)E-mail:Abstract: For obtaining and selecting subject lemma auxiliary to building classified dictionary, this paper presents an algorithm that clusters field Words in large-scale classed corpus by character extraction in text classing.Key words: Lexicography, Text Classing, Character Extra

3、ction, Words Clustering词典或词库建设是一项重要的基础性工程,词典编撰工作量巨大、枯燥繁琐。在信息化高度发展的今天,如何利用高科技手段辅助词典编撰已成为一项非常有意义的课题。针对分类词典编撰中学科词条(每一条目的条头,可能是词或短语,本文通称为词条,下同)的获取和选择问题,我们利用文本分类和聚类中特征提取的方法进行词语聚类,从而达到辅助词典编撰的目的。1.分类词典编撰的两个关键问题现代词典按其收录内容和用途可分为:语文词典、综合性词典和专科性词典。其中,综合性词典和专科性词典常常以学科(或题材)为纲来进行组织编排 1。综合性词典收录内容广泛,涉及各个领域,便于查找最基本的

4、知识和资料,往往只选择重要的或查检率较高的词目收录,而在涉及各学科体系的深度和收词的平衡及完整性方面有它薄弱的一面。这样在查检某一学科、专业的知识时则主要利用专科词典。人类很早就有将词汇按题材分类编纂的传统,距今 2000多年前编纂的尔雅是最早的分类词典雏形。近现代,分类词典的出版空前繁荣,出现了很多专科词典,基本上涵盖了各学科。按学科(或题材)编撰词典的两个关键问题在于学科词条的获取和选择。1.2.1 学科词条的获取以往的词条通常是由学科领域的专家利用其学科经验来提供,这一方面保证了学科词条的准确性,但另一方面又带来了一些问题。如个人主观性太大,难以保证词条的一致性,特别是对于那些新出现的没

5、有定论的学科术语更是如此;个人或几个人的力量毕竟有限,很难保证词条的学科涵盖性,特别是在编撰综合性词典时,如何调动大规模的领域专家协同工作,更是一个大问题;信息化时代的到来,特别是网络的发展,使得知识更新非常快,单纯依靠专家的1 刘华,男,02 级博士生,研究方向:计算语言学,智能检索,e-mail:2知识很难保证学科词条的时效性,难以及时更新。1.2.2 学科词条的选择综合性词典和专科性词典虽然都是以学科(或题材)为纲来进行组织编排的,但侧重点不一样。综合性词典收录内容广泛,涉及多个领域,多为各学科最基本、普通的词条,较少顾及那些专业性很强的学科术语。而专科性词典则注重学科的专业性,比较注意

6、收集专业性很强的学科术语。在专科性词典的内部,通俗性的和专业性的专科词典由于其面向的读者群不一样,二者在词条的专业性选择上也存在如上的问题。因此,如何快速自动地获取学科分类的词条,并且区分其学科的专指度(词条的学科专业性强度)成了词典编纂的两个瓶颈问题。2.词语聚类2.1 特征提取方法在文本自动分类中,关键的一个技术是特征提取。特征提取的步骤包括:词语切分,词频统计,加权计算和特征选择(二者通常结合在一起进行) 。权重计算和特征选择有很多计算公式,如信息增益、期望交叉熵、文本证据权、 2 统计量等,其中最著名的是 TFIDF 公式。经过权重计算和特征选择后,就能生成文本类别的核心向量,这些向量

7、中的特征词可以认为是能代表该类文本特征的类别领域词。我们分类词典编撰中需要用到的学科词条可以通过此方法获得。 2.2 TF*IDF 算法经典的权重计算和特征选择的算法是 TF*IDF 算法,后来有很多人对此进行了改进,如 Roberto Basils 提出的 TF*IWF*IWF 公式和国内有人提出的TF*IDF*IG 公式等。陈克利对 TF*IDF 和 TF*IWF*IWFF 公式进行了分析并作了一些改进 3: 公式二:注: = , 是类 含有的所有词的次数之和, 是词 i 在类 出现jipijLTijjCjiTjC的次数; ,m 为类别数; 是出现 的训练文本数,N 是总训jii)(iwN

8、i练文本数;n=1 (通过 n 的取值调节词频()的影响)。基于 TFIDF 的公式本质上反映了单词区分文档内容属性(类别、主题)的能力,一个单词(如虚词“的” 、 “我们” 、 “在” )在整个文档集出现的范围越广(在文档集中散布的越均匀) ,其区分文档属性的能力越低;另一方面,一个单词(如“射门” 、 “教练”)在某些特定的文档集(如“体育”语料)niijjiiji jpNwpipcw22 )(log),(3中出现的频度越高,在其它文档集(如“经济” 、 “军事”,我们称之为背景语料,作对比用的)中出现的频度越低,说明它在区分该文档集的内容属性(“体育”类)方面的能力越强。因此,领域特征词

9、语的提取实际上是通过计算词语在不同领域语料中的分布情况来实现的。根据此原理,我们可以通过计算词语的 TFIDF 值来进行词语的领域(话题)聚类。2.3 特征领域聚类实现我们依照上面的方法流程进行了特征抽取和领域聚类。训练用的分类语料库约 60 万个 XML 文件,6 亿字,时间跨度为三年(02、03、04) ,文件标注了语料的标题、关键词、类别(详细标明到细致的主题,如“经济-证券-债券” ,共 244 个) 、时间、段落等属性。具体领域(只列举了大类)和文件数分布如下:类别 文件数 类别 文件数时政新闻_国际 59130 旅游 18471时政新闻_国内 119695 文艺 14248时政新闻

10、_军事 21743 游戏 22843时政新闻_社会 42559 汽车 21745经济 40115 教育 24405科技 53126 房产 19573体育 96120 生活男女 19382娱乐 23905 总计 597060具体步骤如下:Step1:双向最大切分。切分底表对特征提取至关重要,如果需要提取的特征词不在底表中,则无法提取出该特征词,我们的底表包含三十二万词条,含领域词语二十五万。Step2:统计词次。统计时根据位置加权,加权时文本长度会对加权因子产生影响。对关键词、标题加权时,应该动态加权,即按文章正文词数动态调整加权系数。标题加权底数为 2,关键词加权底数为 3,正文词数按 200

11、 字分级,每增加一级,在原来系数上相应加 1。Step3:权重计算。按照 2、2 节中的公式计算每个词在类中的权重, n(n=1)参数主要用来调节词频的影响,当 n 取值小时,倾向于词频大的词;当 n 取值大时,则词频的影响减弱,倾向于词频小的词。Step4:特征选择。通过设定阈值来确定不同文档类所对应的特征向量 4。3.领域聚类结果分析上文(第 1 节)列举了分类词典编撰中两个关键性的问题,其中第一个问题实际上是个分类问题,即将词语归入到其所属学科类别的问题,这个问题我们已经通过词语聚类解决。对领域词语聚类进行评价的最简单指标是准确率(无法计算召回率) 。我们以经济领域为例,分别取聚类后(n

12、=3)的前1000、2000、3000、4000、5000 个词语,人工进行评测,评测时将与经济相关的专名,如机构名、人名等也作为经济领域的词语。但这种人工评价方法仍然主观性较强。评价结果如下表:4领域 正确词数 抽取到的总词数 准确率962 1000 96.2%1916 2000 95.8%2870 3000 95.6%3814 4000 95.3%经济4737 5000 94.7%从结果可以看出,整体效果较好。随着词语的增加,准确率逐渐下降。第二个问题是个再选择问题,综合性词典多收各学科最基本、普通的词条;专科性词典则收集专业性很强的学科术语。在已经按学科聚好类的词语集中,显然,那些基本的

13、、普通的学科词条是学科领域中词频较高的词条,而专业性强的学科术语则词频较低。上面已经提到可以通过改变 n 的取值来调节词频的影响,当 n 取值小时,倾向于词频大的词,即可获得学科最基本、普通的词条;当 n 取值大时,则词频的影响减弱,倾向于词频小的词,可获得专业性很强的学科术语,因此这个问题也可以得到很好的解决。我们对 n 取 3 值,获得科技领域的词语 1 万条,按权重降序排列(列 3“权重(n=3) ”) ,同时将这 1 万词语按照它们在科技语料中的词频降序排列(列2“权重+词频” ) ,并且将科技语料中的所有词语按词频降序排列(列 1“词频” )。将 3 者进行对比,观察权重计算及 n

14、值对特征提取的影响。下表在科技类中对 3 种待对比的分表中各取前 30 个词,按降序排列。词频 权重+词频 权重(n=3)的 公司 笔记本在 市场 科技了 产品 英特尔和 用户 AMD是 技术 处理器将 企业 IBM公司 微软 微软也 业务 Linux年 服务 笔记本电脑与 美元 硬盘对 网络 3G而 价格 芯片一个 系统 内存中国 软件 惠普为 美国 用户有 全球 CPU市场 厂商 小灵通产品 应用 Windows中 笔记本 Intel等 信息 数据修复用户 品牌 联想我们 销售 芯片组5这 消费者 迅驰但 电脑 数码相机可以 英特尔 主板其 领域 3721个 联想 摩托罗拉已经 芯片 bo

15、bbyshaw从 客户 软件频率这一列中只有“公司” 、 “市场” 、 “产品”和“用户”可以算作科技类的领域词,大量出现的是那些高频常用词。科技词语按词频降序排列时,基本上是科技领域的通用词语,代表了科技领域的质心特征;n=3 时,科技领域中高区别度的词语大量出现,很多基本上都是科技领域中专有的词语。例如,科技词语按词频降序排列时,区别度较低的“市场” (作为科技领域的词语, “市场”在其它领域中也常出现,特别是经济领域)排在第 2 位,区别度高的“笔记本” (在其它领域很少出现)排在第 19 位;当 n 取 3 时, “市场”跌出了前 30位, “笔记本”则升至第 1 位.利用上述方法,我

16、们系统地构建了一个大规模的领域词语的知识库,包含与分类主题对应的领域词语表共 244 个。这些主题词表包括大的类别(如“体育” 、 “科技”等)和细致的主题(如“房产_家居家装_建材” 、 “科技_数码_视频_数码相机” ) 。瓷砖 涂料 强化木地板 釉面砖 大芯板 地板 VOC 木地板 板材 石材抛光砖 地热采暖 复合地板 乳胶漆 实木 强化地板 建材市场 内墙 甲醛 滑动门建材 混油 地砖 锁扣 木工板 耐磨 地面材料 芯板 刨花板 五劣板家装 含水 人造板 坐便器 涂刷 花砖 基材 软木 清油 墙砖壁纸 壁布 装修 地板缝 腻子 清漆 吸水 墙面 地板革 推拉门家庭装修 中密度 TVOC 水曲柳 地面砖 三氧化二铝 古砖 家居 E0 饰面厨柜 板铺 建筑涂料 装饰材料 洁具 磁砖 石膏板 防霉 刷漆 中密度纤维板建材城 色差 摊位制 欧典 面砖 地热 室内装饰 冲孔 抗碱 油漆圣象 木制品 多乐士

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 事务文书

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号