基于条件随机场的农业命名实体识别

资源描述

《基于条件随机场的农业命名实体识别》由会员分享，可在线阅读，更多相关《基于条件随机场的农业命名实体识别（9页珍藏版）》请在金锄头文库上搜索。

1、基于条件随机场的农业命名实体识别张剑吴青羊昕旖王彬聪吴宣为徐向英吕强扬州大学信息工程学院摘要：为满足农业命名实体领域中多样而精确的需求, 本文采用基于条件随机场的命名实体识别, 将农业命名实体分为病虫害、作物、化肥及农药 4 种命名实体, 并用自定义标注集对其进行标注, 以 ICTCLAS 分词系统来对收集到的语料进行分词, 通过添加多种不同的特征以提高识别率。最终训练得到的模型对各命名实体识别的准确率达到了 93%以上, 召回率达到了 84%以上, 证明对农业命名实体细致划分为多个实体是可行的。关键词：中文命名实体识别; 条件随机场; 农业; 作者简介：张剑 (199

2、6-) , 男, 江苏苏州人, 扬州大学信息工程学院本科生, 研究方向:自然语言处理;作者简介：吴青 (1996-) , 男, 江苏无锡人, 本科生, 研究方向:自然语言处理;作者简介：羊昕旖 (1996-) , 女, 本科生, 研究方向:自然语言处理;作者简介：王彬聪 (1996-) , 女, 本科生, 研究方向:自然语言处理;作者简介：吴宣为 (1977-) , 男, 讲师, 硕士, 研究方向:自然语言处理;作者简介：徐向英 (1979-) , 讲师, 硕士, 研究方向:农业信息化;作者简介：吕强 (1985-) , 讲师, 博士, 研究方向:人工智能, 机器学习, 自动规划与调度。收稿日

3、期：2017-05-04基金：国家自然科学基金青年基金资助项目 (61502412) Chinese Agricultural Named Entity Recognition Based on Conditional Random FieldsZHANG Jian WU Qing YANG Xin-yi WANG Bin-cong WU Xuan-wei XU Xiang-ying LYU Qiang College of Information Engineering, Yangzhou University; Abstract： To meet the requirement of di

4、versification, the paper introduces named entities model based on conditional random fields, divides agricultural named entities into 4 classes, which are diseases and pests, crops, chemical fertilizer, pesticide and annotates. These entities are labeled with custom annotation set. It is segmented c

5、ollected corpus with ICTCLAS segment system and added features to raise the recognition rate. Ultimately, the accuracy rate reaches over 93% and the recalling rate reaches over 84%. This result confirms that recognizing multiple entities after classifying them is feasible.Keyword： Chinese named enti

6、ty recognition; conditional random field; agriculture; Received： 2017-05-040 引言随着目前计算机的普及和互联网的迅猛发展, 各领域的专业文献呈指数增长, 面对如此海量的非结构化文本数据, 如何快速、准确地获取所需信息已成为目前研究者关注的热点问题。命名实体识别是自然语言分析、信息提取1、句法分析、机器翻译2、问答系统3等领域重要的研究基础。其目的是发现文本语料中的 3 大类 (实体类、时间类和数字类) 和 7 小类 (人名、地名、机构名、时间、日期、货币和百分比) 命名实体4。国外对于命名实体识别的研究较早, 在 19

7、91 年 Rua5在第 7 届 IEEE 人工智能应用会议上首次描述了抽取和识别公司名称的系统。之后, 对命名实体识别的研究逐渐火热起来, Bikel 等人提出了基于隐马尔可夫模型的英文命名实体识别, 并在 MUC-66的测试中对英文地名、机构名以及人名识别的 F 值达到了 95%以上7。Lafferty8等人之后又提出了条件随机场 (CRF) 模型, 在命名实体识别领域同样取得很好的成绩。中文命名实体识别起步较晚, 且由于中文的特殊性, 在进行文本处理时首先必须进行词法分析, 这导致了中文命名实体识别要比英文命名实体识别难度更大。通过 10 多年研究, 中文命名实体识别在开放领域已取得较好的

8、成果, 如张华平9等人的 ICTCLAS 分词系统 F 值可达 95.40%。在命名实体识别领域, 有多个模型可供选择, 如最大熵模型10、隐马尔可夫模型11、条件随机场模型等。其中基于条件随机场模型的命名实体识别被广泛用于各个领域, 如郭剑毅12等人的基于层叠条件随机场的旅游领域的命名实体识别, 叶枫13等人基于条件随机场的电子病历命名实体识别。在农业领域, 命名实体的抽取有其领域的特点和需求, 这些特点为海量农业文本中的信息抽取提供了可能, 同时也提出了挑战。农业命名实体的识别能够为进一步实现大数据环境下的异构数据融合以及语义网14的实现提供领域基础, 而在命名实体识别模型的训练过程中所需

9、的语料也可为知识库或本体库的构建提供支持。目前在中文农业命名实体识别领域, 王春雨15等人采用条件随机场模型对农业命名实体进行了识别, 但其仅将所有有关农业的命名实体识别出来, 而没有对识别出的实体进行更加细致的划分。对于一篇文章中的实体, 识别出农业实体只是信息处理任务的基础, 之后还需要对其进行人工的筛选及分类, 从而达到对特定的类别进行特定的处理方法的目的。而若能进行进一步的类别划分, 那么就可减少人工成本, 对于已经分类出的实体只需少量的人工纠错, 从而提高信息处理效率。因此本文将针对农业相关的病虫害、作物、农药和化肥这 4类命名实体进行识别, 即直接从语料中识别出这 4 类不同的农业

10、命名实体, 以满足各类不同的需求。1 条件随机场模型概述条件随机场模型是由 Lafferty 等人于 2001 年提出的, 结合了最大熵模型和隐马尔可夫模型特点的一种判别式概率无向图模型, 它是一种用来标记和切分有序数据的条件概率模型。它解决了隐马尔可夫模型的输出独立性假设问题, 也解决了最大熵模型在每一个节点归一化导致只能找到局部最优解和标记偏见问题, 因此是比较好的命名实体识别模型。由于它可以根据给定的观察序列来推测出对应的状态序列, 因此可以被用来为命名实体序列添加标记, 从而达到识别命名实体的目的。设 X 与 Y 是随机变量, P (Y|X) 是在给定 X 的条件下 Y 的条件概率分布

11、。若随机变量 Y 构成一个由无向图 G= (V, E) 表示的马尔科夫随机场, 如果公式 (1) :图 1 链式条件随机场结构下载原图对任意节点 v 成立, 则称条件分布 P (Y|X) 为条件随机场, 式中 uv 表示 u 和v 是无向图 G 中的相邻的 2 条边, 则 P (X, Y) 就构成一个条件随机场。其中, 最常用的是链式条件随机场, 其结构如图 1 所示。若表示被观察序列, 表示状态序列, 在给定随机变量序列 X 的条件下, 公式 (2) 为其状态序列条件概率:其中, Z 是归一化因子, 如公式 (3) 所示:2 基于 CRF 的农业命名实体识别本项目采用 ICTCLAS 工

12、具进行语料分词, 用 CRF+工具进行模型的训练和测试。2.1 语料库的构建2.1.1 语料获取语料主要来自于各大农业网站:中国农业医院 (http:/www.nyyy.cc/) 、中国农业信息网 (http:/ 、上海农业技术网 (http:/ 、中国园林网 (http:/ 、中国农资网 (http:/ 等, 主要内容包括农业病虫害、农药、作物、化肥等信息。通过爬虫爬取各网站上的农业文本信息, 最终一共收集到 114002 句语料, 病虫害词典共 6656 个词, 化肥词典共 1065 个词, 农药词典共 2735 个词, 作物词典共 652 个词。2.1.2 数据预处理对于如此多的语料,

13、完全用人工来标注是不可能的, 因此本文爬取了大量的病虫害、农药、化肥、作物等词语作为用户词典并标注特定词性, 导入 ICT-CLAS, 进行分词, 得到初步处理后的数据。经过对 ICTCLAS 的测试, 笔者采用 6000 个标注好的命名实体, 其中 5000 个词作为用户词典导入, 将 6000 个词作为测试, 用于测试 ICTCLAS 的分词和新词发现功能, 可以发现, ICTCLAS 能够识别所有已经导入的词语, 但是对于没有标注过的词却不能识别, 而对于它的新词发现功能, 在剩下的未导入的 1000 个词中, 只能发现 31 个新词, 因此需要对ICTCLAS 分词后的数据进行人工处理

14、, 以标注那些 ICTCLAS 未标注的词或者修正其标注错误的词。之后将所有实体用特殊符号来标记, 并用n来表示该实体属于哪一个类别以便于在重新分词时为这些命名实体标注标签。通过对这些语料用未导入用户词库的 ICTCLAS 重新分词, 删除添加的特殊符号以及添加特征, 获得可以用于 CRF 训练与测试的语料。2.1.3 语料标注语料标注, 通用的标注集有很多, 比如B, I, O标注集, B 表示命名实体开始, I 表示命名实体的延续, O 表示其他非命名实体的字;或者B, E, M, S, B 表示命名实体的开始, E 表示命名实体的结束, M 表示命名实体的中间部分, S 表示其他命名实体

15、。这里采用通用的B, I, O来标注分词后的语料。但是, 由于需要将所需的命名实体一起识别出来, 导致有多种不同的命名实体需要识别, 因此对该通用的标注集进行更细一步的划分。笔者一共要识别出 4 种不同的命名实体, 分别为病虫害、化肥、农药、作物这 4 种命名实体, 因此对每个命名实体都定义新的标注, 最终整个标注集为bb, bi, hb, hi, zb, zi, nb, ni, o。b 开头表示病虫害实体, h 开头表示化肥实体, n 开头表示农药实体, z 开头表示作物实体, o 表示其他实体。2.2 特征集与特征模板2.2.1 特征集表 1 语料标注示例下载原表对于命名实体, 最常见

16、的特征是每个实体的词特征和其词性特征, 这 2 个是最重要的特征。由于需要识别 4 种命名实体, 因此为每个命名实体添加了一种特征, 比如:对于病虫害特征, 该实体最明显的特征就是结尾会出现类似病、虫、害、症等具有明显病虫害特征的字, 因此把具有该特征的词标记为 ed, 没有该特征的词标注为 ned, 类似的对于化肥和农药的实体内部会有大量的化学元素, 因此将所有含有化学元素的字词标记为 ch, 没有的标记为 nch, 此外, 很多的农药存在以灵、克、粉剂、乳油等词结尾的情况, 因此这也可以作为一个重要的特征。对于化肥具有结尾词肥, 作物常见的结尾是树、花、菜瓜等词, 分别标注为 he, nhe 和 ze, nze。因此总共有 7 种特征来共同识别一个字或词。

展开阅读全文