基于深度学习的中文地名识别研究

上传人:小** 文档编号:34096742 上传时间:2018-02-20 格式:DOC 页数:9 大小:134.50KB
返回 下载 相关 举报
基于深度学习的中文地名识别研究_第1页
第1页 / 共9页
基于深度学习的中文地名识别研究_第2页
第2页 / 共9页
基于深度学习的中文地名识别研究_第3页
第3页 / 共9页
基于深度学习的中文地名识别研究_第4页
第4页 / 共9页
基于深度学习的中文地名识别研究_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《基于深度学习的中文地名识别研究》由会员分享,可在线阅读,更多相关《基于深度学习的中文地名识别研究(9页珍藏版)》请在金锄头文库上搜索。

1、基于深度学习的中文地名识别研究 沈思 朱丹浩 南京理工大学经济管理学院 计算机软件新技术国家重点实验室(南京大学) 摘 要: 基于深度学习的循环神经网络方法, 面向中文字和词的特点, 重新定义了地名标注的输入和输出, 提出了汉字级别的循环网络标注模型.以词级别的循环神经网络方法为基准, 本文提出的字级别模型在中文地名识别的准确率、召回率和F 值均有明显提高, 其中 F 值提高了 2.88%.在包含罕见词时提高更为明显, F值提高了 26.41%.关键词: 地名识别; 循环神经网络; 深度学习; 作者简介:沈思 (1983) , 女, 博士, 讲师, E-mail:.收稿日期:2016-12-1

2、5基金:国家自然科学基金资助项目 (71503124, 71303120) Chinese Place Name Recognition Based on Deep LearningSHEN Si ZHU Dan-hao School of Economics and Management, Nanjing University of Science and Technology; State Key Laboratory for Novel Software Technology, Nanjing University; Abstract: Based on recurrent neural

3、 network and the nature of Chinese word and character, the input and output of place name recognition task were redefined and a label model of recurrent network was proposed for Chinese character level based on deep learning method.Compared with recurrent network based on word level, the model propo

4、sed based on Chinese character level in this paper, achieves significant improvement on precision, recalling and Fvalue, the Fvalue gets an improvement of 2.88%.When place names contain rare words, the model can improve the F value more to 26.41%.Keyword: place name recognition; recurrent neural net

5、work; deep learning; Received: 2016-12-15在英文中, 地名往往都大写或者以大写字母开头.但汉字中并没有大小写, 算法只能根据上下文和内部的构词法来识别地名, 难度自然要高得多.地名的识别对于信息抽取、自动句法分析、语义标注等自然语言处理的下游任务具有重要的意义.目前, 中文地名识别的主流方法是统计方法, 研究者针对不同的语料, 根据经验和专家知识, 设计复杂的特征模板来提取特征, 最后将其输入到一个强大的分类模型中, 将地名识别转化为一个序列化标注问题.常用的分类模型包括支持向量机1、隐马尔科夫模型2、最大熵模型3和条件随机场等4.相较于之前的基于特征模

6、板的统计模型, 深度学习方法不再需要人工编写特征模板, 方法简单易泛化.在序列化标注领域, 基于深度学习策略的循环网络模型在英文的词性标注、汉语分词、组块分析、命名实体识别和语义角色标注等任务上取得了最好的成绩5-7.循环神经网络结合之前序列形成的记忆和当前的输入, 来决定当前的输出, 可以有效的保留长距离信息.循环神经网络中, 主要的输入不再是之前的单热点表示 (one-hot representation) , 而是分布式表示 (distribute representation) , 也就是通常所说的词向量.词向量的质量对最终的标注结果影响很大.常见词会在训练语料中多次出现, 因此有足够

7、的上下文信息, 可供算法学习出良好的词向量表示.但对于罕见词和未登录词, 上下文信息过于稀疏, 难以学习出有效的词向量.这一点在中文地名识别时尤为严重, 相当部分的地名都是罕见词和未登录词, 例如“扎赉特旗”、“耿马傣族佤族自治县”等, 这给基于词向量的循环神经网络模型带来了很大困扰.但如果从字层面来考虑, 问题就简单得多:以“旗”和“县”结尾, 其他字之间没有明显的相关性的词很有可能是地名.地名识别的主要策略主要围绕着基于规则、基于统计或者二者结合的策略展开, 随着时间的发展, 逐渐向统计方法倾斜.比较有代表性的方法有:黄德根等8通过计算地名的构词可信度和接续可信度从而针对有特征词的中文地名

8、进行识别.李丽双等9分别尝试了支持向量机、条件随机场以及与规则结合的地名识别方式.在对地名分布进行统计的基础上, 钱小飞和侯敏10通过匹配、碎片分析和组合扩展的相结合的策略完成了对基本地名的识别.唐旭日等11提出了以篇章为单位的中文地名识别方法, 综合利用地名短距离和长距离依存关系以有效提高地名识别效果.朱锁玲和包平12以地方志资料汇编方志物产 (广东分卷) 为语料, 采用规则与统计相结合的命名实体识别方法, 实现了物产地名的自动识别.杜萍和刘勇13借助文本工程通用框架 GATE, 引入构建的地名本体, 识别文本中中国县及县以上行政区划地名.基于双层条件随机场模型, 孙虹和陈俊杰14利用地名的

9、单字、词性和左右特征词完成了对地名的自动识别, 召回率达到了 94.12%.基于统计和规则的传统方法在地名识别上取得了较好的效果, 但过分依赖于专家知识和特定语料, 难于泛化和实现.循环神经网络的相关方法可以弥补这些缺陷.循环神经网络在一些英文的序列化任务上取得了很好的效果.Huang 在参考文献6中使用双向 LSTM (long short-term memory) 进行序列化标注, 并在输出层使用 CRF (conditional random field) 进行解码, 他们在多个数据集上对词性标记、组块分析和命名实体识别任务进行了验证, 发现在加入人工规则和预训练词向量后, 该方法达到了

10、最好性能.Ma 和 Hovy15使用双向 LSTM-CNNS-CRF 模型实现了端对端的序列化标注, 他们使用卷积神经网络 (convolutional neural networks, CNNS) 对每一个词学习出字级别向量, 然后将字级别向量和词向量拼接成一个加强向量, 输入到双向 LSTM 模型中, 最后使用 CRF 进行解码.他们在英文词性标注和命名实体两个任务上验证了他们的方法.虽然在英文上已经有研究者开始探索在循环神经网络中增加字信息来进行建模, 但中文上尚缺乏类似研究.英文和中文在字和词上有着较大的差异, 本文针对中文词的特点, 设计了新的算法来使用汉字信息.基于以上讨论, 面向

11、中文字和词的特点, 基于深度学习的循环网络模型, 本文提出了一种字层面的中文地名识别方法.重新定义了模型的输入和输出, 输入为汉字和分词符, 输出为一套新的地名序列化标志.该模型的优点是实现简单、易于泛化, 相较于基准的词层面的循环网络方法, 在标注能力上有显著提高, 在罕见词和未登陆词上的提升尤为突出.1 模型和方法1.1 循环神经网络和长短期记忆模型循环神经网络 (recurrent neural network, RNN) 在近几年在机器翻译、词性标注和命名实体识别等端对端的序列化标注任务上表现优异.在循环神经网络中, 在时间 t 时刻输入一个向量 xtR n, 结合前一步的隐藏层向量

12、ht-1R m, 生成了当前的隐藏层状态向量, 如式 (1) 所示.式中:WR mn;UR mm;bR m为模型中的系数矩阵;f 为激活函数.最后, 可以在隐藏状态层上加上一层 softmax 层来进行分类任务, 因此, 可以理解成 RNN 的输入是 x, 输出是 h.从理论上来讲 RNN 可以保留住长距离记忆, 但在实践中, 由于梯度消失和梯度爆炸现象, 原始的 RNN 模型难以做到这一点16.Hochreiter 和 Schmidhuber17对原始的 RNN 进行了改进, 提出了长短期记忆模型 (LSTM) , 通过在 RNN 中增加了记忆模块和一些控制阀解决了长距离记忆问题.一个标准的

13、 LSTM 模块如式 (2) (6) 所示.在 t 步, 通过前一步的记忆模块 ct-1, 前一步的隐藏状态和当前输入 xt来计算当前步的隐藏状态 ht和当前记忆 ct. () 和 tanh () 分别是 sigmoid 和正切函数.i t, ft, ot, gt分别利用前一状态和当前输入作为控制阀来控制模型的输入输出, 以及记忆的转移和保存.由于记忆模块的转移使用了加法运算符, 在进行反向梯度计算时解决了矩阵乘法带来的梯度消失和梯度爆炸现象.在LSTM 网络中, 如果将多个隐藏状态层叠加, 低层的输出作为高层的输入, 这就形成的深层长短期记忆模型 (deep LSTM) .简单的 LSTM

14、网络是从左向右依次计算的, 如果在计算隐藏状态时同时从右向左进行, 则称为双向长短期记忆模型 (bi-directional LSTM) .1.2 词级别的中文地名标注模型使用双向深层 LSTM 对中文地名进行标注的示例见图 1.最下面一层是输入层, 依次输入词语, 在 LSTM 层进行计算后, 输出到标记层, 标记层的标记和输入层的词语是一一对应的.这里使用了 3 标记集:B-LOC, I-LOC, S, S 表示该词不属于地名.B-LOC 表示地名的第一个词, I-LOC 表示地名的剩余词.该模型也是本文使用的基准模型, Huang 在参考文献6中使用类似的网络在英文的词性标注、组块分析和

15、命名实体识别任务上取得或接近了最好成绩.图 1 基于词的地名标注模型示例 Fig.1 Example of place name recognition based on word 下载原图LSTM 在 t 时刻的输入是向量 xtR n, 因此要将输入的词 vtV 转换为向量, 被称为词向量.设一个 kn 维稠密向量矩阵 L, k 为 V 的词的数量, 则 L 中的每一列一一对应于 V 中的词.将输入词 vt转换为向量 xt, 只需要根据 xt在 V 中的序号到 L 中查找即可.还需要根据隐藏状态 ht计算当前的标记 stS 的概率.这里使用了简单的 softmax 函数来进行, 如式 (7)

16、 所示.f (k) 将状态 ht线性变换为实数, f (k) =w kht+bk, 其中 wk为 n 维系数向量, bk为 bias 项.本文使用交叉熵来计算损失函数, 时刻 t 的损失函数为(如果第 t 步的真实标记为 k, 否则等于 0) (8) 总的损失函数为每一步的损失之和, 如式 (9) 所示为模型需要学习的参数包括 LSTM 本身的参数, 词向量矩阵 L, 计算标记概率时的参数 wk, bk, k 对应于每一个标记.1.3 基于汉字的地名标注模型图 2 给出了基于汉字的地名标注示例.在输入层, 输入的不再是词, 而是一个个的汉字和分词符号GO.GO表示其下一个输入字符和前一个输入字符不属于同一个词.在输出层, 每一个输入对应一个输出标记, 标记集为 7 元集合B-B, B-I, I-B, I-I, B-LOC, I-LOC, S.对应的解释见表 1.图 2 基于汉字的地

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号