命名实体识别项目报告

资源描述

《命名实体识别项目报告》由会员分享，可在线阅读，更多相关《命名实体识别项目报告（21页珍藏版）》请在金锄头文库上搜索。

1、命名实体识别项目报告张坚修改历史日期版本修改内容 2009-6-180.1建立大纲，完成部分实验数据分析 2009-6-190.2完成实验数据分析部分 2009-6-190.3完成源程序说明 2009-6-190.4完成总结部分 2009-6-190.5局部文字校对与润饰目录 1.项目简介.4 2.特征的选取.4 3.数据的预处理.4 4.序列标注工具的选择.4 5.实验步骤及结果分析.4 实验一.4 实验二.5 实验三.5 实验四.6 实验五.6 实验六.7 分词粒度过大.8 错误分词.8 没有利用机构前后缀特征.9 模棱两可之处.9 长名称的复合机构名.10 实验七.10 实验八.

2、11 实验九.12 实验十.13 实验十一.14 6.总结.15 7.附录.16 项目托管.16 源程序结构说明.16 1.项目简介项目简介本项目旨在练习所学的图模型来解决自然语言处理中的基本问题命名实体识别。 2.特征的选取特征的选取实验中所提取的特征包括：字的特征：这是最基本的特征。分词特征：包含始末位置特征，用“B”表示是分词的开头，用“I”表示分词的中间或结尾；分词自身作为特征，如“中国”；分词的首尾字为特征：如“培训班”中“培”和“班”。词性特征：一种是将整个分词的词性特征赋给附属的每个字，如“中国/ns”转换成“中 /ns”和“国/ns”；另一种是在词性特征中夹带有分词

3、的始末位置特征，如“中国/ns”转换成 “中/B-ns”和“国/I-ns”。命名实体的前后缀特征：将训练集中高频的姓氏如“张”、“王”等，机构名高频后缀字如“系”、“会”等，以及地名高频后缀字如“州”、“路”等分别赋以“PP”、“OS”和 “LS”以指示可能人名前缀、机构名后缀和地名后缀。 3.数据的预处理数据的预处理我们使用了中科院的分词器 ICTCLAS30 为原始数据添加了分词和词性特征列。将训练数据的首 70%（行）作为模型训练用，末 30%（）作为评测用。 4.序列标注工具的选择序列标注工具的选择我们选择了 CRF+ 0.53 版本作为序列标注工具。评测工具我们选择 Co

4、NLL-2000 所用的 conlleval.pl。 5.实验步骤及结果分析实验步骤及结果分析实验一仅考虑前后字的特征，不使用 Bigram。设计的特征模版如下： # Unigram U01:%x-1,0 U02:%x0,0 U03:%x1,0 U04:%x-1,0/%x0,0 U05:%x0,0/%x1,0 测试得到的结果如下： LOC: precision: 57.86%; recall: 69.88%; FB1: 63.31 ORG: precision: 12.61%; recall: 23.54%; FB1: 16.42 PER: precision: 47.56%; recal

5、l: 50.45%; FB1: 48.96 可见效果很差，特别是机构名。实验二在实验一的特征模版之上应用 Bigram： # Bigram B 所得的测试结果如下： LOC: precision: 89.76%; recall: 79.83%; FB1: 84.51 ORG: precision: 80.03%; recall: 68.34%; FB1: 73.73 PER: precision: 91.31%; recall: 71.20%; FB1: 80.01 发现各项指标都得到了巨大的提升，特别是 Precision，因此之后的实验都将应用 Bigram。实验三由于前述实验仅仅

6、利用了前后和自身字的一元特征和二元共现特征，各项指标还不是很好，本次试验增大了前后字特征的窗口大小到 2，特征模版如下： # Unigram U02:%x-2,0 U03:%x-1,0 U04:%x0,0 U05:%x1,0 U06:%x2,0 U08:%x-2,0/%x-1,0 U09:%x-1,0/%x0,0 U10:%x0,0/%x1,0 # Bigram B 实验结果如下： LOC: precision: 91.18%; recall: 81.49%; FB1: 86.06 ORG: precision: 81.79%; recall: 71.11%; FB1: 76.08 PER:

7、 precision: 94.37%; recall: 74.22%; FB1: 83.09 F 值提高了 2 到 3，这说明了大小为 2 的前后字窗口引入了更多有用的特征。实验四继续增大前后字窗口看能够带来更大的提升，特征模版如下： # Unigram U01:%x-3,0 U02:%x-2,0 U03:%x-1,0 U04:%x0,0 U05:%x1,0 U06:%x2,0 U07:%x3,0 U08:%x-2,0/%x-1,0 U09:%x-1,0/%x0,0 U10:%x0,0/%x1,0 U11:%x-1,0/%x1,0 # Bigram B 测试结果如下： LOC: preci

8、sion: 91.37%; recall: 80.18%; FB1: 85.41 ORG: precision: 82.04%; recall: 70.30%; FB1: 75.72 PER: precision: 94.39%; recall: 73.85%; FB1: 82.86 很遗憾，当前后字窗口增大到 3 时，F 值不增反降，这说明了太大的字窗口引入了过多的无用信息，这也给之后的实验给出了窗口上限的提示。实验五为了试验三元共现特征能否改善效果，在前述特征模版上加入了如下三元共现特征： U12:%x-1,0/%x0,0/%x1,0 所得的测试结果如下： LOC: precisio

9、n: 91.37%; recall: 79.62%; FB1: 85.10 ORG: precision: 82.50%; recall: 69.78%; FB1: 75.61 PER: precision: 94.52%; recall: 72.45%; FB1: 82.02 从结果看，此特征的加入只是引入了冗余的信息，反而影响了效果。因此不再试图增加更过的三元共现特征。实验六在之前的实验中，我们已经看到了字特征遭遇了性能瓶颈，需要突破原始数据文件受限的信息框架。我们应用了中科院的分词器 ICTCLAS30 来帮助提供分词和词性特征。新的数据文件格式如下例所示：中国中国 ns

10、 B-LOC 公司公司 n N 在在在 p N 南非南非 ns B-LOC 将原有的字序列组成的句子交于 ICTCLAS30 分词，得到词和词性特征，并将每个分词的首字和末字也作为特征，而对应的命名实体标注则和分词的第一个字一致。在获得了大量新特征后，设计了如下特征模版以检验词和词性特征的作用： # Unigram U00:%x-2,0 U01:%x-1,0 U02:%x0,0 U03:%x1,0 U04:%x2,0 U05:%x-1,0/%x0,0 U06:%x0,0/%x1,0 U10:%x-2,3 U11:%x-1,3 U12:%x0,3 U13:%x1,3 U14:%x

11、2,3 U15:%x-2,3/%x-1,3 U16:%x-1,3/%x0,3 U17:%x0,3/%x1,3 U18:%x1,3/%x2,3 U20:%x-2,3/%x-1,3/%x0,3 U21:%x-1,3/%x0,3/%x1,3 U22:%x0,3/%x1,3/%x2,3 # Bigram B 实验结果如下： LOC: precision: 91.76%; recall: 85.56%; FB1: 88.55 ORG: precision: 82.49%; recall: 64.82%; FB1: 72.59 PER: precision: 89.26%; recall: 91.37%;

12、 FB1: 90.31 在实验之前，我们对这次的实验结果寄予厚望，料想这么多的新特征的加入定会大幅度地提升各项指标，但最后发现只有人名是达到我们预期的，其 F 值超过了 90。最令人费解的是机构名不增反跌。经过分析实验结果文件，我们发现了其中的一些主要原因：分词粒度过大比如： / 这一行是内部数据文件的一行标注结果中国政府 B-LOC B-ORG / 以下是还原后的标注结果中 B-LOC B-ORG 国 I-LOC I-ORG 政 N I-ORG 府 N I-ORG 在原始的数据文件中“中国”是地名，但其和“政府”一起被分到一个词中，而由于分词的标注信息是取第一个字即“中”的标注

13、信息，因此期待的标注结果是“B-LOC”，错把“政府”也认为是地名的一部分了。而标注工具其实对“中国政府”进行了正确的识别，即机构名，从而把“政”和“府”都错标为了“I-ORG”。机构名识别中类似的例子还有“合作部”和“长”别分到了一个词中，从而无法识别机构名“合作部”；“内政部长”、“外交部长”和“国防部长”等都是这样的情况。类似的例子也发生在地名和人名的识别上。比如“中国”和“热”被错分到一个词中，从而无法识别地名“中国”；“圣雄”和“甘地”被错分到一个词中，从而无法识别人名“甘地” 。错误分词比如： / 内部数据文件的一行标注结果以东 N N 大 I-ORG N 软件

14、 I-ORG N 园 I-ORG N / 以下是还原后的标注结果东 B-ORG N 大 I-ORG N 软 I-ORG N 件 I-ORG N 园 I-ORG N 这里“东”应该至少“东大”分到一个词中，但错和“以”分到了一块，这样的结合错误自然得不到正确的命名实体识别。没有利用机构前后缀特征下列未能正确识别的机构名都有明显的机构后缀特征：共和党 B-ORG N 民主党 B-ORG N 共产党 B-ORG N 政治局 B-ORG N 宇航局 B-ORG N 白宫 B-ORG N 议会 B-ORG N 国会 B-ORG N 下列机构名都是带有引号包围的： “ N N 蓝 B-ORG N

15、盔 I-ORG N 部队 I-ORG N ” N N “ N N 世纪 B-ORG N 高大 I-ORG N ” N N “ N N 空中客车 B-ORG N ” N N 如果能强调这些前后缀的特征，应该能够引导标注公告做正确标注。模棱两可之处比如：县 N B-ORG 农技 N I-ORG 推广 N I-ORG 中心 N I-ORG 南斯拉夫联盟 B-LOC B-ORG “县农技推广中心”和“南斯拉夫联盟”应该可以视为一个机构名，但原始数据中并没有这样标注，个人认为标注工具的结论更可取。长名称的复合机构名比如：全国 B-ORG N 农村 I-ORG N 专业 I-ORG N 技

16、术 I-ORG N 协会 I-ORG N 联合国 B-ORG B-ORG 停战 I-ORG N 监督 I-ORG N 机构 I-ORG N 李嘉诚 B-ORG B-PER 基金会 I-ORG N 卢萨卡 B-ORG B-LOC 高级 I-ORG N 法院 I-ORG N 这些实例中要么完全不能识别为命名实体，要么正确识别了复合实体中的简单实体，如 “李嘉诚基金会”中正确识别了人名“李嘉诚”。需要提取更广的上下文作为特征，防止在局部得到最优解。实验七为了削减由于分词的粒度或错误分词带来的负面影响，我们将每个分词的首位字作为特征，以在一定程度上保留原来的字特征。在前一实验的特征模版中追加入以下特征： U30:%x-2,1 U31:%x-1,1 U32:%x0,1 U33:%x1,1 U34:%x2,1 U35:%x-1,1/%x0,1 U36:%x0,1/%x1,1 U40:%x-2,2 U41:%x-1,2 U42:%x0,2 U43:%x1,2 U44:%x2,2 U45:%x-1,2/%x0,2 U46:%x0,2/%x1,2 得到的实验结果如下： LOC: precisio

展开阅读全文

命名实体识别项目报告

最新文档