中文命名实体识别及评测方法

上传人:E**** 文档编号:113631418 上传时间:2019-11-09 格式:PDF 页数:60 大小:2.01MB
返回 下载 相关 举报
中文命名实体识别及评测方法_第1页
第1页 / 共60页
中文命名实体识别及评测方法_第2页
第2页 / 共60页
中文命名实体识别及评测方法_第3页
第3页 / 共60页
中文命名实体识别及评测方法_第4页
第4页 / 共60页
中文命名实体识别及评测方法_第5页
第5页 / 共60页
点击查看更多>>
资源描述

《中文命名实体识别及评测方法》由会员分享,可在线阅读,更多相关《中文命名实体识别及评测方法(60页珍藏版)》请在金锄头文库上搜索。

1、分类号T P 3 9 1 0 二5 “ I s ( n a m e ,易) 一E 2P ( n a m e ,易) ( 3 8 ) 当给定上下文环境时,( 凡,n a m e ,磅) 的数值可定量的描述n a m e 是真实人 名的可能性。 + 3 3 2 2 过滤阈值确定 定义如下评价函数: 厶一( R ,n a m e ,易) p + 恐毋( L ( 只,n a m e ,B O ) ( 3 9 ) 式中:过滤阈值调整因子0 = a 弋P ( n a m e ) ;口为可调参数,以为自然数 ( n 1 ) ,这两个参数分别通过训练得到;P ( n a m e ) 为根据姓氏用字概率和名字

2、用字概率计算得到的人名的概率估值。P ( n a m e ) 计算公式如下所示: P ( n a m e ) :j P ( x ) P ( M I ) ;删P = 删1 ( 3 1 0 ),Il = k J I U , 、7 I P ( x ) C 6 P ( M ) + P ( M :) ;n a m e = 脚M : 式中:G 为单双名的调整系数,取G 为0 8 4 4 乜7 1 ;过滤阈值的确定: = 秒+ 啤涵( E ,n a m e ,B e ) ) ( 3 1 1 ) 其中:I n i n ( 。o 。( 昂,n a m e ,B q ) ) ( P ,q 为自然数,P 1 ,q

3、1 ) 为真实人名的上 下文互信息的最小值,通过测试得到,当潜在人名的概率估值P ( n a m e ) 越大,认 为是真实人名的概率越大,过滤阈值的取值越小;潜在人名的概率估值P ( n a m e ) 越小,认为是真实人名的概率越小,过滤阈值的取值越大。可见,过滤阈值是动 态的,而不是固定值【4 3 l 。 第3 币幕于统计的中丈人名识别 对常数n ,若取n = 1 ,则当口一定时,口随P ( n a m e ) 变化的曲线斜率比较大, 即当P ( n a m e ) 变化较小时,口却发生很大变化,这样会扼杀概率相对较小的潜在 人名。为了平缓函数曲线,n 取大于1 的自然数。实际测试时,对

4、n = 2 ,3 ,4 分别 进行测试,并依据实验结果选定n = 2 。 3 3 3 人名内部互信息 3 3 3 1 人名内部互信息介绍 在自动分词中,人名往往已被切成字或词的碎片。对于中文人名,一般由2 到4 个字组成,在切分时,复姓往往被切分成一个词,因此,最多被切成3 部分, 比如,“姚文志”被切成“姚I 文J 志,“公孙志豪”可能被切成“公孙I 志I 豪”; 当然也有被切成一个词的时候,如“汪洋“ 、“高峰“ 等。设1 , ( n a m e ) 为人名内部 互信息,则: f ,( 甩- ,n z ) + ,( 刀z ,n ,) 2 ;人名被切分成3 部分 L ( n a m e )

5、= ,( 咒- ,以z ) ;人名被切分成2 部分 ( 3 1 2 ) I ,( 咒t ) ; 人名被切分成1 个词 其中I ( n 。,n :) 为人名的第1 部分和第2 部分之间的互信息,定义为: 坳埘。= l 0 9 2 高器 I ( n :,n ,) 为人名第2 部分与第3 部分之间的互信息,定义为: m 柚3 ) = l o g s 斋篙 ( 3 - 1 4 ) 式中:对姓名被切分成一个词的情况,不作处理;P ( n 一) ,P ( n z ) ,P ( n ,) 分 别为n - ,n :,n ,作为普通单词的概率;P ( n 。,n :) ,P ( n :,n ,) 分别为n 与n

6、 :、n :与n , 的同现概率【4 3 】。 3 3 3 2 评价函数与过滤阈值确定 根据中文人名内部互信息偏小这一规律,定义人名内部互信息的评价函数如 下: f i n ( n a m e ) 1 ,+ m i n ( 厶( 甩口聊B ) )( 3 15 ) 式中:N 为所有中文人名的集合;v = p 墨 P ( n a m e ) 为过滤阈值调整因子( p 为可调参数,刀为自然数,满足n 1 ) 。,+ m i n ( 1 ( n a m e , ) ) 为内部互信息的过滤 阈值。m i n ( L , , ( n a m e i ) ) 为文本语料中真实人名的内部互信息的最小值4 3

7、1 ( n a m e 为 一个真实的中文人名) 。 2 l 并依据计算结果取其中值大者。对出现多个潜在人名交叉的情况,通过两两比较 进行消除。 3 4 识别过程描述 ( 1 ) 分词并对词进行标识 对输入的句子S e n t 利用逆向最大匹配的方法进行分词生成S e n t ,对S e n t 根据搜集到的语料库进行词语标识,建立一个与S e n t 具有一一对应关系的标志 :,:j :;j :,、 2 2 第3 章基于统计的中文人名识别 数组F l a g 。根据词在人名识别的作用不同可以标识为以下七种: 对句内任一位置( 0 p t l e n g t h ( S e n t ) - 1

8、 ) : 若S e n t p t 】为孤立字且该字是半封闭字,则标识为0 ; 若S e n t p t 为孤立字且该字是全封闭字,则标识为1 若S e n t p t 为孤立字且该字是指示动词,则标识为2 ; 若S e n t p t 】为不属于以上三种的孤立字,则标识为3 ; 若S e n t p t 】属于某个多字词且是称谓词,则标识为4 : 若S e n t p t 属于某个多字词且是指示动词,则标识为5 ; 若S e n t p t 】为不属于以上两种的多字词,则标识为6 ; 若S e n t p t 】是分隔符( 数字,字母,标点等非汉字) ,则标识为7 ; 其中,孤立字是句子中一

9、个字构成了一个词。半封闭字是指在句子中一般词 语的一部分出现,如“睿智”中的“睿”。全封闭字是指不能与其它的字构成词, 如“骞,逵”。 ( 2 ) 概率初筛选 中文人名以姓氏开始,姓氏在中文人名识别中具有重要意义。以姓氏作为驱 动,对句子S e n t 进行姓氏( 单姓和复姓) 扫描,寻找每一个可能的人名,称其 为潜在人名。设姓氏后面的一连续汉字串S t r ( 连续汉字串不受分词影响) 满足 其中之一: C I C 2 :C l X S T , C 2 M Y l “ 且C l 是单姓,称为单姓单名: C l C 2 C 3C l X S T , C 2 、C 3 M Y T 且C 1 是单

10、姓,称为单姓双名; C l C 2 C 3C l C 2 X S T ,C 3 M Y T 且c 1 C 2 是复姓,称为复姓单名: C I C 2 C 3 C 4C l C 2 X S T , C 3 、C 4 M Y T 且C 1 C 2 是复姓,称为复姓双 名; 则称S t r 为一个潜在人名。对每一个句子建立潜在人名表用盯。计算每个潜 在人名概率,计算公式如下所示: 姓氏为单姓的情形: P ( C I C 2 ) = l g ( P ( C O P ( C 2 ) )( 3 2 0 ) P ( C I C 2 C 3 ) = l g ( P ( C 1 ) P ( C 2 ) P (

11、C 3 ) )( 3 21 ) 其中,尸( C - ) 为C t 作为姓氏的概率,在式( 3 2 0 ) 中P ( C 2 ) 为C 2 作为第二个人 名用字的概率,在式( 3 2 1 ) 中P ( C 2 ) 、P ( C 3 ) 分别是C z 作为第一个人名用字的概 率和C 3 作为第二个人名用字的概率 姓氏为复姓的情形: P ( C z C 2 C O = l g ( P ( C I C O P ( C 3 ) )( 3 2 2 ) P ( C I C 2 C 3 C 4 ) = l g ( P ( C l C 2 ) P ( C 3 ) P ( C 4 ) ) ( 3 2 3 ) 北京

12、T 业大学T 学硕十学位论文 其中,P ( C I C s ) 为复姓C I C 2 作为姓氏的概率,在式( 3 2 2 ) q bP ( C 3 ) 为C 3 作为 第二个人名用字的概率,在式( 3 2 3 ) d PP ( C a ) 、分别是C z 作为第一个人名用字的 概率和C ,作为第二个人名用字的概率。 人名概率在人名识别中发挥着巨大的作用,可以通过设置阈值对人名进行过 滤识别,根据人名用字在句子中不同的标识给予不同的阈值。设如M 为一单名 ( 即人名用字为一个字) ,其中,X 为姓氏( 包括单姓和复姓) ,M 1 人名用字。 设, 硷I 1 M 2 为一双名( 即人名用字为两个字

13、) ,其中,x 为姓氏( 包括单姓和复 姓) ,M 1 第一个人名用字,M s 第两个人名用字。若X ,M 1 ,M s 全部为单字 词,且P ( 如M 1 ) 口l 或P ( J J a v l I M 2 ) 口2 ,则认为删l 或X M , M 2 为一潜在人名将 其放入潜在人名表中。若X ,M 1 ,M s 部分为单字词或整体为词,且P ( X M l ) 或P ( X M I M s ) S s ,则认为X M I 或删l M 2 为一潜在人名将其放入潜在人名表 中。经过实验,取: 口l = - 1 0 1 0 8 a 2 = - 1 4 1 7 9 3 l = 一1 1 8 5 1

14、 2 = 一1 7 0 3 2 0 第一次初筛选的结果是,设定阈值尽量使每个可能成为中文人名的汉字序列 ( 如:李明,黎明,马胜利,严肃,安然等) 放到潜在人名表尸丁里,过滤掉 完全不可能或者可能性非常小的汉字序列( 如:记者,宣传,肖像权,国科学等) 。 针对不同的情况设定不同的概率阈值,可以起到显著的过滤效果。 ( 3 ) 同源对表n T 和互斥对表H C T 的建立 同源对:在句子中,以同一位置的姓氏为起点的单名和双名,且单名和双名 的概率均大于相应的概率阈值。例如:“新任冶金部副部长吴建德出席了通报会”, 其中,吴建,吴建德为一同源对。在一般情况下,同源对同时作为人名而成立的 概率很小

15、,几乎为0 。 同源对表:由句子内所有的同源对组成的集合。 互斥对:在旬内,以不同位置为姓氏始点,相互间有部分交叉的两个人名且 其概率均大于相应的概率阈值。例如:“陕西榆林个体工商户刘金利1 0 年来累计 投资2 0 0 多万元开发沙漠”,其中,刘金利,金利为一互斥对。在一般情况下, 同源对同时作为人名而成立的概率很小,几乎为0 。 互斥对表:由句子内所有的互斥对组成。 于是,对每个输入句子。在潜在人名表聊旧的基础上,将产生一个同源对 表册和一互斥对表H C T 。肿及H C T 体现了句子中潜在人名之间的相互制约 关系。针对同源对表和互斥对表,我们有如下操作: C I C 2 和C I C

16、2 C 3 为同源对或互斥对,若确定C I C 2 ( C I C s C 3 ) 是一人名,则: ,:1 0 :o + :i :+ o :矗:,j ,i I ! i 0 。曩j 一 2 4 第3 章幂于统汁的中文人名识别 清除潜在人名表P N T 中的C l C 2 C a ( C I C 2 ) ; 清除同源对表册中的同源对( C I C 2 ,C I C 2 C 3 ) ; 清除互斥对表H C T 中的互斥对( C I C 2 ,C I C 2 C 3 ) ; 清除同源对表和互斥对表中所有包含C I C 2 的人名; 标记C I C 2 ( C I C 2 C a ) 为正确人名; 若否定C I C 2 ( C I C 2 C 3 ) 是人名,则: 清除同源对

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号