中文命名实体识别及评测方法

资源描述

《中文命名实体识别及评测方法》由会员分享，可在线阅读，更多相关《中文命名实体识别及评测方法（60页珍藏版）》请在金锄头文库上搜索。

1、分类号T P 3 9 1 0 二5 “ I s ( n a m e ，易) 一E 2P ( n a m e ，易) ( 3 8 ) 当给定上下文环境时，( 凡，n a m e ，磅) 的数值可定量的描述n a m e 是真实人名的可能性。 + 3 3 2 2 过滤阈值确定定义如下评价函数：厶一( R ，n a m e ，易) p + 恐毋( L ( 只，n a m e ，B O ) ( 3 9 ) 式中：过滤阈值调整因子0 = a 弋P ( n a m e ) ；口为可调参数，以为自然数 ( n 1 ) ，这两个参数分别通过训练得到；P ( n a m e ) 为根据姓氏用字概率和名字

2、用字概率计算得到的人名的概率估值。P ( n a m e ) 计算公式如下所示： P ( n a m e ) ：j P ( x ) P ( M I ) ；删P = 删1 ( 3 1 0 )，Il = k J I U ，、7 I P ( x ) C 6 P ( M ) + P ( M ：) ；n a m e = 脚M ：式中：G 为单双名的调整系数，取G 为0 8 4 4 乜7 1 ；过滤阈值的确定： = 秒+ 啤涵( E ，n a m e ，B e ) ) ( 3 1 1 ) 其中：I n i n ( 。o 。( 昂，n a m e ，B q ) ) ( P ，q 为自然数，P 1 ，q

3、1 ) 为真实人名的上下文互信息的最小值，通过测试得到，当潜在人名的概率估值P ( n a m e ) 越大，认为是真实人名的概率越大，过滤阈值的取值越小；潜在人名的概率估值P ( n a m e ) 越小，认为是真实人名的概率越小，过滤阈值的取值越大。可见，过滤阈值是动态的，而不是固定值【4 3 l 。第3 币幕于统计的中丈人名识别对常数n ，若取n = 1 ，则当口一定时，口随P ( n a m e ) 变化的曲线斜率比较大，即当P ( n a m e ) 变化较小时，口却发生很大变化，这样会扼杀概率相对较小的潜在人名。为了平缓函数曲线，n 取大于1 的自然数。实际测试时，对

4、n = 2 ，3 ，4 分别进行测试，并依据实验结果选定n = 2 。 3 3 3 人名内部互信息 3 3 3 1 人名内部互信息介绍在自动分词中，人名往往已被切成字或词的碎片。对于中文人名，一般由2 到4 个字组成，在切分时，复姓往往被切分成一个词，因此，最多被切成3 部分，比如，“姚文志”被切成“姚I 文J 志，“公孙志豪”可能被切成“公孙I 志I 豪”；当然也有被切成一个词的时候，如“汪洋“ 、“高峰“ 等。设1 , ( n a m e ) 为人名内部互信息，则： f ，( 甩- ，n z ) + ，( 刀z ，n ，) 2 ；人名被切分成3 部分 L ( n a m e )

5、= ，( 咒- ，以z ) ；人名被切分成2 部分 ( 3 1 2 ) I ，( 咒t ) ；人名被切分成1 个词其中I ( n 。，n ：) 为人名的第1 部分和第2 部分之间的互信息，定义为：坳埘。= l 0 9 2 高器 I ( n ：，n ，) 为人名第2 部分与第3 部分之间的互信息，定义为： m 柚3 ) = l o g s 斋篙 ( 3 - 1 4 ) 式中：对姓名被切分成一个词的情况，不作处理；P ( n 一) ，P ( n z ) ，P ( n ，) 分别为n - ，n ：，n ，作为普通单词的概率；P ( n 。，n ：) ，P ( n ：，n ，) 分别为n 与n

6、：、n ：与n ，的同现概率【4 3 】。 3 3 3 2 评价函数与过滤阈值确定根据中文人名内部互信息偏小这一规律，定义人名内部互信息的评价函数如下： f i n ( n a m e ) 1 ，+ m i n ( 厶( 甩口聊B ) )( 3 15 ) 式中：N 为所有中文人名的集合；v = p 墨 P ( n a m e ) 为过滤阈值调整因子( p 为可调参数，刀为自然数，满足n 1 ) 。，+ m i n ( 1 ( n a m e , ) ) 为内部互信息的过滤阈值。m i n ( L , , ( n a m e i ) ) 为文本语料中真实人名的内部互信息的最小值4 3

7、1 ( n a m e 为一个真实的中文人名) 。 2 l 并依据计算结果取其中值大者。对出现多个潜在人名交叉的情况，通过两两比较进行消除。 3 4 识别过程描述 ( 1 ) 分词并对词进行标识对输入的句子S e n t 利用逆向最大匹配的方法进行分词生成S e n t ，对S e n t 根据搜集到的语料库进行词语标识，建立一个与S e n t 具有一一对应关系的标志：，：j ：；j ：，、 2 2 第3 章基于统计的中文人名识别数组F l a g 。根据词在人名识别的作用不同可以标识为以下七种：对句内任一位置( 0 p t l e n g t h ( S e n t ) - 1

8、 ) ：若S e n t p t 】为孤立字且该字是半封闭字，则标识为0 ；若S e n t p t 为孤立字且该字是全封闭字，则标识为1 若S e n t p t 为孤立字且该字是指示动词，则标识为2 ；若S e n t p t 】为不属于以上三种的孤立字，则标识为3 ；若S e n t p t 】属于某个多字词且是称谓词，则标识为4 ：若S e n t p t 属于某个多字词且是指示动词，则标识为5 ；若S e n t p t 】为不属于以上两种的多字词，则标识为6 ；若S e n t p t 】是分隔符( 数字，字母，标点等非汉字) ，则标识为7 ；其中，孤立字是句子中一

9、个字构成了一个词。半封闭字是指在句子中一般词语的一部分出现，如“睿智”中的“睿”。全封闭字是指不能与其它的字构成词，如“骞，逵”。 ( 2 ) 概率初筛选中文人名以姓氏开始，姓氏在中文人名识别中具有重要意义。以姓氏作为驱动，对句子S e n t 进行姓氏( 单姓和复姓) 扫描，寻找每一个可能的人名，称其为潜在人名。设姓氏后面的一连续汉字串S t r ( 连续汉字串不受分词影响) 满足其中之一： C I C 2 ：C l X S T , C 2 M Y l “ 且C l 是单姓，称为单姓单名： C l C 2 C 3C l X S T , C 2 、C 3 M Y T 且C 1 是单

10、姓，称为单姓双名； C l C 2 C 3C l C 2 X S T ，C 3 M Y T 且c 1 C 2 是复姓，称为复姓单名： C I C 2 C 3 C 4C l C 2 X S T , C 3 、C 4 M Y T 且C 1 C 2 是复姓，称为复姓双名；则称S t r 为一个潜在人名。对每一个句子建立潜在人名表用盯。计算每个潜在人名概率，计算公式如下所示：姓氏为单姓的情形： P ( C I C 2 ) = l g ( P ( C O P ( C 2 ) )( 3 2 0 ) P ( C I C 2 C 3 ) = l g ( P ( C 1 ) P ( C 2 ) P (

11、C 3 ) )( 3 21 ) 其中，尸( C - ) 为C t 作为姓氏的概率，在式( 3 2 0 ) 中P ( C 2 ) 为C 2 作为第二个人名用字的概率，在式( 3 2 1 ) 中P ( C 2 ) 、P ( C 3 ) 分别是C z 作为第一个人名用字的概率和C 3 作为第二个人名用字的概率姓氏为复姓的情形： P ( C z C 2 C O = l g ( P ( C I C O P ( C 3 ) )( 3 2 2 ) P ( C I C 2 C 3 C 4 ) = l g ( P ( C l C 2 ) P ( C 3 ) P ( C 4 ) ) ( 3 2 3 ) 北京

12、T 业大学T 学硕十学位论文其中，P ( C I C s ) 为复姓C I C 2 作为姓氏的概率，在式( 3 2 2 ) q bP ( C 3 ) 为C 3 作为第二个人名用字的概率，在式( 3 2 3 ) d PP ( C a ) 、分别是C z 作为第一个人名用字的概率和C ，作为第二个人名用字的概率。人名概率在人名识别中发挥着巨大的作用，可以通过设置阈值对人名进行过滤识别，根据人名用字在句子中不同的标识给予不同的阈值。设如M 为一单名 ( 即人名用字为一个字) ，其中，X 为姓氏( 包括单姓和复姓) ，M 1 人名用字。设, 硷I 1 M 2 为一双名( 即人名用字为两个字

13、) ，其中，x 为姓氏( 包括单姓和复姓) ，M 1 第一个人名用字，M s 第两个人名用字。若X ，M 1 ，M s 全部为单字词，且P ( 如M 1 ) 口l 或P ( J J a v l I M 2 ) 口2 ，则认为删l 或X M , M 2 为一潜在人名将其放入潜在人名表中。若X ，M 1 ，M s 部分为单字词或整体为词，且P ( X M l ) 或P ( X M I M s ) S s ，则认为X M I 或删l M 2 为一潜在人名将其放入潜在人名表中。经过实验，取：口l = - 1 0 1 0 8 a 2 = - 1 4 1 7 9 3 l = 一1 1 8 5 1

14、 2 = 一1 7 0 3 2 0 第一次初筛选的结果是，设定阈值尽量使每个可能成为中文人名的汉字序列 ( 如：李明，黎明，马胜利，严肃，安然等) 放到潜在人名表尸丁里，过滤掉完全不可能或者可能性非常小的汉字序列( 如：记者，宣传，肖像权，国科学等) 。针对不同的情况设定不同的概率阈值，可以起到显著的过滤效果。 ( 3 ) 同源对表n T 和互斥对表H C T 的建立同源对：在句子中，以同一位置的姓氏为起点的单名和双名，且单名和双名的概率均大于相应的概率阈值。例如：“新任冶金部副部长吴建德出席了通报会”，其中，吴建，吴建德为一同源对。在一般情况下，同源对同时作为人名而成立的概率很小

15、，几乎为0 。同源对表：由句子内所有的同源对组成的集合。互斥对：在旬内，以不同位置为姓氏始点，相互间有部分交叉的两个人名且其概率均大于相应的概率阈值。例如：“陕西榆林个体工商户刘金利1 0 年来累计投资2 0 0 多万元开发沙漠”，其中，刘金利，金利为一互斥对。在一般情况下，同源对同时作为人名而成立的概率很小，几乎为0 。互斥对表：由句子内所有的互斥对组成。于是，对每个输入句子。在潜在人名表聊旧的基础上，将产生一个同源对表册和一互斥对表H C T 。肿及H C T 体现了句子中潜在人名之间的相互制约关系。针对同源对表和互斥对表，我们有如下操作： C I C 2 和C I C

16、2 C 3 为同源对或互斥对，若确定C I C 2 ( C I C s C 3 ) 是一人名，则：，：1 0 ：o + ：i ：+ o ：矗：，j ，i I ! i 0 。曩j 一 2 4 第3 章幂于统汁的中文人名识别清除潜在人名表P N T 中的C l C 2 C a ( C I C 2 ) ；清除同源对表册中的同源对( C I C 2 ，C I C 2 C 3 ) ；清除互斥对表H C T 中的互斥对( C I C 2 ，C I C 2 C 3 ) ；清除同源对表和互斥对表中所有包含C I C 2 的人名；标记C I C 2 ( C I C 2 C a ) 为正确人名；若否定C I C 2 ( C I C 2 C 3 ) 是人名，则：清除同源对

展开阅读全文

中文命名实体识别及评测方法

最新文档