融合藏族人名音节特征的性别自动识别

资源描述

《融合藏族人名音节特征的性别自动识别》由会员分享，可在线阅读，更多相关《融合藏族人名音节特征的性别自动识别（7页珍藏版）》请在金锄头文库上搜索。

1、融合藏族人名音节特征的性别自动识别夏吾吉华却才让色差甲贡保才让扎西吉青海师范大学藏文信息处理教育部重点实验室青海师范大学民族师范学院摘要：藏族人名的性别自动识别是自然语言处理中非常重要的基础性问题之一.文章中提出了融合音节特征的 SVM 模型藏族人名性别识别方法, 采用支持向量机 (SVM) 模型为基本框架, 依据藏族人名的构词特征和统计分析, 设计了特征模板, 使支持向量机模型有效地处理藏族人名性别识别问题.实验结果表明, 在包含 18 821 个藏族人名的 103974 个句子中, 随机抽取 3 764 个藏族人名作为测试语料, 对 SVM 的高斯核、线性核、多项式核和

2、 S 型核等 4 个常用核函数做了实验, 性别自动识别的准确率分别达到 99.98%、98.81%、96.98%和 95.45%.关键词：藏族人名; 性别识别; 音节特征; 支持向量机 (SVM) ; 作者简介：夏吾吉 (1982) , 女 (藏族) , 青海尖扎人, 讲师, CCF 会员 (会员号:74265G) , 主要研究方向:藏文智能信息处理.收稿日期：2017-06-02基金：青海省科技计划项目 (2017GX146) Automatic Gender Identification of the Syllabic Characteristics Fused of Tibetan P

3、eoples NameXIA Wu-ji HUAQUE Cairang SE Cha-jia GONGBAO Cairang ZHAXI Ji Tibetan Information Processing key laboratory of ministry of education, Qinghai Normal University; Abstract： The automatic identification of Tibetan peoples name is one of the fundamental and important issues in natural language

4、 processing.This paper presents a syllabic characteristics fused gender identification method of Tibetan peoples name.This method used support vector machine (SVM) model as the basic framework and designed characteristic template according to the formation feature of Tibetan name and statistical ana

5、lysis.Then the support vector machine (SVM) model can effectively deal with the gender identification problem of Tibetan name.Experimental results show that depend on a random sample of 3764 Tibetan names as test corpus in 18821 Tibetan names from103974 sentences, we tested four commonly functions w

6、hich include the gauss kernel, linear kernel, polynomial kernel and S type nuclear.The automatic gender identification accuracy respectively reached 99.98%, 98.81%, 98.81% and 99.98%.Keyword： Tibetan peoples names; Gender identification; Syllable characteristic; Support vector machine (SVM) ; Receiv

7、ed： 2017-06-020 引言性别识别研究起始于 20 世纪 90 年代, 起初由心理学家提出1, 其研究目的是如何分辨人类男、女性别.随着计算机技术的发展, 对性别识别有不少学者从语音识别、模式识别、图像处理技术的角度进行了研究, 其在各个方面得到了很好的应用前景2-5.藏文信息处理在计算机信息技术领域也有 30 多年的发展历程, 同样取得了令人瞩目的成绩.但由于基础性工作处理的不够成熟, 再加上藏文语料严重缺乏, 其研究进展较为缓慢.藏族人名性别识别是藏文信息处理的一项基础性工作, 是在藏文文本中确定男、女性别的过程, 其识别效果制约着藏文信息处理的发展, 并对藏文词性标注、机器翻译

8、、信息检索、指代消解和句法分析等研究有很大影响.藏族人名性别识别不仅是自然语言处理领域中的一个关键技术, 也是目前在藏语自然语言处理中需要解决的一个重要问题.藏文是一种典型的具有逻辑格语法体系的拼音文字6, 句子中音节 (字) 作为最基本的单元, 一个或多个音节构成一个词.同样常见的藏族人名按照音节的长度由 2 个音节、3 个音节和 4 个音节组成, 还有个别藏族人名 (比如:作家笔名和宗教人士姓名等) 由 2 个音节和 6 个及其以上音节再加上维持藏族古代的庄园名、部落名、家族名和地名等 26 个音节组成7.藏族人名性别识别模块是藏文词性标注和藏文指代消解中不可缺少的重要组成部分, 国内外对

9、其研究很少, 马宁等首次提到了基于 SVM 的藏语说话人性别识别.此外, 目前还未见到藏族人名性别识别方面的相关研究和报道.为此, 本文在藏文命名实体识别的基础上, 利用融合音节特征 SVM 模型和解码方法, 探讨了安多藏区常用的藏族人名性别自动识别.1 藏族人名音节识别及特征模板1.1 藏族人名音节及识别1.2 特征模板藏文音节作为藏文词语的构件, 同时也是藏族人名的基本构件, 它不仅有自身的结构特征 (比如:藏族人名结构成份最少是 2 个音节) , 而且藏族人名还有音节间前后音节的搭配等特征.本文所采用的 SVM 模型在识别任务中能否成功地选择这些独有的特征8.给定 (s, m 或 f)

10、, 定义好的特征所包含的信息以能够正确地帮助识别标注 m 或 f.对于构成藏族人名的每一个音节, 都使用表 1 所示的特征.表 1 藏族人名音节特征模板表下载原表表 1 说明 2 个音节组成的藏族人名, 通过其特征, 可以直接识别出其性别, 而3 个音节的藏族人名在识别过程中如果最后音节为等时, 由前两个音节来确定性别, 同样由 4 个音节组成的人名中后两个音节为时, 由前两个音节进行识别其性别.2 模型及特征向量化2.1 模型支持向量机 (Support Vector Machine, SVM) 模型是一个相对较先进和较新的机器学习方法, 最初为了解决二类分类由 Vapnik 等人于

11、20 世纪 90 年代中期提出9, 现在被广泛应用于模式识别、回归计算等解决多维非线性分类问题, 它具有结构风险最小化的显著特点.对于分类问题, SVM 模型学习策略可简述为把某个输入空间中的一类样本通过一种非线性关系映射到另一个特征空间中, 将两类样本在此特征空间中进行线性分类, 并在此特征空间中寻找最优样本的线性分类超平面3, 使得分类间隔最大化, 可形式化地描述为一个求解凸二次规划问题.其判别函数为:其中, w 是权重向量、x 是特征向量、b 是参数、k (x i, xj) 为核函数, 核函数是 SVM 的核心问题之一, 目前选择核函数的方法一般都是从大量实验工作中进行获得.常用的核函数

12、有10:其中, d、b、c 为核参数, 在本文中上述核函数中的高斯核函数泛化性能很好, 线性核函数为其次, 多项式核函数和 S 型核函数的泛化性能相对较差.在藏族人名性别识别中, 我们将性别是识别视作 SVM 的一个分类问题, 即从藏族人名中分类出男女性别.如图 1 所示.图 1 SVM 最优分类超平面图下载原图图 1 表明, 两类样本集合通过 SVM 模型能够被超平面 H 进行完全分开, 使得直线 H1和 H2之间的几何距离最大.在藏族人名性别识别过程中, 把男性和女性分别作为两类样本:m 类 (图中用表示) 和 f 类 (图中用表示) .在决策分析中, 将对待识别的藏族人名音节参数进行

13、特征向量化后, 通过判别函数式 (1) 进行判断其性别.如果其结果为正, 则认为待识别的藏族人名是属于男性姓名;否则, 就属于女性姓名.2.2 音节特征向量化如表 1 所示, 藏族人名音节主要可分为 3 个特征:S 0S1、S 2、S 2S3;因此, 藏族人名可用三维向量 v= (S0S1, S2, S2S3) 表示, 其中 S0S1只有男性或女性两种结果, 结果为男性用 1 表示, 而女性结果用-1 表示;S 2、S 2S3具有男性、女性和不知性别三种结果, 其中男性、女性的表示方法跟 S0S1特征的表示方法相同, 而不知性别的结果用 2 表示;如果无特征, 则用 0 表示.具体向量化结果如

14、表 2 所示.表 2 音节特征向量化说明表下载原表 3 实验结果分析3.1 语料本文的训练和测试语料取材于藏文网站上相关各个领域的藏族人名, 包括小说、新闻、法律、童话等.对这些取材进行分词、标注词性和命名实体后, 经手动修改其中切分和标注错误的藏族人名.本文语料共包含 18 821 个藏族人名, 其中训练集有 15 057 个, 占整体语料的 80%;测试集有 3 764 个, 占整体语料的 20%;并且测试语料从整个语料中随机抽取.表 3 为详细的语料统计信息.表 3 预料详细统计下载原表表 4 实验结果下载原表 3.2 实验利用训练语料抽取了融合藏族人名的特征, 并训练了支持向量

15、机 (SVM) 模型, 见表 3 所示, 然后在测试语料上, 分别对 SVM 中常用的 4 个核函数进行了重复实验, 实验结果见表 4.从实验结果来看, 虽然测试语料从整体语料中随机抽取, 但对 SVM 每个常用核函数进行重复实验的结果都比较稳定, 而且效果良好.此外, 在本实验中发现高斯核函数泛化性能很好, 线性核函数为其次, 多项式核函数和 S 型核函数的泛化性能相对较差.虽然每个核函数对一般藏文文本中出现的藏族人名的性别识别获得了较高的准确率, 但仍然未能达到 100%准确率, 原因在于像等常用藏族人名在不同的实际语料中出现时, 以不同性别的形式出现, 导致在识别过程中出现歧义, 影响了

16、实验结果.4 总结与展望本文主要研究了基于 SVM 模型融合藏族人名音节特征的人名性别自动识别方法.根据藏族人名的构词规律和形态特征, 重点探讨了人名音节特征的选择和特征向量化, 并采用支持向量机方法训练了藏族人名性别标注语料, 结合训练模型获得藏族人名性别识别的最佳结果.经实验, SVM 模型完全可以自动识别文本中的藏族人名的性别.后续工作中, 将借助藏文人称代词的指代消解方法, 研究存在男女性别归类有歧义的藏族人名以及藏文转写其他民族人名的性别自动识别方法, 以完善藏文文献中人名的性别自动识别任务.参考文献1COTTREL, L G W, METCALFE J.EMPATH:Face, emotion and gender recognition using holonsJ.Advances in Neural Information Processing Systems, 1991 (2) :564-771. 2白雪, 田启川, 郝梦琳

展开阅读全文

融合藏族人名音节特征的性别自动识别

最新文档