基于韵律特征的SVM说话人识别

资源描述

《基于韵律特征的SVM说话人识别》由会员分享，可在线阅读，更多相关《基于韵律特征的SVM说话人识别（65页珍藏版）》请在金锄头文库上搜索。

1、摘要 I 摘要摘要语音信号是用于个人身份确认的一种有效的生物特征，与文本无关的说话人识别的研究也是语音信号处理的一个重要的研究方向，其研究具有重要的理论意义和广泛的应用前景。为了考察最新的相关研发进展，并提供统一的衡量标准，美国国家标准技术研究院(NIST)于 1996 年起开始主持说话人识别评测。NIST 说话人评测代表了说话人识别领域的最高水准，NIST 设立了多项评测任务，探索和尝试各种语音条件下的研究方法，并为各个项目指定统一的电话和广播语音(多环境、多通道、大规模说话人)、测试基准、评测规则和标准。其中一个任务是采用长语音进行说话人识别，是为了探索用于与文本无关的说话人识别的

2、语音信号高层次信息而设置的。除了短时倒谱参数，语音中的高层次信息也是一种有效的说话人特征参数，但其通常与文本内容有关，因此研究从信号中提取可用于与文本无关说话人识别的语音高层次特征信息就成了目前研究的焦点。本文对韵律的提取方法及其与区辨模型结合运用于与文本无关的说话人识别进行了探讨。从与文本无关的说话人识别的特点出发，本文先讲述概率统计模型，从文本相关的语音韵律（语音特征随时间变化的轨迹）中提取的特征信息，进行数据压缩、聚类，再利用支持向量机 SVM 进行区分。文章提出了一种基于小波分析从韵律中提取超音段韵律信息的方法，分别从声道的 MFCC 轨迹和基频轨迹，时域能量轨迹中进行超音段韵

3、律特征的提取。由 MFCC 各维参数的近似不相关和声道缓变的特点，MFCC 轨迹的韵律特征只以概貌系数来刻画，提取的 PMFCC 作为主参数，在参数级和由基频 F0 轨迹的六维韵律特征参数 PF0、由时域能量轨迹的六维韵律特征参数 PE，组成更加有效的PMFCCFE 参数，进而利用支持向量机 SVM 模型进行区分。在 NIST 数据库上的实验表明，与传统的短时 MFCC 的 GMM-UBM 系统相比，超音段韵律特征 PMFCCFE 的 GMM-SVM 系统的 EER 相对下降了 57.9%，MinDCF 相对下降了 41.4%。显著提高了说话人识别的性能。关键字关键字：韵律特征；GMM 超

4、矢量；SVM；文本无关说话人识别Abstract II Abstract Speech signal as effective biological feature, is particularly useful for identification, and text-independent speaker recognition is one of the primary research fields of speech signal processing, and not only of great theoretical significance, but also has a wi

5、de variety of applications. The National Institute of Standards and Technology (NIST) has coordinated Speaker Recognition Evaluations since 1996 to investigate and measure the latest approaches. The evaluations represent the state-of-the-art achievements of speech recognition. NIST sets up several t

6、asks to examine speaker recognition performance under different circumstances. NIST offers to the participants telephone and broadcast speech data ranging from multiple channels to various environments, the evaluation specifications, and same evaluation criterion. One task offers long-duration speec

7、h from speakers, aiming to make full use of text-independent high level information for recognizing speakers. In addition to short-term spectral features such as MFCC, high level information can also serve as effective feature for speaker recognition, but it usually associated with dependent text. T

8、he solution to explore the high level feature for text-independent speaker recognition becomes a focus. The thesis illustrates the effective and easy solution to extract prosodic feature and its models to discriminate speakers. According to the nature of text-independent speaker recognition, convent

9、ional probabilistic model GMM-UBM is used for data compression and cluster of prosodic features, and then, Support vector machine(SVM) is used to recognize speakers. The results prove this approach effective. The thesis introduces a method of extracting super-segmental features with wavelet analysis

10、, with which prosodic features of MFCC contour,F0 contour and E contour are extracted. As MFCC is a high dimension case, each dimension has a low correlation to others and the vocal tract convey the slow changes of speech, the approximation coefficients are utilized to form the vocal super-segmental

11、 feature PMFCC.F0 contour and E contour prosodic features consist of 6 dimensions respectively. In this way, with wavelet analysis, prosodic features are extracted from MFCC,F0 and energy contours respectively, these complementary features are fused Abstract III at feature level to yield a most effe

12、ctive feature PMFCCFE,GMM mean super-vectors of PMFCCFE are used to train SVM models to discriminate target speakers and imposters more effectively. The experiments conducted on the 2006 NIST 8side-1side subset show that the prosodic GMM-SVM system relatively improves the performance of the verifica

13、tion system by 57.9% in EER,41.4% in MinDCF, compared with the MFCC-based GMM-UBM system. Key words：prosodic features; GMM super-vector; SVM; text-independent speaker verification 中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外，论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明

14、确的说明。作者签名：_ 签字日期：_ 中国科学技术大学学位论文授权使用声明作为申请学位的条件之一，学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权，即：学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅，可以将学位论文编入中国学位论文全文数据库等有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。公开保密（_年）作者签名：_ 导师签名：_ 签字日期：_ 签字日期：_ 第 1 章绪论 1 第 1 章绪论第 1 章绪论

15、1.1 说话人识别的研究意义 1.1 说话人识别的研究意义自动说话人识别的任务是研究利用机器把人所说的语音中提取信息识别出说话人，它是一种有效且简便的身份认证、人机交互以及信息检索手段，对终端设备要求简单（只需性能良好的话筒即可），识别效果好，应用在模仿人类机能的模式识别领域，如图像、虹膜等，但自动说话人识别的性能在某些特定情况下与人类的区辨能力不相上下，有些已经高于人类【1】【2】。自动说话人识别应用有十分广泛的前景，在安检、认证等相关的各行各业有着广大的需求，如门数据库访问、汽车声控装置、网上金融交易等的的身份认证，以及一些个人数字、影音设备的个性设置等等。随着网络资源

16、的爆炸式增长和互联网的不断深入拓展，自动说话人识别也应用在信息获取如语音检索上，目前这方面的研究正持续进行。多年的研究发展推动，使自动说话人识别从实验室条件转移到实用领域，如手持通信设备语音识别、网上声纹认证。各种新的说话人识别技术在纷繁复杂的通道和背景条件下不断被革新，如概率统计模型（如高斯混合模型，Gaussian Mixture Model，GMM）和区分性模型（支持向量机，Support Vector Machine， SVM）的结合【3】【4】【5】【6】、语音识别（Speech Recognition）应用于与文本无关的说话人识别【7】【8】【9】，评分规整技术 HNORM、ZNORM 和 TNORM 【10】【11】【12】，以及削弱通道影响的通道映射(Feature map

展开阅读全文