声纹识别分析王姚－金锄头文库

资源描述

《声纹识别分析王姚》由会员分享，可在线阅读，更多相关《声纹识别分析王姚（13页珍藏版）》请在金锄头文库上搜索。

1、安徽科技学院 2014-2015 学年第 1 学期行业标准概论课程论文姓名：王姚学号：1665110215 班级：电信 112声纹识别的分析王姚（数理与信息工程学院）摘要：本文提出了一种可用于说话人识别的神经阵列网络,以美尔倒谱系数（Mel F requeney Cepstrum Coefficients:MFCC）作为特征参数，采用多层感知器神经网络和 BP算法建立了一个与文本相关的说话人辨认系统。同时，算法结合心理声学模型，提取了能表现说话人个性特征的 Mel 倒谱系数为特征进行说话人识别，可较好地提升系统的抗噪性能。该方法具有快速学习网络权重的能力，并且网络的全局寻优能力强，使得系统的

2、识别率进一步提高。问题一、要求建立代表说话人身份的语音特征模型，通过编程从语音数据中提取说话人特征，本文通过构建声纹特征MFCC系数模型，对语音数据进行提取、预加重、分帧、傅里叶变换等处理提取特征参数。问题二、要求利用说话人特征建立说话人模型或声纹识别模型。本文利用BP神经网络模型以建成声纹识别模型。通过对特征参数的训练、分类，从而达到多个人说话的语音中分辨出各个人的语音；问题三、要求我们利用语音数据，评价说话人模型或声纹识别模型评价的好坏。本文对语音信号进行了预处理，解决了滤除高频噪音，防止 50Hz 工频干扰及平滑频域信号等一系列不利于 MFCC 系数提取的因素，同时，计算出识别的准确率和

3、所用时间，从而判断模型的好坏和实用性；问题四中，我们透彻分析影响准确率的因素，运用遗传算法优化 BP 神经网络进行优化，进一步提高声纹识别的准确率。关键词：美尔倒谱系数遗传算法神经网络声纹识别 BP神经网络一、问题重述生物认证是通过人体特征进行人物身份认证的重要手段，包括人脸识别、虹膜识别、指纹识别、体态识别和声纹识别等方法，它们被广泛地应用于国防、军事和民用等诸多领域，推动着信息产业的蓬勃发展。声纹识别又称说话人识别，是通过分析说话人的语音的特点，利用计算机自动识别说话人的身份。声纹识别又分为文本相关和文本无关说话人的识别两大类。文本无关是指说话人的说话内容不受限制，文本相关是指说话人

4、的说话内容必须是指定的内容。评价声纹识别方法或模型的最重要指标是识别准确率，准确率越高越宜于应用于实际。评价的另外一个重要指标就是识别所花的时间，即输入待识别的说话人语音到识别结果的输出说话的时间，该时间越短约好。请试着利用采集到的说话人语音数据（文本相关和文本无关两类），完成以下几点：1）建立代表说话人身份的语音特征模型，通过编程从语音数据中提取说话人特征；2）利用说话人特征建立说话人模型或声纹识别模型；3）利用语音数据评价你的说话人模型或声纹识别模型评价的好坏；4）分析影响准确率的因素，采取措施进一步提高声纹识别的准确率。二、问题分析2.1 问题一要求建立代表说话人身份的语音特征，并且能够

5、通过编程从语音数据中提取说话人特征。首先，我们要对输入的原始信号进行预处理，过滤其中不重要的信息以及背景噪声等，进行语音信号的端点检测，并进行语音信号的分帧以及预加重等处理工作。对采集到的语音样本的预处理包括预加重、加窗分帧和端点检测。预加重主要是为了消除发声过程中声带和嘴唇的效应，补偿语音信号收到发音系统所压抑的高频部分，将原始语音信号通过一个高通滤波器：式中 u 为预加重系数，通常取值 0.95 左右。本系统采用一个窗长为256，窗移是128的汉明窗在语音序列上滑动，对语音进行加窗分帧处理。通过对语音信号的短时能量和短时过零率实现比较精确的端点切分，可以剔除掉静默帧、白噪声帧和清音帧，最后

6、保留对求取MFCC等特征参数非常有用的浊音信号。2.2 问题二是对说话人的语音进行识别，语音特征信号识别是语音识别研究领域中的一个重要方面,我们采用模式匹配的原理解决。语音识别的运算过程为:首先,待识别语音转化为电信号后输入识别系统,经过预处理后用数学方法提取语音特征信号,提取出的语音特征信号可以看成该段语音的模式。然后将该段语音模型同已知参考模式相比较,获得最佳匹配的参考模式为该段语音的识别结果。语音识别流程如图2.2.1所示流程图如下：图 2.2.1 说话人识别模型流程图本模型中我们选取了001，002，003，004四类不同音频,用BP 神经网络实现对这四类音频的有效分类。每段音频都用上

7、述倒谱系数法提取500组24维语音特征信号,提取出的语音特征信号。2.3问题三要求利用语音数据评价你的说话人模型或声纹识别模型评价的好坏。通过本文建立BP神经网络模型，我们可运行测试其准确性。2.4问题四要求我们分析影响准确率的因素，并采取措施进一步提高声纹识别的准确率。三、模型假设1. 假设预加重系数 u 的值为 0.93752.假设所用的音频的录音环境为同一环境，为封闭式录音教室；3. 假设录用人员讲的语言为较标准的普通话；4假设录音人员是处于正常说话模式，没有经过特殊仪器进行变音；5假设数据训练量每增加100，训练时长增加1s；6.本模型使用的文本无关的声纹识别文件；7.假设所提供的数据

8、完整、可靠、有效；8.假设我们网络上查阅的资料以及结论真实可靠。四、符号说明1、预加重系数；2、P（f）短时能量谱；3、P(M) 美尔坐标上的能量谱；4、Hm（K）滤波器组；5、MFCC美尔倒谱系数；6、a隐含层阈值；7、b输出层阈值；8、学习速率；9、e网络预测误差；10、欧式范数；11、高斯函数中心；12、高斯函数方差；13、输入层、隐含层和输出层神经元之间的连接权值；jkiw,14、隐含层输出；jH15、 BP 神经网络预测输出。kO五、模型建立与求解5.1 问题一： 5.1.1构建声纹特征MFCC系数模型在语音信号预处理后，接着是特征参数的提取。选取的特征必须能够有效地

9、区分不同的说话人，且对同一说话人的变化保持相对稳定。基于人耳的听觉机理，反映听觉特性，模拟人耳对声音频率感知的特征参数，如美尔倒谱系数等。很多研究证明，由于Mel频率特性反映了人耳的听觉特性，常用于代替人耳来分析语音，其性能和鲁棒性都是最符合实际听音效果的。MFCC参数与线性预测倒谱分析相比，突出的优点是不依赖全极点语音产生模型，因此，在与文本无关的说话人识别系统中，MFCC参数能够更好地提高系统的识别性能。5.1.2 模型求解：MFCC 参数计算步骤如下：首先，语音信号在经过预处理、分帧加窗后转变为短时信号，经过FFT 变换将x（n）转化为X（m），并计算出其短时能量谱P（f）。在将P（f）

10、在频率轴上的频谱转化为在美尔坐标上的P(M)。接着在美尔频域内将在美尔坐标上加入三角带通滤波器得到滤波器组Hm（K），再计算美尔坐标上的能量谱P(M) 通过该滤波器组的输出值。最后在美尔刻度谱上能够采取修改的离散余弦反变换来求取美尔倒普参数MFCC：式中，p 为 MFCC 阶数。5.1 问题一5.1.1 BP 神经网络模型的建立BP神经网络是一种多层前馈神经网络,该网络的主要特点是信号前向传递,误差反向传播。在前向传递中,输入信号从输入层经隐含层逐层处理,直至输出层。每一层的神经元状态只影响下一层神经元状态。如果输出层得不到期望输出,则转入反向传播,根据预测误差调整网络权值和阈值,从而使BP神

11、经网络预测输出不断逼近期望输出。BP神经网络的拓扑结构如图1-1所示。图1-1中,X1,X2,Xn 是BP神经网络的输入值,Y1,Y2,Ym 是BP神经网络的测值,ij和jk 为BP神经网络权值。从图1 1可以看出,BP神经网络可以看成一个非线性函数,网络输入值和预测值分别为该函数的自变量和因变量。当输入节点数为n,输出节点数为m 时,BP神经网络就表达了从n 个自变量到m 个因变量的函数映射关系。BP神经网络预测前首先要训练网络,通过训练使网络具有联想记忆和预测能力。BP神经网络的训练过程包括以下七个步骤：步骤 1：网络初始化。根据系统输入输出序列（X，Y）确定网络输入层节点数你、隐含层节点

12、数，输出层节点数 m，初始化输入层、隐含层和输出层神经元之间的连接权值l，初始化隐含阈值 a，输出层阈值 b，给定学习速率和神经元激励函数。jkiw,步骤 2：隐含层输出计算。根据输入向量 X，输入层和隐含层间连接权值以及隐含ijw层阈值 a，计算隐含层输出 H。（1）ljaxwfHniiijj ,21)(1L式中，为隐含层节点数；f 隐含层激励函数，该函数有多种表达形式，本章所选函l数为：（2）xef1)(步骤 3：输出层输出计算。根据隐含层输出 H，连接权值和阈值 b，计算 BP 神经jkw网络预测输出 O。（3）mkbwHOljjkk ,211L步骤 4：误差计算。根据网络预测

13、输出 O 和期望输出 Y，计算网络预测误差 e。（4）kYek,步骤 5：权值更新。根据网络预测误差 e 更新网络连接权值，。ijwjk（5） mkkjjjijij ljniwixHw1 ,21;,21)(1( L（6）ejjkj ,L式中，为学习速率。步骤 6：阈值更新。根据网络预测误差 e 更新网络节点阈值 a，b。（7）mkkjjjjj lwHa1,2)(L（8）ebk,步骤 7：判断算法迭代是否结束，若没有结束，返回步骤 2。基于BP神经网络的语音特征信号识别分类算法建模包括BP神经网络构建、BP神经网络训练和BP神经网络分类三步,算法流程如图1-4所示。图 1-4 算法流程B

14、P神经网络构建根据系统输入输出数据特点确定BP神经网络的结构,由于语音特征输入信号有24维,待分类的语音信号共有4类,所以BP神经网络的结构为24254,即输入层有24个节点,隐含层有25个节点,输出层有4个节点。BP神经网络训练用训练数据训练BP神经网络。共有2000组语音特征信号,从中随机选择1500组数据作为训练数据训练网络,500组数据作为测试数据测试网络识别分类能力。BP神经网络分类用训练好的神经网络对测试数据所属语音类别进行识别分类。5.1.2 模型求解 5.1.2.1 运用数据选择和归一化方法对数据进行处理数据归归一化是神经网络预测前对数据常做的一种处理方法法。数据归一化处理把所

15、有数据都转化为0,1之间的数，其目的是取消各维数据见数量级差别，避免因为输入输出数据数量级差别较大而造成网络预测误差较大。本模型使用的是最大最小法。函数公式为：（9）式中，为数据序列中的最小数；为序列中的最大的数。首先，根据倒谱系数法提取四个人的语音特征信号，不同的语音信号分别用1，2，3，4 标识，提取出的信号分别存储与不同的数据库文件中，每组数据为 25 维，第1 维为类别标识，后 24 维为语音特征信号。把四种语音特征信号合为一组，从中随机选择15000 组数据作为训练数据，500 组数据作为测试数据，并对训练数据进行归一化处理。根据语音种类标识设定每组语音信号的期望输出值，如标识类为 1 是，期望输出

展开阅读全文