说话人识别研究 (生物特征认证技术论文)

上传人:xins****2008 文档编号:112234472 上传时间:2019-11-05 格式:DOC 页数:10 大小:204KB
返回 下载 相关 举报
说话人识别研究 (生物特征认证技术论文)_第1页
第1页 / 共10页
说话人识别研究 (生物特征认证技术论文)_第2页
第2页 / 共10页
说话人识别研究 (生物特征认证技术论文)_第3页
第3页 / 共10页
说话人识别研究 (生物特征认证技术论文)_第4页
第4页 / 共10页
说话人识别研究 (生物特征认证技术论文)_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《说话人识别研究 (生物特征认证技术论文)》由会员分享,可在线阅读,更多相关《说话人识别研究 (生物特征认证技术论文)(10页珍藏版)》请在金锄头文库上搜索。

1、生物特征认证技术学院:计算机学院专业:信号与信息处理班级:13硕信息所班学号:13120330姓名:李敏说话人识别研究摘要:说话人识别是语音信号处理中的重要组成部分,是当前的研究热点之一。本文详细介绍了说话人识别的基本原理,从特征提取、模型训练和分类等几个方面近年来的主要研究情况及进行综述和评价,并在此基础上探讨其研究难点和发展前景。关键词:说话人识别;特征提取;模型训练;分类1.引言 说话人识别作为生物认证技术的一种,是根据语音波形中反映说话人生理和行为特征的语音参数,自动鉴别说话人身份的一项技术。为此,需要从各个说话人的发音中找出人之间的个性差异,它涉及到说话人发音器官上的个性差异、发音通

2、道之间的个性差异、发音习惯之间的个性差异等不同级别上的差异。说话人识别是交叉运用心理学、生理学、语音信号处理、模式识别、统计学习理论和人工智能的综合性研究课题。 说话人识别根据实现的任务不同, 可分为说话人辨认(Speaker Identification和说人确认(Speaker Verification)两种类型。说话人识别根据系统对待识别语音内容的不同,又分为与文本有关(text-dependent)和与文本无关(text-independent)两种方式。2.说话人识别的基本理论与前期处理2.1语音产生模型 语音信号可以看成是激励信号UGn经过一个线性系统HZ而产生的输出。其中,声道模

3、型HZ为离散时域的声道传输函数,通常可以用全极点函数来近似。不同的说话人其声道形状是不同的,因此具有不同的声道模型。HZ的表达式为:HZ=1AZ=11-i=1paiZi式中p为全极点滤波器的阶数,aii=1,2,p为滤波器的系数。P值越大,则模型的传输函数和实际声道的传输函数的吻合程度就越高。当然p也不能取得太大,一般情况下p取8到12。2.2 说话人识别基本原理 图 1 给出了说话人识别系统框图,和语音识别系统一样,建立和应用这一系统可以分为两个阶段,即训练阶段和识别阶段。在训练阶段,系统的每个使用者说出若干训练语句,系统据此建立每个使用者的模板或模型参量参考集。而在识别阶段,待识别说话人语

4、音中导出的参量要与训练中的参考参量或模板加以比较,并且根据一定的相似性准则形成判断。2.3 预处理通常,输入的语音信号都要进行预处理,其过程的好坏也在一定程度上对系统的识别效果产生影响。一般的预处理过程为:(1)采样量化:语音信号通常以 8kHz或更高的采样速率数字化,每个采样至少用8比特表示;(2)预加重:由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,在高频端大约在800Hz以上按6dB/倍频程跌落,为此要进行预加重。预加重的目的是将更为有用的高频部分频谱进行提升,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求取频谱,以便于进行频谱分析或声道参数分析。声音经过

5、8kHz 或更高的采样速率的采样后转成数字语音信号,接着通过一个一阶高通滤波器来做预加重处理以突显高频部分。其传递函数为:HZ=1-aZ-1,一般a的值取0.95左右;(3)端点检测:端点检测就是对输入语音信号进行判断,从背景噪音中准确找出语音的起始点和终止点。有效的端点检测不能消除无声段的噪音。但可以使处理语音信号的时间减到最小。目前的端点检测技术大都是基于语音信号的时域特征来进行的,一般常采用两种时域特征:短时能量和短时过零率,通过设定它们的门限值进行检测;(4)分帧:由于语音信号的准平稳特性,使得其只有在短时段上才可被视为是一个平稳过程,所以绝大部分的说话人识别系统都是建立在短时频谱分析

6、的基础之上,把一定长度的语音分为许多帧来分析。这样做之后语音信号可以被认为是平稳的。系统也就可以使用对平稳过程的分析方法对语音信号进行分析。由此可见语音信号需要被划分为一个一个的短时段。每一个时段称为一帧,每一帧的长度大概为10-30ms。现在所使用的分帧方法为了使帧与帧轮之间平滑过渡并保持其的连贯性,一般采用交叠分段的方法,即每一帧的帧尾与下一帧的帧头是重叠的。(5)加窗:针对每一个音框乘上汉明窗以消除音框两端的不连续性,避免分析时受到前后音框的影响;(6) 最后,将音框通过低通滤波器,可去除异常高起的噪声。3.特征提取 经过预处理后,几秒钟的语音就会产生很大的数据量。提取说话人特征的过程,

7、实际上就是去除原来语音中的冗余信息,减小数据量的过程。从语音信号中提取的说话人特征参数应满足以下准则:对局外变量(例如说话人的健康状况和情绪,系统的传输特性等)不敏感;能够长期地保持稳定;可以经常表现出来;易于对之进行测量;与其它特征不相关。根据参数的稳定性,可把说话人特征参数大致分为两类:一类是反映说话人生理结构的固有特征(例如声道结构等),这类特征主要表现在语音的频谱结构上,包含了反映声道共振的频谱包络特征信息和反映声带震动等音源特性的频谱细节构造特征信息,具有代表性的特征参数有基音和共振锋。这类特征不易被模仿,但容易受健康状况的影响。另一类是反映声道运动的动态特征,即发音方式、发音习惯等

8、。主要表现在语音频谱结构随时间的变化上,包含了特征参数的动态特性,这类特征相对稳定却比较容易模仿,代表性的特征参数是倒谱系数。 说话人识别研究中多采用的特征参数主要有:基音周期、明亮度、过零率、线性预测系数(Linear Predictive Coefficients,简称LPC)、线性预测倒谱系数(Linear Predictive Cepstral Coefficients,简称 LPCC)、Mel频率倒谱系数(Mel-frequency Cepstrum Coefficients,简称MFCC)、倒谱特征,等等。3.1 线性预测倒谱系数(LPCC)线性预测倒谱系数是一种比较重要的特征参数

9、,它比较彻底地去除了语音产生过程中的激励信息,能较好地描述语音信号的共振峰特性。在实际计算中,LPCC 不是由信号直接得到的,而是由LPC求得。LPCC 倒谱系数与线性预测系数的关系为:3.2 Mel 频率倒谱系数(MFCC)Mel频率倒谱系数(MFCC)的分析与传统的线性倒谱系数(LPCC)不同,它的分析是着眼于人耳的听觉机理,因为人类在对1000Hz以下的声音频率范围的感知遵循近似的线性关系;对1000Hz以上的声音频率范围的感知不遵循线性关系,而是遵循在对数频率坐标上的近似线性关系,所以Mel 倒谱系数获得了较高的识别率和较好的鲁棒性。在实现上,Mel倒谱系数是将语音频率划分成一系列三角

10、形的滤波器序列,这组滤波器在频率的Mel坐标上是等待宽的。Mel频率表达了一种常用的从语音频率到“感知频率”的对应关系,更符合人耳的听觉特性。其表达式如下: 求取MFCC的具体过程如下:(1) 对已经经过预处理的语音向量分别进行离散傅立叶变换(DFT)。(2) 将得到的离散频谱用序列三角滤波器进行滤波处理,得到一组系数。(3) 利用离散余弦变换(DCT)将滤波器输出变换到倒谱域。离散余弦变换的公式如下:3.3 其他一些特征3.3.1 基音周期在人的发音模型中,产生浊音的周期激励脉冲的周期称为基音周期(Pitch)。只有浊音才有基音周期,清音没有基音周期。基音周期检测方法大体上可以分为三大类:时

11、域方法、频域方法和综合利用信号的时域、频域特性的方法。时域方法直接利用语音信号的采样点,计算信号的波峰、波谷和过零率等。其特点是原理简单,计算量小。典型的方法是Gold 和Rabiner 提出的并行处理(PPROC)方法。频域的方法主要是计算信号的自相关函数、功率谱和最大似然函数等,其精度要高于时域的方法。典型的方法有中央消波自相关法(AUTOC)、平均幅度差分函数(AMDF)法和倒谱法(CEP)等。自相关法的原理是语音的短时自相关函数在基音周期的整数倍点上有很大的峰值,只要找到最大峰值点的位置,便能估计出基音周期。3.3.2 倒谱特征图2 倒谱的计算过程语音信号是激励信号源与声道响应相卷积的

12、结果,而“倒谱特征”则是利用了对语音信号作适当的同态滤波可以将激励信号与声道信号加以分离的原理。一帧语音信号的倒谱c(n)的计算过程如图2 所示。倒谱中维数较低的分量对应于语音信号的声道分量,倒谱中维数较高的分量对应于语音信号的音源激励分量。因此,利用语音信号倒谱可以将它们分离,彼此基本上互不干扰,并可以避免声道分量受到有随机变化的音源激励分量的干扰。3.3.3 短时能量与短时平均幅度信号x(n)的短时能量定义为:w(n)是窗函数,一般用矩形窗或汉明窗。短时能量代表的是一个音框的语音信号的能量,可以反映语音信号随时间的幅度变化。语音信号的短时平均幅度定义为:用信号绝对值来代替平方和。3.3.4

13、 短时平均过零率信号x(n)的短时平均过零率定义为:它反映了一个音框语音信号中的过零情况,是信号频率量的一个简单量度。4.说话人模型对于说话人识别系统,特征被提取出来以后,需要用识别模型为说话人建模,并对特征进行分类,以确定属于哪一个说话人。所谓的识别模型,是指用什么模型来描述说话人的语音特征在特征空间的分布。目前常用的模型大体上可以分为参数模型,非参数模型,人工神经网络模型(Artificial Neural Network,简称ANN)以及支撑向量机(Support Vector Machine,简称SVM)。参数模型是指采用某种特定的概率密度函数来描述说话人的语音特征在特征空间的分布情况

14、,并以该概率密度函数的一组参数来作为说话人的模型。典型的参数模型包括高斯混合模型(Gaussian Mixture Model,简称GMM)和隐马尔可夫模型(Hidden Markov Model,简称HMM)。而非参数模型是指说话人模型是由语音特征经过某种运算直接得来。典型的非参数模型是模板匹配方法和矢量量化模型(Vector Quantization Model,简称VQ)。下面分别简要介绍这几种分类模型。4.1 高斯混合模型(GMM)GMM 是M个成员的高斯概率密度的加权和,可以用下式表示:这里是D 维随机向量;是每个成员的高斯概率密度函数;是混合权值。完整的GMM 可表示为:。每个成员

15、密度函数是一个D维变量的高斯分布函数,形式如下: 对于一个长度为T 的测试语音时间序列,它的GMM 似然概率可以写作:识别时运用贝叶斯定理,在N 个未知话者的模型中,得到的似然概率最大的模型对应的话者即为识别结果:4.2 隐含马尔可夫模型(HMM)该类方法给定随机模型,然后通过计算产生一个观察 (来自某说话人的矢量集中的一个矢量)的似然概率。随机模型为从说话人训练话音得到的特征矢量估计出的概率密度函数。每个说话人训练出一个随机模型。给定随机模型 后,各说话人产生观察 的概率即被确定。当获得由某测试人产生的观察集时,则可计算出各个随机模型产生的概率值 ,表示该测试语音属于各已知说话人的概率值,从而做出判决。HMM 应用到说话人识别系统时经常会遇到的三大基本问题:(1)若有一个HMM 系统,对于给定的观察序列O,如何调整模型 = (, A, B)中的各要素,使概率取最大值;(2)已知一个HMM 系统的三项特征参数,给定观察序列O ,如何计算概率(3)已知一个HMM系统的三项特征参数,若得到了该系统产生的观察序列O,如何确定一个合理的状态序列S ,使之能最佳地产生观察序列O。上面三个问题的解决方案即为著名的HMM 三大基本算法:前向后向算法、Viterbi 算法和Baum-Welch 算法。4.3 模板匹配法模板匹配方法利用语音信号某

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号