语音识别技术介绍－金锄头文库

资源描述

《语音识别技术介绍》由会员分享，可在线阅读，更多相关《语音识别技术介绍（34页珍藏版）》请在金锄头文库上搜索。

1、语音信号处理与识别一、语音识别概述一、语音识别概述二、语音识别系统基本原理二、语音识别系统基本原理三、预处理及特征参数提取三、预处理及特征参数提取四、模板匹配技术及相似性判断方法四、模板匹配技术及相似性判断方法五、语音识别系统的设计和实现五、语音识别系统的设计和实现语音识别概述语音识别概述让机器听懂人类的语音，这是人们长期以来梦寐以求的事情。伴随计算机技术发展，语音识别己成为信息产业领域的标志性技术，在人机交互应用中逐渐进入我们日常的生活，并迅速发展成为“改变未来人类生活方式厅的关键技术之一。语音识别技术以语音信号为研究对象，是语音信号处理的一个重要研究方向。其最终目标是实现人与机器进

2、行自然语言通信。发展和现状：20世纪50年代，AT(2)连接词语音识别系统:其输入系统要求对每个词都清楚发音,开始出现一些连音现象;(3) 连续语音识别系统:连续语音输入自然流利的语音，会出现大量的连音和变音。另外从识别系统的词汇量大小分:小词汇量语音识别系统（几十个词）；中等词汇量语音识别系统（几百到上千个词）；大词汇量语音识别系统（几千到几万个词）。语音识别概述语音识别概述语音识别的基本方法:一般来说，语音识别的方法有三种：基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。(1)语音学和声学的方法该方法起步较早，在语音识别技术提出的开始，就有了这方面的研究，

3、但由于其模型及语音知识过于复杂，现阶段没有达到实用的阶段.(2)模板匹配的方法模板匹配的方法发展比较成熟，目前己达到了实用阶段。常用的技术有三种: 动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。(3)神经网络的方法基于ANN的语音识别系统通常由神经元、训练算法及网络结构等三大要素构成。由于基于神经网络的训练识别算法由于实现起来较复杂，目前仍只是处于实验室研究阶段。语音识别概述语音识别概述目前语音识别的研究主流是大词汇量的非特定人的连续语音系统，但是事实上，对于许多应用来说，一个语音识别系统只要一组词汇或命令，它就可能为用户提供一个有效的工具，简单有效的孤立词

4、特定人语音识别系统就能满足要求。正是孤立词特定人语音识别系统广阔的应用前景以及优越性促使我们继续对它进行研究目前市场上出现的语音识别器大多数是特定人孤立单词语音识别系统。孤立词语音识别系统中的难点问题：(1) 语音信号的多变性语音信号是非平稳随机信号，不但不同发音者发音之间存在重大的差异，即使同一人同一语音的不同次发音，也存在很大差异。(2) 噪声影响当实际环境中有噪声存在时，容易造成训练与测试环境不匹配导致语音识别系统性能急剧下降。(3) 端点检测统计表明语音识别系统一半以上的识别错误来自端点检测错误。在安静环境下有声段和无声段时能量存在很大差异，由此判断语音的起点。但是当噪声的能

5、量和语音信号的能量接近时就可能造成端点检测的误差从而导致识别结果错误。语音识别概述语音识别概述(4) 词与词的特征空间混叠语音识别的常规方法是利用语音信号的短时周期特性将语音时域采样信号分为若干段，计算出每一段的特征矢量序列作为识别参数。但是很多不同的词语的矢量序列在特征空间中存在混叠现象，甚至有些不同词语的混叠程度会超过同一词语的不同次发音，从而降低识别率。语音识别系统基本原理语音识别系统基本原理语音信号产生模型语音是由空气流激励声道产生的。对于浊音、清音和爆破音三种不同类型的音来说，激励源是不同的。浊音激励源是位于声门处的准周期脉冲序列，清音的激励源是位于声道的某个收缩区的空气

6、湍流（类似于噪声），而爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然释放。语音生成系统分为三个部分，在声门(声带)以下，称为声门子系统，它产生激励振动，是激励系统:从声门到嘴唇的呼气通道是声道系统:语音从嘴唇辐射出去，所以嘴唇以外是辐射系统。因此，完整的语音信号的数学模型可以用三个子模型:激励模型、声道模型和辐射模型的串联表示。语音信号产生的时域模型语音识别系统基本原理语音识别系统基本原理语音识别系统基本原理语音识别系统基本原理语音信号分析基础语音信号的分析主要有时域分析和频域分析两种，其他还有倒谱域、语谱分析等。语音信号是一种典型的非平稳信号。语音的形成过程与发音器官的

7、运动密切相关，这种物理运动比起声音振动速度来讲要缓慢得多，因此语音信号可假定为短时平稳的，其频谱特性和某些物理参数在10-30ms时间段内是近似不变的，对语音信号进行处理都是基于这个假设语音信号的时域分析参数主要有短时能量、短时平均幅度、短时过零率等，这些参数主要用在语音端点检测中。频域分析参数主要有基音频率、滤波器组参数、线性预测系数(LPC)、线性预测倒谱系数(Linear Prediction Cepstrum Coefficient, LPCC)、线谱对参数(Linear Spectrum Pair, LSP),MEL频率倒谱系数(Mel-Frequency Cepstru

8、m Coefficient, MFCC)等.语音识别系统基本构成语音识别系统基本原理语音识别系统基本原理语音识别系统基本原理语音识别系统基本原理预处理预处理部分包括语音信号的采样、反混叠滤波、语音增强，去除声门激励和口唇辐射的影响以及噪声影响等，预处理最重要的步骤是端点检测。特征提取特征提取部分的作用是从语音信号波形中提取一组或几组能够描述语音信号特征的参数，如平均能量、过零数、共振峰、倒谱、线性预测系数等，以便训练和识别。参数的选择直接关系着语音识别系统识别率的高低。训练训练是建立模式库的必备过程，词表中每个词对应一个参考模式，它由这个词重复发音多遍，再经特征提取和某种训练中得到。模

9、式匹配模式匹配部分是整个系统的核心，其作用是按照一定的准则求取待测语音特征参数和语音信息与模式库中相应模板之间的失真测度，最匹配的就是识别结果。预处理及特征参数提取预处理及特征参数提取语音信号的数字化和预处理1、语音信号数字化要了分析说话人的语音，就要将话筒中传来的语音信号转换成计算机所能处理的数字信号。通过对语音信号特性的分析表明，浊音语音的频谱一般在4KHz 以上便迅速下降。而清音语音信号的频谱在4KHz以上频段反而呈上升趋势，甚至超过了8KHz以后仍没有明显下降的苗头。实验表明语音清晰度和可懂度有明显影响的成分最高频率约为5.7KHz。而语音信号本身的冗余度又比较大，少数辅音

10、清晰度下降并不明显影响语句的可懂度。因此语音识别时常用的采样频率为 10KHz或16KHz。2、预加重为了消除声门激励和口鼻辐射的影响，需要对语音信号作预加重理。它的目的在于消除低频干扰尤其是50Hz的工作频率干扰，将对语音识别更为有用的高频部分的频谱进行提升。使信号的频谱变的平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析。预加重数字滤波器一般是一阶的数字滤彼器：，其中u的取值一般介于0.93和0.98之间。预处理及特征参数提取预处理及特征参数提取3、语音分帧语音信号常常可假定为短时平稳的，即在10-20ms这样的时间段内，其频谱特性和某些物理特征参量

11、可近似地看作是不变的。这样就可以采用平稳过程的分析处理方法来处理了。这种处理的基本方法是将语音信号分隔为一些短段即分帧再加以处理。分帧可以采用连续分段的方法，也可采用交叠分段的方法。一般采用交叠分段的方法，即帧与帧之间有交叠，交叠的目的是使帧与帧之间平滑过渡，保持其连续性。语音信号处理的帧长一般取20ms为了减小语音帧的截断效应，需要加窗处理：矩形窗：Hamming：Hann：矩形窗的主瓣宽度最小，旁瓣高度最高，会导致泄漏现象，汉明窗的主瓣最宽，旁瓣高度最低，可以有效的克服泄漏现象，具有更平滑的低通特性，应用更广泛。预处理及特征参数提取预处理及特征参数提取预处理及特征参数提取预处理

12、及特征参数提取语音信号的时域分析1、短时平均能量短时平均能量反映了语音振幅或能量随着时间缓慢变化的规律。可以从语音中区别出浊音来，因为浊音时短时平均能量的值要比清音时短时平均能量的值大很多。其计算公式如下：2、短时过零率短时过零率表示一帧语音中语音信号波形穿过横轴的次数。对于连续信号，过零率意味着时域波形通过时间轴;在离散时间信号情况下，当相邻的两次抽样具有不同的代数符号时就称为发生了过零.应用短时平均过零率可以得到谱特性的粗略估计。短时平均过零率的定义为:浊音时能量集中于较低频率段内，具有较低的过零率，而清音时能量集中于较高频率段内，具有较高的过零率。预处理及特征参数提取预处理及

13、特征参数提取预处理及特征参数提取预处理及特征参数提取3、端点检测端点检测的目的就是从连续的声音中间检测出每一段语音的起始点和终止点，从而达到节省系统资源，方便实时分析的效果。此外，端点检测的好坏还将直接影响孤立词识别率的高低。双门限前端检测算法是经典的起止点检测算法，这种端点检测技术主要利用短时过零率特征和每帧的平均幅值特征来判断语音信号的起止点，采用矩形窗进行分帧。预处理及特征参数提取预处理及特征参数提取端点检测效果图预处理及特征参数提取预处理及特征参数提取语音信号的特征参数提取提取特征参数满足的要求：1、能有效地代表语音特征，具有很好的区分性2、参数间有良好的独立性 3、特征参数

14、要计算方便，要考虑到语音识别的实时实现常用的特征参数包括：线性预测系数(LPC)；线性预测倒谱系数(Linear Prediction Cepstrum Coefficient, LPCC)；MEL频率倒谱系数(Mel-Frequency Cepstrum Coefficient, MFCC)。预处理及特征参数提取预处理及特征参数提取倒谱介绍倒谱定义为时间序列的z变换的模的对数的逆z变换：倒谱分析的基础是假设语音是激励函数与声道冲激响应的卷积。语音的倒谱实际上是将语音的频谱（短时谱）取对数后再进行逆傅里叶变换（实际上代之以 DFT）得到的。因此，声道滤波器对于倒谱的贡献将表现为=0附近的峰起

15、；而周期性脉冲激励对倒谱的贡献将表现为具有同样周期的冲击。预处理及特征参数提取预处理及特征参数提取线性预测系数(LPC)语音的线性预测基本思想是：语音信号的每个取样值可以用它过去的若干个语音的线性预测基本思想是：语音信号的每个取样值可以用它过去的若干个取样值的线性组合来表示；各加权系数的确定原则是使预测误差的均方值最小。取样值的线性组合来表示；各加权系数的确定原则是使预测误差的均方值最小。如果利用过去如果利用过去p p个取样值来进行预测，称为个取样值来进行预测，称为p p阶线性预测。阶线性预测。假设前提：假设前提：语音信号可以看成是一个线性时变系统在准周期脉冲序列（相当于浊音）或语音信

16、号可以看成是一个线性时变系统在准周期脉冲序列（相当于浊音）或随即噪声（相当于清音）激励下所产生的输出。对于除鼻音和摩擦音以外的大多随即噪声（相当于清音）激励下所产生的输出。对于除鼻音和摩擦音以外的大多数语音来说，时变线性系统都可以用一个全极点系统来表示。这个全极点时变系数语音来说，时变线性系统都可以用一个全极点系统来表示。这个全极点时变系统的参数随着时间的变化是非常缓慢的，在一帧语音时间内可以近似地认为它是统的参数随着时间的变化是非常缓慢的，在一帧语音时间内可以近似地认为它是非时变的。这样就可以根据该信号过去的非时变的。这样就可以根据该信号过去的p p个取样值对信号的当前值进行预测，个取样值对信号的当前值进行预测，而且在均方误差最小的意义上这种预测是最佳的，预测系数必将等于全极点系统而且在均方误差最小的意义上这种预测是最佳的，预测系数必将等于全极点系统的参数。的参数。预处理及特征参数提取预处理及特征参数提取线性预测倒谱系数(LPCC)通过线性预测得到全极点系统函数为：倒谱定义为时间序列的z变换的模的对数的逆z变换。因此线性预测倒谱可表示为：LPCC系数

展开阅读全文

语音识别技术介绍

最新文档