基于神经网络的语音识别技术研究

上传人:ldj****22 文档编号:49020332 上传时间:2018-07-22 格式:PPT 页数:65 大小:2.07MB
返回 下载 相关 举报
基于神经网络的语音识别技术研究_第1页
第1页 / 共65页
基于神经网络的语音识别技术研究_第2页
第2页 / 共65页
基于神经网络的语音识别技术研究_第3页
第3页 / 共65页
基于神经网络的语音识别技术研究_第4页
第4页 / 共65页
基于神经网络的语音识别技术研究_第5页
第5页 / 共65页
点击查看更多>>
资源描述

《基于神经网络的语音识别技术研究》由会员分享,可在线阅读,更多相关《基于神经网络的语音识别技术研究(65页珍藏版)》请在金锄头文库上搜索。

1、基于神经网络的语音识别技术研究郑林 制作1 语音识别基础目前主流的语音识别技术是基于统计模式识别的基 本理论。一个完整的语音识别系统可大致分为三部 分: (a)语音特征提取:目的是从语音波形中提取随时 间 变化的语音特征序列。 (b)声学模型与模式匹配(识别算法):声学模型是 识别系统的底层模型,并且是语音识别系统中最关 键的一部分。声学模型通常由获取的语音特征通过 训练产生,目的是为每个发音建立发音模板。在识 别时将未知的语音特征同声学模型(模式)进行匹配 与比较,计算未知语音的特征矢量序列和每个发音 模板之间的距离。声学模型的设计和语言发音特点密切相 关。声学模型单元大小(字发音模型、半

2、音节模型或音素模型)对语音训练数据量 大小、系统识别率,以及灵活性有较大 影响。 (c)语义理解:计算机对识别结果进行语 法、语义分析。明白语言的意义以便做 出相应的反应,通常是通过语言模型来 实现。1.1 语音识别面临的问题n。 高保真设备上录制语音,尤其要在无噪环境下录音。然而,当语音 处理由实验室走向实际应用时,环境噪声的存在所带来的问题就变 得越来越重要。特别是线性预测作为语音处理技术中最有效的手段 ,恰恰是最容易受噪声影响的。 3.语音识别基元的选择问题。即如何根据存储空间和搜索速度的要 求,选择合适的识别单元,如词、音节、音素。一般来讲,识别的 词汇量越大,所选基元应越小。 4.端

3、点检测。语音信号的端点检测是进行语音识别的第一步。研究 表明,即使在安静的环境下,语音识别系统一半以上的识别错误来 自端点检测器。提高端点检测技术的关键在于寻找稳定的语音参数 。 5.还有大词汇连续语音识别的训练工作量和识别速度问题、局势问 题以及关键词检测技术,以及对用户的错误操作不正确响应问题等 。 6.另外,对于人类由中枢神经控制的记忆机理、听觉理解机理、联 想判断机理等,人们目前仍知之甚少。n 1.2 本文的主要工作n本文的主要工作是对现有的语音识别算法进行改 进和验证,在前人研究的基础上,研究了语音信 号参数的提取方法和常用识别算法,重点研究了 HMM在语音识别中的应用,包括模型的原

4、理, 模型的建立、训练和识别等过程,对HMM模型 的原理和核心算法和实际应用中的问题进行了深 入的研究,提出了基于HMM/NPN的语音识别 模型和算法,并验证。第1章绪论介绍了语音识 别的历史和现状,所面临的问题,识别的基础和 本文所做的工作及内容安排;第2章语音识别的系 统描述和特征参数提取,重点在语音的预处理和 LPCC和MFCC参数提取过程。第3章常用的训练 和识别方法,重点介绍VQ、HMM、NN模型及 一些算法。2 系统描述和特征参数提取n2.1预处理n(1)语音采样n语音信号是随时间而变的一维信号,它所占据 的频率范围可达10kHz以上,那么根据取样定 理则其采样频率至少为20kHZ

5、,但是对语音 清晰度可懂度有明显影响的成分最高频率约为 5.7kHZ,CCTT(国际电报电话咨询委员会)推 出的数字电话G.7建议采样率为skHZ,只利 用了3.4kHZ以内的信号分量,虽然这样的采 样频率对语音清晰度是有损害的,但受损害的 只有少数辅音,而语音信号本身冗余度是比较 大的,少数辅音清晰度下降并不明显影响语句 的可懂度。 n(2)预加重n由于语音信号S(n)的平均功率谱受声门激励和口 鼻辐射的影响,高频端大约在800Hz以上按 6dB/倍频程跌落,所以求语音信号频谱时,频 率越高相应的成分越小,高频部分的频谱比低频 部分的难求,为此要在对语音信号S(n)进行分析 之前对其高频部分

6、加以提升。使信号的频谱变得 平坦,保持在低频到高频的整个频带中,能用同 样的信噪求频谱,以便于频谱分析或声道参数分 析。通常的措施是用一阶数字滤波器实现预加重 ,其公式表示为:H(z)=1- (2-1) 0.91.0式中为预加重系数,群值接近于1 ,典型值为0.94。 这样,预加重网络的输出和输入的语音信号 s(n)的关系可用一差分方程表示: s(n)=s(n)-s(n-1) n(3)加窗n语音信号是一种典型的非平稳信号,其特性是随时间变化 的,但是语音的形成过程是与发音器官的运动密切相关的 ,这种物理运动比起声音振动速度来讲要缓慢得多,因此 语音信号常常可假定为短时平稳的,即在10-20ms

7、的时间 段内,其频谱特性和物理特征参量可近似地看作是不变的 。这样,就可以采用平稳过程的分析处理方法来处理了。 由这个假定导出了各种“短时”处理方法,以后讨论的各种 语音信号都是分隔为许多短段(帧)语音再加以处理。这些 短段语音就好像是来自一个具有固定特性的持续语音片断 一样。对每一短段语音进行处理就等效于对固定特性的持 续语音进行处理。短段语音之间彼此经常有一些重叠,对 每一帧的处理结果可用一个数或是一个组数来表示。因此 语音信号经过处理后将产生一个新的依赖于时间的数据系 列,这些数据用于描述语音信号 n的特征。设原始语音信号采样系列为S(n),将其 分成一些短段,等效于乘以幅度为1的窗函数

8、。当 窗函数幅度不是1而是按一定函数取值时,所分成 的短段语音的各个取样值将受到一定程度的加权 。对语音信号的各个短段进行处理,实际上就是 对各个短段进行某种变换或施以某种运算,其一 般式为:n(4)短时能量n短时能量序列反映了语音振幅或能量随着时间缓慢变 化的规律。从原始语音信号图中可以看到语音信号幅 度随时间有相当的变化,特别是清音段的幅度一般比 浊音段的幅度小很多,语音信号的短时能量给出了反 映这些幅度变化的一个合适的描述方法。n语音信号s(n)的短时能量的定义为:n式中窗函数w(n)为上面讨论的任意一种,这里窗长N的 选择对于反映语音信号的幅度变化起着决定的作用。如 果N很大,它等效于

9、很窄的低通滤波器,此时瓦随时间 的变化很小,不能反映语音信号的幅度变化,信号的变 化细节就看不出来;反之,N太小时,滤波器的通带变宽 ,En随时间有急剧的变化,不能得到平滑的能量函数。 因此,窗口长度的选择应合适。短时平均能量的主要用 途有:n(a)区分清音段和浊音段,语音为浊音时的短时能量值 比清音时大得多,根据语音信号短时能量值的变化,可 大致判定浊音变为清音和清音变为浊音的时刻。n(b)在高信噪比的语音信号中,可以用来区分有无 语音,此时,无语音信号的噪声能量很小,而有 语音信号时短时能量值显著地增大到某一数值, 由此可以区分语音信号的开始点和终止点。但是 ,瓦值对于高电平信号非常敏感(

10、因为计算时用的 是信号的平方),因此在实际使用时需加以处理, 例如取对数等,以便将数值限制在一定的范围内 。n(5)短时平均过零率n过零分析是语音时域分析中简单的一种,顾名思义 ,过零就是信号通过零值。对于连续语音信号,可 以考察其时域波形通过时间轴的情况。而对于离散 时间信号,如果相邻的取样值改变符号则称为过零 。由此可以计算过零数,过零数就是样本改变符号 的次数。单位时间内的过零数称为平均过零数。语 音信号S(n)的短时平均过零率定义为: n(6)语音信号的端点检测n端点检测是指从背景噪声中找出语音的开始和终止点, 是语音处理领域的基本问题,特别是在孤立词语音识别 中,找出每个单字的语音信

11、号范围是很重要的,确定语 音信号的开始和终止可以减少系统的大量计算,使系统 运行效率得到很大的提高。在比较安静的环境下,仅依 靠短时能量与平均过零率这两个特征参数就可以较好地 完成语音信号的起点判决。但需要指出的是,这两个特 征比较容易受外界噪声的干扰,鲁棒性(orbus)t较差, 当语音信号的信噪比较低时,信号的短时能量和平均过 零率将受到很大的影响。端点检测的两级判断方法:基 于能量的过零率的端点检测一般使用两级判决法, n在开始进行端点检测之前,首先为短时能量和过 零率分别确定两个门限。一个是比较低的门限, 其数值比较小,对信号的变化比较敏感,很容易 就会被超过。另一个是比较高的门限,数

12、值比较 大,信号必须达到一定的强度,该门限才可能被 超过。低门限被超过未必就是语音的开始,有可 能是时间很短的噪声引起的,高门限被超过则可 以基本确信是由于语音信号引起的。整个语音信 号的端点检测可以分为四段:静音、过渡音、语音 段、结束。在静音段,如果能量或过零率超越了 低门限,就应该开始标记起点,进入过渡段。在 过渡段中,由于参数的数值比较小,不能确信是 否处于真正的语音段,因此只要两个参数的数值 都回落到低门限以下,就将当前状态恢复到静音 状态。 n而如果在过渡段中两个参数中的任一个超 过了高门限,就可以确信进入语音段了, 并标记起始点。如果当前状态之前处于语 音段,而此时两个参数的数值

13、降低到底门 限以下,并且持续时间大于设定的最长时 间门限,那么就认为语音结束了,返回到 参数数值降低到底门限以下的时刻,标记 结束点。一些突发性的噪声也可以引起短 时能量或过零率的数值很高,但是往往不 能维持足够长的时间,如门窗的开关,物 体的碰撞等引起的噪声,这些都可以通过 设定最短时间门限来判别。n2.2 特征参数提取n经过前而对语音信号的分析可以导出许多语音特 征参数,这些语音特征参数是分帧提取的,每帧 特征参数构成一个矢量,因此,语音特征是一个 矢量序列。语音信号中提取出来的特征参数经过 数据压缩后便可作为语音的模板。因此,特征参 数的选择对识别性能至关重要,选择的标准要尽 量满足:n

14、(a)能有效的表征语音特性;n(b)各阶参数间有很好的独立性; n(c)特征参数的计算方便简单,最有高效的算法, 以保证识别的实时性要求。nMel频标倒谱系数MFCCnMel频标倒谱系数 (MelFrequeneyCepstrumCoeffieientMFCC)不LPCC 等通过对人的发声机理的研究而得到的声学特征 ,MFCC是受人的听觉系统研究成果推动而导出的 声学特征。该特征是在Mel标度频率域中提取出来 的倒谱参数MFCC的提出基于下列两点研究成果: 首先,人类对单个音调的感知强度近似与该音调 频率的对数成正比。Mel频率表达了这种语音频率 与“感知频率”的对应关系。在Mel频率域内,人

15、对 音调的感知度为线性关系,举例来说,如果两段 语音的Mel频率相差两倍,则人耳听起来两者的音 调也相差两倍。nMel频率与线性频率的转换公式为: 其次,当同时发出两个频率相近的音调时,人只能 听到一个音调。只有当两个频率分量相差一定带宽 时,人类才能将其区分。这个带宽被称为临界带宽 (CritiealBandwidth),其计算公式如下.n这样,我们可以构造临界频带滤波器组 (CritiaclBnadFilterBnak)模仿人耳的感知特性 。这组滤波器的中心频率在Mel频率域内呈线 性分布,其带宽在临界带宽之内。nMFCC参数是先将原始频域信号通过一组临界 频带滤波器组,变换到Mel频率域

16、,然后通过 离散余弦变换转换到倒谱域求得, n 通过对人的听觉机理的研究发现,当两个频率相近的音调同时发 出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主 观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时 ,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对 这一临界带宽的度量方法之一。Mel频率倒谱系数首先是将信号频 谱的频率轴变换为Mel刻度,再变换到倒谱域得到的倒谱系数。其 计算过程如下:n(1)将信号进行短时傅里叶变换得到其频谱。n(2)求频谱幅度的平方,即能量谱,并用一组三角形滤波器在频域 对能量进行带通滤波。这组带通滤波器的中心频率是按Mel频率刻 度均匀排列的(间隔150Mel,带宽30OMel),每个三角形滤波器的 两个底点的频率分别等于相邻的两个滤波器的中心频率,即每两个 相邻的滤波器的过渡带互相搭接,且频率响应之和为l。滤波器的 个数通常与临界带数相近,设滤波器数为M,滤波后得到的输出为 :X(k),k=l,2,Mo3 常用的训练

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号