高级第7章深度学习基础算法建模（75语音与深度学习）ppt课件

资源描述

《高级第7章深度学习基础算法建模（75语音与深度学习）ppt课件》由会员分享，可在线阅读，更多相关《高级第7章深度学习基础算法建模（75语音与深度学习）ppt课件（48页珍藏版）》请在金锄头文库上搜索。

1、第0页PANTONE 186CRGB 200/16/46PANTONE 185CRGB 199/0/11品牌色RGB 234/90/79RGB 120/0/15辅助色RGB 248/181/60RGB 235/92/1RGB 137/137/137RGB 35/24/21RGB 221/221/221RGB 233/140/128RGB 159/0/1RGB 245/220/87RGB 240/133/0RGB 181/181/181RGB 89/87/87RGB 255/255/255第第7章章深度学深度学习基基础算法建模算法建模第1页PANTONE 186CRGB 200/16/46PA

2、NTONE 185CRGB 199/0/11品牌色RGB 234/90/79RGB 120/0/15辅助色RGB 248/181/60RGB 235/92/1RGB 137/137/137RGB 35/24/21RGB 221/221/221RGB 233/140/128RGB 159/0/1RGB 245/220/87RGB 240/133/0RGB 181/181/181RGB 89/87/87RGB 255/255/255目录目录1.深度学习概述深度学习概述2.常见深度学习算法常见深度学习算法3.计算机视觉与深度学习计算机视觉与深度学习4.自然语言处理与深度学习自然语言处理与深度学习5.

3、语音与深度学习语音与深度学习第2页PANTONE 186CRGB 200/16/46PANTONE 185CRGB 199/0/11品牌色RGB 234/90/79RGB 120/0/15辅助色RGB 248/181/60RGB 235/92/1RGB 137/137/137RGB 35/24/21RGB 221/221/221RGB 233/140/128RGB 159/0/1RGB 245/220/87RGB 240/133/0RGB 181/181/181RGB 89/87/87RGB 255/255/255语音与深度学习语音与深度学习l近年来，深度学习技术正在以爆发式的速度蓬勃发展，使

4、得语音识别和语音合成的正确率在以往传统系统的基础上有较大幅度上升。l随着并行计算基础设施的发展和移动互联网大数据的产生，深度学习技术的影响进一步交叠扩大，目前已经成为业界前沿技术。第3页PANTONE 186CRGB 200/16/46PANTONE 185CRGB 199/0/11品牌色RGB 234/90/79RGB 120/0/15辅助色RGB 248/181/60RGB 235/92/1RGB 137/137/137RGB 35/24/21RGB 221/221/221RGB 233/140/128RGB 159/0/1RGB 245/220/87RGB 240/133/0RGB 18

5、1/181/181RGB 89/87/87RGB 255/255/255语音识别语音识别l语音识别系统通常由声学特征提取及处理、声学模型、语言模型和解码器等几个模块构成。l从原始语音数据中提取得到的声学特征经过统计训练得到声学模型。然后以该声学模型作为识别基元的模板，结合语言模型，经过解码器处理输出相应的识别结果。第4页PANTONE 186CRGB 200/16/46PANTONE 185CRGB 199/0/11品牌色RGB 234/90/79RGB 120/0/15辅助色RGB 248/181/60RGB 235/92/1RGB 137/137/137RGB 35/24/21RGB 22

6、1/221/221RGB 233/140/128RGB 159/0/1RGB 245/220/87RGB 240/133/0RGB 181/181/181RGB 89/87/87RGB 255/255/255语音识别语音识别语音特征提取语音特征提取声学特征是描述声学信号特性的重要参数，只有提取到能描述信号本质的信息才可能将这些信息应用于高效的模式识别处理，如分类、回归等。就语音识别而言，由于不同人之间存在性别、年龄和发音习惯等方面差异，同时生理和心理情况等也随时间不断变化，导致人们尽管在表达相同内容时，产生的语音信号始终会存在或多或少的差别。如何将声学特征中与说话人相关的个性部分尽可能过滤掉，

7、同时尽量保留表达相同内容的共性，这对于语音识别性能的提升至关紧要。声学特征声学特征第5页PANTONE 186CRGB 200/16/46PANTONE 185CRGB 199/0/11品牌色RGB 234/90/79RGB 120/0/15辅助色RGB 248/181/60RGB 235/92/1RGB 137/137/137RGB 35/24/21RGB 221/221/221RGB 233/140/128RGB 159/0/1RGB 245/220/87RGB 240/133/0RGB 181/181/181RGB 89/87/87RGB 255/255/255语音识别语音识别语音特征提

8、取语音特征提取l声学特征的提取既是对原始波形信号进行压缩的过程，同时也是对信号进行解卷积的过程。l由于语音信号是短时平稳信号在较短时间内（普遍认为1030ms范围内）其信号特性能够保持相对稳定，故对语音信号的特征提取必须建立是在短时分析的基础上。传统语音特征提取语音识别中传统语音特征提取方法包括：线性预测系数LPC、倒谱系数CEP、梅尔频率倒谱系数MFCC和感知线性预测系数PLP等。第6页PANTONE 186CRGB 200/16/46PANTONE 185CRGB 199/0/11品牌色RGB 234/90/79RGB 120/0/15辅助色RGB 248/181/60RGB 235/92

9、/1RGB 137/137/137RGB 35/24/21RGB 221/221/221RGB 233/140/128RGB 159/0/1RGB 245/220/87RGB 240/133/0RGB 181/181/181RGB 89/87/87RGB 255/255/255语音识别语音识别语音特征提取语音特征提取l线性预测从人的发声机制出发考虑，以声道短管级联模型为基础，假定时刻的信号可以通过之前若干时刻信号的线性组合来表征。p当实际说话者语音的采样值和线性预测估计值之间的均方误差达到最小值时，即可提取得到线性预测系数。l倒谱系数p基于同态处理方法，能够通过先求语音信号的离散傅里叶变换（D

10、iscrete Fourier Transform，DFT）后，再对离散频谱取倒数，最后求反傅里叶变换（Inverse Discrete Fourier Transform，IDFT）得到倒谱系数。p这种求倒谱系数的方法能够提取到相对稳定的特征参数。第7页PANTONE 186CRGB 200/16/46PANTONE 185CRGB 199/0/11品牌色RGB 234/90/79RGB 120/0/15辅助色RGB 248/181/60RGB 235/92/1RGB 137/137/137RGB 35/24/21RGB 221/221/221RGB 233/140/128RGB 159/0

11、/1RGB 245/220/87RGB 240/133/0RGB 181/181/181RGB 89/87/87RGB 255/255/255语音识别语音识别语音特征提取语音特征提取l不同于线性预测系数和倒谱系数，梅尔倒谱系数和感知线性预测系数在一定程度上参考了人耳感知音频信号的机理，在频域进行解卷积而得到的声学特征。l梅尔频率倒谱系数MFCCp提取MFCC特征，需要首先采用将信号从时域映射到频域上，而后再用一组在Mel频域刻度均匀分布的三角滤波器对其对数能量谱进行卷积，最后用离散余弦变换的方法对滤波器组的输出进行处理，保留前面若干个系数，才能得到特征。l感知线性预测系数PLPpPLP只需要D

12、uibin法计算得到相应的参数后，再在计算自相关系数时通过对数能量谱的离散余弦变换就能得到特征。第8页PANTONE 186CRGB 200/16/46PANTONE 185CRGB 199/0/11品牌色RGB 234/90/79RGB 120/0/15辅助色RGB 248/181/60RGB 235/92/1RGB 137/137/137RGB 35/24/21RGB 221/221/221RGB 233/140/128RGB 159/0/1RGB 245/220/87RGB 240/133/0RGB 181/181/181RGB 89/87/87RGB 255/255/255语音识别语音

13、识别语音特征提取语音特征提取基于深度学习的自动编码器的语音特征提取深度自动编码器是一种特殊类型的深度神经网络，网络的输入层和输出层有相同的维度，它所期望得到的输出维度即为网络原始输入维度。由于固定了模型的输入和输出，深度自动编码器提供了从原始数据分布空间映射到自身特征空间的可逆转换，深度自动编码器本质上可以看作是对信号的分解重构。第9页PANTONE 186CRGB 200/16/46PANTONE 185CRGB 199/0/11品牌色RGB 234/90/79RGB 120/0/15辅助色RGB 248/181/60RGB 235/92/1RGB 137/137/137RGB 35/24/

14、21RGB 221/221/221RGB 233/140/128RGB 159/0/1RGB 245/220/87RGB 240/133/0RGB 181/181/181RGB 89/87/87RGB 255/255/255语音识别语音识别语音特征提取语音特征提取l深度自动编码器不仅可以学习到高效的编码方法，还可以提取原数据在隐含层的表示形式，即特征提取。它不需要预先知道训练样本的类别信息，以原始输入作为校验，是一种无监督特征学习方法从而实现对海量未标注数据的处理。l典型的自动编码器包含一个输入层（与原始数据相对应）、一个或多个隐含层（完成特征转换）和一个输出层。特别地，当中间隐含层多于一层时

15、，即可称为深度自动编码器。当用于特征压缩时，隐含层的节点数比输入层少。当需要把特征映射到高维空间时，则隐含层节点数多于输入层节点数。第10页PANTONE 186CRGB 200/16/46PANTONE 185CRGB 199/0/11品牌色RGB 234/90/79RGB 120/0/15辅助色RGB 248/181/60RGB 235/92/1RGB 137/137/137RGB 35/24/21RGB 221/221/221RGB 233/140/128RGB 159/0/1RGB 245/220/87RGB 240/133/0RGB 181/181/181RGB 89/87/87RG

16、B 255/255/255语音识别语音识别语音特征提取语音特征提取目前主要的基于深度学习理论的编码器深度自动编码器（Deep Auto-encoder，DAE）去噪自动编码器（Denoising Auto-encoder，DAE）稀疏自动编码器（Sparse Auto-enoder，SAE）第11页PANTONE 186CRGB 200/16/46PANTONE 185CRGB 199/0/11品牌色RGB 234/90/79RGB 120/0/15辅助色RGB 248/181/60RGB 235/92/1RGB 137/137/137RGB 35/24/21RGB 221/221/221RGB 233/140/128RGB 159/0/1RGB 245/220/87RGB 240/133/0RGB 181/181/181RGB 89/87/87RGB 255/255/255语音识别语音识别语音特征提取语音特征提取l常见深度学习自编码器算法算法类别简介介深度自动编码器深度自动编码器是以原始数据作为网络输入，通过若干个隐含层的编码得到中间层特征表示，再通过对若干个隐含层的解码得到在输出层

展开阅读全文