vad、解码、自动录音模块

上传人:今*** 文档编号:106330959 上传时间:2019-10-14 格式:PPT 页数:27 大小:1.34MB
返回 下载 相关 举报
vad、解码、自动录音模块_第1页
第1页 / 共27页
vad、解码、自动录音模块_第2页
第2页 / 共27页
vad、解码、自动录音模块_第3页
第3页 / 共27页
vad、解码、自动录音模块_第4页
第4页 / 共27页
vad、解码、自动录音模块_第5页
第5页 / 共27页
点击查看更多>>
资源描述

《vad、解码、自动录音模块》由会员分享,可在线阅读,更多相关《vad、解码、自动录音模块(27页珍藏版)》请在金锄头文库上搜索。

1、VAD、解码、自动录音,李龙 2015.1.14,模块关系,cfgcategory,pps:试卷解析 arc:自动录音模块 ftr:特征提取模块,提取MFCC特征,用于识别,速度慢 pth:基频提取模块 sftr:特征提取,用于跟踪,速度快 ick:输入检测模块,检测输入语音的能量、有效语音长度、信噪比、截幅比例,以决策出是否存在相应异常 trk:自动跟踪解码 dbf:神经网络 ssp:文本切分 orc:音段识别,用于打分特征 edt:检错,用于打分特征 mcp:打分特征 smp:计算分数 oct:xml,模块关系,判断结尾音素,解码,直接结束,最大静音时长后结束,是,否,Arc模块,cfgc

2、ategory,VAD,VAD,VAD原理,VAD,Voice Activity Detection(端点检测) 目的 从数字语音信号中将语音和各种非语音信号区分开来,确定出语音信号的端点。 意义 减少数据的采集量,节约处理时间; 排除无声段或噪声段的干扰,提高信息质量;,VAD算法分类,基于特征的方法-能量vad 思想:寻找能对语音与噪声具有区分性的特征 特征:能量、子带能量、过零率、基频、熵等 基于模型的方法-模型vad 思想:对语音与噪声分别建模以区分语音时段 建模方法:GMM、HMM、MLP、SVM、Gamma分布等,能量双门限算法,流程图,能量双门限算法,算法示意图,能量双门限算法,

3、算法描述 寻找语音前端点: 当前位置后的X帧内有连续Y帧超过E_Low; 当前位置后的M帧内有连续N帧超过E_High; 寻找语音后端点: 找到低于E_Low的点; 低于E_Low点后的A帧内没有连续B帧超过E_High;,VAD,能量双门限算法,模型vad,模型训练 特征为MFCC等 Speech、Nonspeech两个模型 Hmm 、Gmm 、DNN 计算语音每帧的后验概率 得到每帧语音是Speech的概率; 模型决策 最终判定 与能量vad的四种状态跳转类似,解码,解码原理,解码,解码(Decoding):用特定方法把数码还原成它所代表的内容或将电脉冲信号、光信号、无线电波等转换成它所代

4、表的信息、数据等的过程。,在语音领域,语音识别就是解码。物理意义:对于输入语音,算出概率最高的词序列。,问题,解码器就是将语音信号识别成相应的文字信息的模型算法,HMM,HMM:可以用五个元素来描述,包括2个状态集合和3个概率矩阵。 1. 隐含状态 S 2. 可观测状态 O 3. 初始状态概率矩阵 4. 隐含状态转移概率矩阵 A。 5. 观测状态输出概率矩阵B。,HMM,晴天(0.4),下雨(0.6),散步,购物,清理,0.6,0.7,0.4,0.3,0.6,0.3,0.1,0.1,0.4,0.5,HMM解码(维特比解码),一个例子: 想象一个乡村诊所。村民有着非常理想化的特性,要么健康要么发

5、烧。他们只有问诊所的医生的才能知道是否发烧。 聪明医生通过询问病人的感觉诊断他们是否发烧。村民只回答他们感觉正常、头晕或冷。 假设一个病人每天来到诊所并告诉医生他的感觉。医生相信病人的健康状况如同一个离散马尔可夫链。病人的状态有两种“健康”和“发烧”,但医生不能直接观察到,这意味着状态对他是“隐含”的。每天病人会告诉医生自己有以下几种由他的健康状态决定的感觉的一种:正常、冷或头晕。这些是观察结果。 整个系统为一个隐马尔可夫模型(HMM)。 医生知道村民的总体健康状况,还知道发烧和没发烧的病人通常会抱有什么症状。 换句话说,医生知道隐马尔可夫模型的参数。,HMM解码(维特比解码),构建医生看病的HMM模型:,HMM解码(维特比解码),一个问题: 病人连续三天看医生,医生发现第一天他感觉正常,第二天感觉冷,第三天感觉头晕。 于是医生产生了一个问题:怎样的健康状态序列最能够解释这些观察结果。,?,HMM解码(维特比解码),医生看病流程(维特比解码):,NORMAL,COLD,DIZZY,维特比解码,维特比解码,最小建模单位:音素,a,b,c,发音的三个状态,a,b,c,解码,解码网络,维特比解码,ARC模块,判断结尾音素,解码,直接结束,最大静音时长后结束,是,否,Arc模块,VAD,谢谢!,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号