语音识别基本原理介绍

资源描述

《语音识别基本原理介绍》由会员分享，可在线阅读，更多相关《语音识别基本原理介绍（25页珍藏版）》请在金锄头文库上搜索。

1、语音识别基本原理介绍杜俊提纲语音识别简单回顾基于贝叶斯统计建模的理论框架声学特征声学模型语言模型解码搜索语音识别的难点及其他相关技术介绍语音识别领域发展现状产业界 Nuance：全球最大的语音识别技术提供商 IBM：具有强大数学底蕴的老牌语音识别研究机构 Microsoft：Vista操作系统中首次加入语音识别功能 Google：凭借互联网方面的优势GOOG-411，音乐搜索学术界 Cambridge：HTK工具对学术界研究推动巨大 CMU：SPHINX-李开复 SRI，MIT，RWTH，ATR 语音识别实用化方面的两种论调悲观：缺少杀手级应用，与人类的语音识别水平还

2、有很大差距乐观：Nuance能如此成功，计算机存储和运算能力的不断提高语音识别各种具体应用命令词系统识别语法网络相对受限，对用户要求较严格菜单导航，语音拨号，车载导航，数字字母识别等等智能交互系统对用户要求较为宽松，需要识别和其他领域技术的结合呼叫路由，POI语音模糊查询，关键词检出大词汇量连续语音识别系统海量词条，覆盖面广，保证正确率的同时实时性较差音频转写结合互联网的语音搜索实现语音到文本，语音到语音的搜索从信道传输理论来看语音识别语音识别基本框图语音识别基本原理贝叶斯统计建模框架（MAP/最大后验概率决策准则） Plug-In MAP 声学特征- 通过前

3、端特征提取获得声学模型- 对声学特征进行统计建模语言模型- 对词串进行统计建模解码搜索-通过设计算法得到最优词串声学特征提取示例简单来说，是一个帧序列，而每帧就是一个多维向量声学模型声学单元应该具有的特性一致性：不同语音实例中相同的语音单元在声学上一致可训练性：建模单元需要足够的训练数据来进行参数估计可共享性：不同的建模单元之间共享某些具有共性的训练数据声学单元如何挑选？句子(sentence): 科大讯飞实验室单词(word)：科大-讯飞-实验室单字(syllable)：科-大-讯-飞-实-验-室音素(phone)： k-e-d-a-x-un-f-ei-s

4、h-i-y-an-sh-i 考虑协同发音的三元音素(tri-phone)：ei-sh+i和an-sh+I 精细建模和训练数据量之间的矛盾如何解决？参数绑定声学单元对应的模型形式应该是什么？隐Markov模型（HMM），神经网络（NN）声学模型 Markov过程和Markov链描述了一个最小记忆系统的随机行为隐Markov模型（HMM）: 双重随机过程安德雷安德雷安德耶维齐安德耶维齐马尔可夫马尔可夫声学模型 HMM的几要素观测向量状态集合初始状态概率状态转移矩阵状态输出概率分布声学模型 HMM的两假设一阶Markov假设输出无关假设 HMM的三个问题评估问题给定

5、HMM模型参数以及一串观测序列，如何求得观测序列的似然度解码问题给定HMM模型参数以及一串观测序列，如何搜索出最优的状态序列训练问题给定观测序列，如何得到模型参数声学模型由观测和状态组成的网格声学模型评估问题声学模型评估问题运算量太大，需要寻找快速算法前向算法（Forward Algorithm）声学模型解码问题Viterbi算法声学模型训练问题最大似然估计 EM算法（ Expectation-Maximization Algorithm） Baum-Welch算法/前后向算法（Forward-Backward ） EM算法概述解决什么样的问题存在隐藏或者丢失

6、数据时的参数估计，无法直接获得 1977年由哈佛的A. P. Dempster等人正式提出EM算法具体都有哪些应用语音识别：训练(MLE,MAP)和自适应(MLLR,MAPLR) 信号处理：降噪算法流程是怎样的(迭代过程) E step：根据不完整数据构造完整数据的似然度 M step: 最大化此似然度，得到参数更新 EM算法性质及其扩展递增性和收敛性局部最优扩展算法 ECM： Expectation Conditional Maximization GEM: Generalized Expectation Maximization EM算法在语音识别中的应用单高斯模型的最大似然

7、估计混合高斯模型的最大似然估计为何要用EM 隐藏数据或者隐变量是什么 E步构造辅助函数 M步最大化辅助函数基于混合高斯HMM的最大似然估计 Baum-Welch算法和Forward-Backward算法语言模型 N-Gram语言模型 Uni-gram Bi-gram Tri-gram Context-Free Grammar (CFG) 解码搜索 Viterbi算法时间同步和时间异步搜索空间裁减 N-best和Word-Graph 对于命令词/孤立词识别网络，情况要简化很多对于每条命令词先扩展成HMM序列，然后计算得分选择得分最大的作为识别输出结果语音识别的难点及其他相关技术介绍说话人的差异不同说话人：发音器官，口音，说话风格同一说话人：不同时间，不同状态噪声影响背景噪声传输信道，麦克风频响鲁棒性技术区分性训练特征补偿和模型补偿语音识别的难点及其他相关技术介绍说话人的差异不同说话人：发音器官，口音，说话风格同一说话人：不同时间，不同状态噪声影响背景噪声传输信道，麦克风频响鲁棒性技术区分性训练特征补偿和模型补偿谢谢大家！用正确的方法，做有用的研究！用正确的方法，做有用的研究！

展开阅读全文

语音识别基本原理介绍

最新文档