语音端点检测－金锄头文库

资源描述

《语音端点检测》由会员分享，可在线阅读，更多相关《语音端点检测（34页珍藏版）》请在金锄头文库上搜索。

1、精品文档，仅供学习与交流，如有侵权请联系网站删除目录摘要IAbstractII第1章绪论11.1 课题背景11.2 语音端点检测现状11.3 相关工作31.4 本文主要研究内容4第2章语音信号时频域分析及预处理52.1 语音信号简述52.2 语音信号分析52.2.1 时域分析62.2.2 频域分析62.3 语音信号分析处理82.3.1 预加重82.3.2 加窗分帧92.4 本章小结10第3章语音端点检测算法研究113.1 语音端点检测113.1.1 简述113.1.2 语音端点检测原理113.1.3 语音端点检测算法及实施方案133.2 基于短时能量和短时过零率的语音端点检测143.

2、2.1 短时平均能量153.2.2 短时过零率173.2.3 基于短时能量和短时过零率的双门限端点检测193.2.4 双门限语音端点检测实验203.3 基于倒谱特征的语音端点检测213.3.1 倒谱特征213.3.2 倒谱距离223.3.3 倒谱距离的检测算法流程243.3.4 基于倒谱特征的语音端点检测试验分析263.4 基于谱熵的语音端点检测273.4.1 谱熵特征273.4.2 基于谱熵的端点检测流程283.4.4 基于谱熵特征的语音端点检测试验分析293.5 算法比较313.6 本章小结34结论36参考文献37致谢38附录139附录244附录350附录457附录564【精品文档】第

3、页第1章绪论1.1 课题背景语音端点检测在语音识别中占有十分重要的地位。语音信号处理中的端点检测技术,是指从包含语音的一段信号中确定出语音信号的起始点及结束点。是进行其它语音信号处理(如语音识别、讲话人识别等)重要且关键的第一步。进行有效的端点检测能够对语音信号更好的进行分析和训练，这样语音识别才能有好的识别率1。实际运用中，通常要求首先对系统的输入信号进行判断，准确地找出语音信号的起始点和终止点。这样才能采集真正的语音数据，减少数据量和运算量，并减少处理时间。目前，语音技术正进入一个相对成熟点，很多厂商和研究机构有了语音技术在输入和控制上令人鼓舞的演示，输入的硬件和软件平台环境也日益向理

4、想化迈进，但语音技术比起人类的听觉能力来还相差甚远，其应用也才刚刚开始，进一步规范和建设语音输入的硬件通道、软件基本引擎和平台，使语音技术能集成到需要语音功能的大量软件中去。而且语音产业需要更加开放的环境，使有兴趣和实力的企业都能加入到这方面的研究和开发中，逐步改变。随着声控电子产品的不断研发，语音识别技术在开发和研究上还有大量的工作需要做。1.2 语音端点检测现状作为一个完整的语音识别系统，其最终实现及使用的效果不仅仅限于识别的算法，许多相关因素都直接影响着应用系统的成功与否。语音识别的对象是语音信号，端点检测的目的就是在复杂的应用环境下的信号流中分辨出语音信号和非语音信号，并确定语音信号的

5、开始及结束。一般的信号流都存在一定的背景声，而语音识别的模型都是基于语音信号训练的，语音信号和语音模型进行模式匹配才有意义。因此从信号流中检测出语音信号是语音识别的必要的预处理过程2。在识别系统中，语音端点检测可以大量减少信号传输量及识别器的运算负载，对于语音对话的实时识别有重要作用。对非语音信号的识别不仅是一种资源浪费，而且有可能改变对话的状态，造成对用户的困扰。在需要打断（barge-in）功能的系统中，语音的起始点是必须的。在端点检测找到语音的起始点时，系统将停止提示音的播放。完成打断功能。随着语音识别应用的发展，越来越多系统将打断功能作为一种方便有效的应用模式，而打断功能又直接依赖端

6、点检测。端点检测对打断功能的影响发生在判断语音/非语音的过程出现错误时。表现在过于敏感的端点检测产生的语音信号的误警将产生错误的打断。例如，提示音被很强的背景噪音或其它人的讲话打断，是因为端点检测错误的将这些信号作为有效语音信号造成的。反之，如果端点检测漏过了事实上的语音部分，而没有检测到语音。系统会表现出没有反应，在用户讲话时还在播放提示音。语音技术的应用己经成为一个具有竞争性的高新技术产业，它正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理，工业生产部门的语声控制，电话、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨，并

7、且有望成为下一代操作系统和应用程序的用户界面。语音处理内容涉及到计算机科学、模式识别、信号处理、生理学、语音学、心理学等学科，还涉及到信号和信息处理系统、通信和电子系统等具体应用领域。多媒体技术的发展，使语音技术逐渐在越来越多的场合中推广使用，语音信号处理技术发展迅速，其研究成果具有重要的学术及应用价值，涉及一系列前沿课题。语音信号处理与信息科学中最活跃的前沿科学密切联系，并且共同发展。例如，神经网络理论、模糊集理论、小波理论是当前热门的研究领域，这些领域的研究常常把语音处理任务作为一个应用实例，而语音处理研究者也从这些领域的研究进展中找到突破口，使语音处理技术研究取得进展3。从技术角度讲，语

8、音信号处理是信息高速公路、多媒体技术、办公自动化、现代通信及智能系统等新兴领域应用的核心技术之一。经过几十年的努力，语音信号处理在语音识别、语音增强、语音编码、说话人识别、说话人情感识别、语音合成等方面取得了巨大的进步，然而，一旦这些技术应用在实际环境中，由于环境噪声、信道、说话人自身因素等方面的影响，性能急剧下降，因为在实际环境中没有完全纯净的语音信号，一般都会伴有噪声或其它干扰4。例如，办公室环境下，电脑风扇转动的声音，键盘敲打的声音等都是噪声，而语音信号处理系统的处理对象是有效语音信号，即排除了纯噪声段的语音信号段。语音端点检测的任务就是判断待处理信号是语音还是非语音，从输入信号中找到语

9、音部分的起止点。端点检测是语音识别、语音增强以及语音编码等中的一个重要环节。有效的端点检测技术不仅能减少系统的处理时间、提高系统的处理实时性，而且能排除无声段的噪声干扰，从而使后续工作的性能得以较大提高5,6。随着越来越多的学者对语音端点检测技术的关注,大量的新的语音端点检测算法相继被提出，而基于同一种算法又有不同的方法。例如对于熵值参数特征的检测算法，有基于信息熵78、基于自适应子带谱熵9、子带二次谱熵10、基于小波能量熵11、基于样本熵等的方法12。信息愈来愈趋近多样化。同样也有检测不同参数特征相结合来进行语音端点检测13，比如倒谱的方法1415和熵谱相结合而形成的算法16。尽管算法和方法

10、多种多样，都是为了更简便、更易于实现、运算量小、鲁棒性好等特点，并且对于不同的信噪比具有较好的效果。1.3 相关工作随着生活品质的不断提高，对声控产品的要求越来越高。基于语音端点检测的识别系统则有不可替代的作用，在不同的声控产品语音识别系统中，有效准确地确定语音段端点不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的性能。通过大量的文献调研与实际研究发现,现有的各种语音信号端点检测技术都存在各自的不足。对于语音信号在低信噪比时的端点检测的研究有待进一步深入研究。当前，语音端点检测技术还远滞于通信技术发展的脚步，在此领域还有很多问题需要研究。对于强干扰非平稳噪声和快速

11、变化的噪声环境，如何找到更好的端点检测方法是进一步研究的主要方向。提取人耳听觉特性可以更加有效地区分语音和噪声，从而更加准确的检测语音端点。预先未知噪声统计信息条件下的语音端点检测算法已经出现，但仍出去萌芽阶段。虽然预先未知噪声统计信息条件下的端点检测是未来语音端点检测技术的发展方向，但在理论方法和技术参数等方面还有待进一步突破17。根据语音信号的特点可以从两个大的方向入手。一个是努力寻求新的特征参数,再一个是利用现有的特征参数进行多特征融合。这两大问题将是以后研究的主要对象18。1.4 本文主要研究内容第二章，简述了语音信号的一些基础知识，包括预处理、分帧、加窗。分析了语音信号的时域和频

12、域，介绍了几种语音端点检测算法，简述了我的实施方案第三章，从每一种算法的方程式入手，以原理简便、运算量小等方面为标准，通过大量的文献调研与实际研究，本课主题要研究语音起点和终点的检测，以短时能量和短时过零率相结合的双门限语音端点检测算法以及倒谱分析和谱熵技术等进行语音端点检测，并分析各算法在低信噪比和高信噪比条件下的检测效果进行对比。对这种信号进行Matlab进行编程，对于不同信噪比的声音片段，最后用前后的噪声信号进行对比以得出结论第2章语音信号时频域分析及预处理语音信号处理包括语音识别、语音合成、语音编码、说话人识别等方面，但是其前提和基础是对语音信号进行分析。语音端点检测是语音识别系统的

13、前期处理，而语音信号的分析则是语音端点检测的前期处理。2.1 语音信号简述通过对于语音信号发声过程的研究以及观察记录的各种语言的各种语音波形，便可知语音信号的频谱分量主要集中在3003400Hz的范围内。如果用一个防混叠的带通滤波器将此范围的语音信号频谱分量取出，然后按8kHz采样率对语音信号进行采集，就可以得到离散时域的语音信号。为了实现更高质量的语音，编译码器或者是语音识别系统得到更高的识别率，某些近代语音系统将此频率范围扩展到79kHz，相应的采样率也提高到1520kHz。语音信号的另一个重要特点是它的短时性。在默写短时段中它呈现出随即噪声的特性，另一些短时段则呈现出周期信号的特征，其

14、他一些是二者的混合。简而言之，语音信号的特征是随时间变化而变化的。只有在意短段时间间隔中，语音信号才保持相对稳定的特种，者短段时间一般可取为520ms。因此，对于语音信号的分析和处理必须建立在短时的基础上，最重要的语音信号短时特征和短时参数包括他的短时能量、短时过零率、短时相关函数、短时频谱等。语音信号的最基本组成单位是音素。音素可分成浊音和清音两大类。如果将不存在语音而只有背景噪声的情况成为“无声”，那么音素可分成“无声”、“浊音”和“清音”三类。在短时分析的基础上可判断一短段语音属于哪一类。如果是浊语音段，还可测定它的另一些重要参数，如基音和共振峰等。2.2 语音信号分析语音信号处理包括语

15、音识别、语音合成、语音编码、说话人识别等方面，但是其前提和基础是对语音信号进行分析。只有将语音信号分析成表示其本质特性的参数，才有可能利用这些参数进行高效的语音通信，以及建立用于识别的模板或知识库。而且，语音识别率的高低，语音合成的音质好坏，都取决于对语音信号分析的准确性和精度2.2.1 时域分析语音信号本身就是时域信号，因此，时域分析方法是应用最为广泛的一种方法，这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析以及用于语音的分割、预处理等。语音信号的时域参数有短时能量、短时平均幅度、短时过零率、短时自相关函数等，这些是语音信号中一组最基本的短时参数，在各种语音信号数字处理技术中都有重要应用。进行语音信号分析时，最先接触到且最直观的就是它的时域波形。时域分析通常用于最基本的参数分析，语音的分割、预处理和大分类。这种分析方法的特点是：表示语音信号比较直观、物理意义明确；实现起来比较简单、运算量少；可得到语音的一些重要参数；可采用示波器等通用设备进行观测等。取样之后要对信号进行量化，而量化过程不可避免地会产生量化误差，即量化后的信号值与原信号之间的差值。

展开阅读全文