级语音信号实验

上传人:jiups****uk12 文档编号:39236161 上传时间:2018-05-13 格式:DOC 页数:69 大小:1.57MB
返回 下载 相关 举报
级语音信号实验_第1页
第1页 / 共69页
级语音信号实验_第2页
第2页 / 共69页
级语音信号实验_第3页
第3页 / 共69页
级语音信号实验_第4页
第4页 / 共69页
级语音信号实验_第5页
第5页 / 共69页
点击查看更多>>
资源描述

《级语音信号实验》由会员分享,可在线阅读,更多相关《级语音信号实验(69页珍藏版)》请在金锄头文库上搜索。

1、语音信号处理实验语音信号处理实验实验一实验一 基于基于 MATLAB 的语音信号时域特征分析的语音信号时域特征分析一、实验目的一、实验目的语音信号是一种非平稳的时变信号,它携带着各种信息。在语音编码、语音合成、语 音识别和语音增强等语音处理中无一例外需要提取语音中包含的各种信息。语音信号分析 的目的就在与方便有效的提取并表示语音信号所携带的信息。语音信号分析可以分为时域 和变换域等处理方法,其中时域分析是最简单的方法,直接对语音信号的时域波形进行分 析,提取的特征参数主要有语音的短时能量,短时平均过零率,短时自相关函数等。本实验要求掌握时域特征分析原理,并利用已学知识,编写程序求解语音信号的短

2、时过零率、短时能量、短时自相关特征,分析实验结果,并能掌握借助时域分析方法所求得的参数分析语音信号的基音周期及共振峰。二、实验原理及实验结果二、实验原理及实验结果1.窗口的选择窗口的选择通过对发声机理的认识,语音信号可以认为是短时平稳的。在 550ms 的范围内,语音频谱特性和一些物理特性参数基本保持不变。我们将每个短时的语音称为一个分析帧。一般帧长取 1030ms。我们采用一个长度有限的窗函数来截取语音信号形成分析帧。通常会采用矩形窗和汉明窗。图 1.1 给出了这两种窗函数在帧长 N=50 时的时域波形。020406000.20.40.60.811.21.41.61.82一 一 一sampl

3、ew一 n一020406000.10.20.30.40.50.60.70.80.91hanming一samplew一 n一图1.1 矩形窗和Hamming窗的时域波形矩形窗的定义:一个N点的矩形窗函数定义为如下1,0 0,( )nNw n 其他hamming窗的定义:一个N点的hamming窗函数定义为如下0.54 0.46cos(2),01 0,( )nn NNw n 其他=这两种窗函数都有低通特性,通过分析这两种窗的频率响应幅度特性可以发现(如图1.2):矩形窗的主瓣宽度小(4*pi/N) ,具有较高的频率分辨率,旁瓣峰值大(-13.3dB) ,会导致泄漏现象;汉明窗的主瓣宽 8*pi/N

4、,旁瓣峰值低(-42.7dB) ,可以有效的克服泄漏现象,具有更平滑的低通特性。因此在语音频谱分析时常使用汉明窗,在计算短时能量和平均幅度时通常用矩形窗。表 1.1 对比了这两种窗函数的主瓣宽度和旁瓣峰值。00.10.20.30.40.50.60.70.80.91-80-60-40-200一 一 一 一 一 一 一一 一 一 一 一 (f/fs)一 一 /dB00.10.20.30.40.50.60.70.80.91-100-500Hamming一 一 一 一 一一 一 一 一 一 (f/fs)一 一 /dB图1.2 矩形窗和Hamming窗的频率响应表1.1 矩形窗和hamming窗的主瓣宽

5、度和旁瓣峰值2.短时能量短时能量窗函数主瓣宽度旁瓣峰值矩形窗4*pi/N13.3dBhamming8*pi/N42.7dB由于语音信号的能量随时间变化,清音和浊音之间的能量差别相当显著。因此对语音的短时能量进行分析,可以描述语音的这种特征变化情况。定义短时能量为:,其中 N 为窗长 221 ( ) () ( ) ()nn mm n NEx m w nmx m w nm 特殊地,当采用矩形窗时,可简化为:2( ) n mExm图 1.3 和图 1.4 给出了不同矩形窗和 hamming 窗长的短时能量函数,我们发现:在用短时能量反映语音信号的幅度变化时,不同的窗函数以及相应窗的长短均有影响。ha

6、mming 窗的效果比矩形窗略好。但是,窗的长短影响起决定性作用。窗过大(N 很大) ,等效于很窄的低通滤波器,不能反映幅度 En 的变化;窗过小( N 很小) ,短时能量随时间急剧变化,不能得到平滑的能量函数。在 11.025kHz 左右的采样频率下,N 选为100200 比较合适。短时能量函数的应用:1)可用于区分清音段与浊音段。En 值大对应于浊音段,En 值小对应于清音段。2)可用于区分浊音变为清音或清音变为浊音的时间(根据 En 值的变化趋势) 。3)对高信噪比的语音信号,也可以用来区分有无语音(语音信号的开始点或终止点)。无信号(或仅有噪声能量)时,En 值很小,有语音信号时,能量

7、显著增大。020004000600080001000012000140001600018000-101sample一 一 一 一020004000600080001000012000140001600018000024sample一 一 一 一N=500200040006000800010000120001400016000180000510sample一 一 一 一N=1500200040006000800010000120001400016000180000510sample一 一 一 一N=2500200040006000800010000120001400016000180000102

8、0sample一 一 一 一N=35002000400060008000100001200014000160001800001020sample一 一 一 一N=450020004000600080001000012000140001600018000-101sample一 一 一 一020004000600080001000012000140001600018000012sample一 一 一 一N=50020004000600080001000012000140001600018000024sample一 一 一 一N=15002000400060008000100001200014000

9、16000180000510sample一 一 一 一N=2500200040006000800010000120001400016000180000510sample一 一 一 一N=3500200040006000800010000120001400016000180000510sample一 一 一 一N=450图 1.3 不同矩形窗长的短时能量函数 图 1.4 不同 hamming 窗长的短时能量函数 3短时平均过零率短时平均过零率过零率可以反映信号的频谱特性。当离散时间信号相邻两个样点的正负号相异时,我们称之为“过零”,即此时信号的时间波形穿过了零电平的横轴。统计单位时间内样点值改变

10、符号的次数具可以得到平均过零率。定义短时平均过零率:sgn sgn (1)()n mZx mx mw nm其中为符号函数,在矩形窗sgn1,()0 1,()0sgn( )x n x nx n p条件下,可以简化为11sgn ( )sgn (1)2nn m n NZx mx mN 短时过零率可以粗略估计语音的频谱特性。由语音的产生模型可知,发浊音时,声带振动,尽管声道有多个共振峰,但由于声门波引起了频谱的高频衰落,因此浊音能量集中于 3KZ 以下。而清音由于声带不振动,声道的某些部位阻塞气流产生类白噪声,多数能量集中在较高频率上。高频率对应着高过零率,低频率对应着低过零率,那么过零率与语音的清浊

11、音就存在着对应关系。.图 1.5 为某一语音在矩形窗条件下求得的短时能量和短时平均过零率。分析可知:清音的短时能量较低,过零率高,浊音的短时能量较高,过零率低。清音的过零率为 0.5 左右,浊音的过零率为 0.1 左右,两但者分布之间有相互交叠的区域,所以单纯依赖于平均过零率来准确判断清浊音是不可能的,在实际应用中往往是采用语音的多个特征参数进行综合判决。短时平均过零率的应用:1)区别清音和浊音。例如,清音的过零率高,浊音的过零率低。此外,清音和浊音的两种过零分布都与高斯分布曲线比较吻合。2)从背景噪声中找出语音信号。语音处理领域中的一个基本问题是,如何将一串连续的语音信号进行适当的分割,以确

12、定每个单词语音的信号,亦即找出每个单词的开始和终止位置。3)在孤立词的语音识别中,可利用能量和过零作为有话无话的鉴别。020004000600080001000012000140001600018000-0.500.51sample一 一 一 一02000400060008000100001200014000160001800002468sample一 一 一 一02000400060008000100001200014000160001800000.10.20.30.40.5sample一 一 一 一 一 一 一图 1.5 矩形窗条件下的短时平均过零率4、短时自相关函数、短时自相关函数自相关

13、函数用于衡量信号自身时间波形的相似性。清音和浊音的发声机理不同,因而在波形上也存在着较大的差异。浊音的时间波形呈现出一定的周期性,波形之间相似性较好;清音的时间波形呈现出随机噪声的特性,样点间的相似性较差。因此,我们用短时自相关函数来测定语音的相似特性。短时自相关函数定义为:( )() () () ()n mRkx m w nm x mk w nmk令,并且,可以得到:mnm()( )wmw m1 0( ) ()( ) ()() ()( ) ()()Nkn mmR kx nm w mx nmk w mkx nm w mx nmk w mk 图 6 给出了清音的短时自相关函数波形,图 7 给出了

14、不同矩形窗长条件下(窗长分别为 N=70,N=140,N=210,N=280)浊音的短时自相关函数波形。由图 1.6、图 1.7 短时自相关函数波形分析可知:清音接近于随机噪声,清音的短时自相关函数不具有周期性,也没有明显突起的峰值,且随着延时 k 的增大迅速减小;浊音是周期信号,浊音的短时自相关函数呈现明显的周期性,自相关函数的周期就是浊音信号的周期,根据这个性质可以判断一个语音信号是清音还是浊音,还可以判断浊音的基音周期。浊音语音的周期可用自相关函数中第一个峰值的位置来估算。所以在语音信号处理中,自相关函数常用来作以下两种语音信号特征的估计:1)区分语音是清音还是浊音;2)估计浊音语音信号

15、的基音周期。050100150200250300-0.08-0.06-0.04-0.0200.020.040.060.08050100150200250300-0.1-0.0500.050.1一 一 kR(k)一 一图 1.6 清音的短时自相关函数020406080100120140160180200220-505一 一 kR(k)N=70020406080100120140160180200220-505一 一 kR(k)N=140020406080100120140160180200220-10010一 一 kR(k)N=210020406080100120140160180200220-

16、10010一 一 kR(k)N=280图 1.7 不同矩形窗长条件下的浊音的短时自相关函数5、时域分析方法的应用、时域分析方法的应用1)基音频率的估计首先可利用时域分析(短时能量、短时过零率、短时自相关)方法的某一个特征或某几个特征的结合,判定某一语音有效的清音和浊音段;其次,针对浊音段,可直接利用短时自相关函数估计基音频率,其方法是:估算浊音段第一最大峰的位置,再利用抽样率计算基音频率,举例来说,若某一语音浊音段的第一最大峰值约为 35 个抽样点,设抽样频率为 11.025KHZ,则基音频率为 11025/35=315 HZ。但是,实际上第一最大峰值位置有时并不一定与基音周期吻合。一方面与窗长有关,另一方面还与声道特性有关。鉴于此,可采用三电平削波法先进行预处理

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号