声音识别模型

上传人:公**** 文档编号:495263862 上传时间:2023-09-15 格式:DOC 页数:35 大小:1.21MB
返回 下载 相关 举报
声音识别模型_第1页
第1页 / 共35页
声音识别模型_第2页
第2页 / 共35页
声音识别模型_第3页
第3页 / 共35页
声音识别模型_第4页
第4页 / 共35页
声音识别模型_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《声音识别模型》由会员分享,可在线阅读,更多相关《声音识别模型(35页珍藏版)》请在金锄头文库上搜索。

1、声音识别模型的建立与评价摘 要本文选取合适声音特征参数设计一个声音识别模型, 并给出了具体的建立方案,然后还要对建立的模型进行优化提高识别准确度。对于问题一 , 首先对声音信号进行了试听, 然后利用 Matlab 绘制了声音波形如图一、图二所示,通过两类声音进行比较和分析。得出两类声音如下区别:非正开门声的幅值明显比正常高, 说明非正常开门声响声大, 而且非正常声音持续的时间远比正常的要长。对于问题二,首先对声音信号的短时平均能量和短时过零率这两个时域特征进行分析如图三和图四所示。 然后对 Mel 倒谱系数( MFCC )这一频域特征进行了分析如图八所示,并且通过 Mel 倒谱系数( MFCC

2、 )建立了一个 13 维的特征向量如附件一所示。对于问题三,利用上一问中提取的 Mel 倒谱系数这一重要特征, 经过训练后,建立了基于 MFCC 和 GMM 声音识别模型如图九所示, 然后随机选取一段声音信号进行测试,测试结果如图十一所示, 从图中可以看出此模型能够区分正常与非正常声音。对于问题四,我们利用主成分分析法建立了特征向量优化模型如式33 所示,得出声音的两个主要特征是短时平均能量和MFCC ,然后在上面的声音识别模型中加入了短时平均能量这一时域特征向量,最后对优化后的声音识别模型进行检验,发现优化后的模型识别准确率有了进一步的提高。对于问题五,首先按照题目的要求,利用Matlab

3、中的随机函数 rand 产生一个噪声加入到声音信号中, 得到了加噪后的声音时域和频域的波形图如图十三和图十四所示。然后设计了基于双线性变换法的Butterworth 滤波器模型,通过此滤波器模型对加噪后的声音进行滤波,得到的时域和频域波形图如图十五和图十六所示。比较滤波前后可以看出噪声基本能被过滤掉,设计的 Butterworth 滤波器有明显的的滤波效果。本文综合考虑了各个方面,建立了符合条件的声音识别模型,采用 Matlab 编程的方法,求得的结果完全满足题目的要求,并有一定的实际应用价值。关键词 :Mel 倒谱系数GMM主成分分析法Butterworth 滤波器1一、问题重述随着科技的发

4、展,人类步入了家居智能化的新时代。 智能冰箱、智能清洁机器人、智能电视等已逐步走进平常百姓家, 智能家居已成为了必然趋势, 但智能化的防盗门仍然处于研发阶段, 要实现家居智能化这个问题亟待解决。 随着人们对家居安全意识的不断增强, 对防盗、防抢和防砸的门禁系统的智能性提出更高的要求,所以研发一种安全可靠经济的智能门禁系统是时代。 基于此,对正常和非正常开门(指盗窃开门等声音) 的声音进行识别是智能防盗门的关键问题和技术,其具有广泛的应用前景和实用价值。为了进行声音识别模型的建立, 我们采集到了正常和非正常开门的声音, 各 40 次开门声音数据。该数据可利用 Matlab 的 load 函数载入

5、到计算机内存,内存中变量有 Fs和 y 等变量,其中 Fs 为采样频率, y 为采样数据。根据这些数据我们对下面的几个问题进行分析。问题一:利用 Matlab 中的 sound 函数,播放声音信号进行试听,利用 plot 函数绘制出具体的声音波形图,比较并总结正常与非正常声音的区别。问题二:利用合适的时域或(和)频域特征表达单个声音信号,建立特征向量,写出提取特征向量的具体方法和程序代码。问题三:建立声音识别模型(二分类模型) ,利用模型区分正常和非正常声音,评价模型的好坏。问题四:利用特征选择或变换, 对特征向量进行优化, 并利用参数优化技术优化模型的参数,使识别模型的准确率提高。问题五:若

6、原始声音信号中有环境噪声(如白噪声),设 y 中叠加了一定幅值的白噪声(利用 y1y0.150.3 rand size ymax y 叠加噪声),提出合适的方法对声音进行前期处理。二、问题假设1、假设所取样本均是全真模拟,样本可靠。2、忽略其他与开门无关的声音。3、忽略较小的系统误差和客观误差。4、忽略声音识别模型的其他因素对模型的影响。三、符号说明MFCC -倒谱系数Fs -采样频率LPC -线性预测系数LPCC -LPC 倒谱系数GMM -高斯混合模型EM -期望最大化Estep -EM 算法第 E 步Mstep-EM 算法第 M 步2四、问题引入与分析4.1 问题背景的理解随着全球化 ,

7、 网络化 , 数字化 , 信息化时代的到来 , 计算机已经成为人们生活中不可缺少的一部分。 。因此 , 近年来 , 一些研究人员已提出用音频分析进行监视的应用。相对于视频监控系统 , 基于声音识别技术的音频监控具有很多优点。4.2声音的特征提取以及识别声音信号的特征主要有幅度 ( 或功率 ) 、过零率、邻界带特征矢量、线性预测系数特征矢量 ( LPC ) 、 LPC 倒谱特征矢量 ( LPCC ) 、 Mel 倒谱参数 ( MFCC ) 等等,描述声音信号的特征如此之多, 我们应该选择合理的特征参数对声音进行分析便于我们建立一个合理的声音识别模型。4.3模拟声音的前期处理附件中的声音信号已经经

8、过了去噪处理, 我们要实现模拟声音的前期处理就必须先要给声音加一段噪声,用 Matlab 给声音加一段噪声根据题目要求选择最简单的 rand 函数产生高斯分布序列。而去噪的方法有很多经过查阅资料选用基于双线性变换法的Butterworth 滤波器对声音进行去噪处理,这种方法简单可靠。五、模型建立及求解5.1问题一本问题需要我们利用 Matlab 中的 sound 函数,播放出附件中所给的声音信号,并利用 plot 函数绘制出具体的声音波形图, 通过对声音的试听和波形图的分析比较并总结正常声音与非正常声音的区别。5.11声音信号的试听与分析运行 Matlab,把附件中的声音文件加载到 Matla

9、b 中。编写程序调用 sound 函数播放附件中 80 段声音信号。从试听中可以明显的听到非正常声音比正常生音更响,而且非正常声音持续的时间更长。5.12声音波形图的绘制与分析运行 Matlab ,编写绘制波形图的程序如附录 1 所示。绘制出波形图如图一和图二所示。3图一 几段正常开门声音波形图图二 几段非正常开门声音波形图通过对图一和图二的比较分析可以看出, 非正常声音的幅度明显比正常声音高几倍,而且非正常声音持续的时间远比正常的要长。5.13小结通过对声音信号的试听与声音波形图的绘制, 进而对正常开门声与非正常开门声音进行比较和分析。 不难得出正常与非正常开门声有明显的的不同: 非正常开门

10、声更加的嘈杂,开门弄出的动静更大持续的时间更长。5.2问题二本问题需要我们用频域特征表达单个声音信号,建立并提取相关的特征向量。5.21特征的选取声音信号的特征向量一般分为两类: 第一类为时域特征向量, 通常将帧声音信号的各个时域采样值直接构成一个向量。 第二类为变换域特征向量, 即对一帧声音信号进行某种变换后产生的特征向量。 前者的优点在于计算简单, 缺点是不能压缩维数且不适于表征幅度谱特性。 与此对应,各种变换域特征向量的计算比较复杂,但能从不同的角度反映幅度谱的特征。声音信号的特征主要有:幅度 ( 或功率 ) 、过零率、邻界带特征矢量、线性预测系数特征矢量 ( LPC ) 、 LPC 倒

11、谱特征矢量 ( LPCC ) 、 Mel 倒谱参数 ( MFCC ) 前三个共振峰 F1, F 2, F 3 。5.22时域特征的选取对信号分析最直接最自然的方法是以时间为自变量进行分析。 假设连续音频信号 x 经过预处理后得到 K 个采样点 x n 1 n K ,在特征提取时,认为每个采样点包含了该时刻音频信号的所有信息, 因此可以从采样点 x n 中提取特征, 而不需要做进一步的处理。在对音频信号的时域特征进行分析时, 将 x n 序列放入二维坐标平面, 横坐标表示时间, 纵坐标表示 x n 的值。在此坐标平面上考察音频信号的短时平均能量、短时过零率等时域特征。41. 短时平均能量音频信号

12、的能量随着时间的变化比较明显。 短时平均能量是指一个音频帧内采样点信号聚集的平均能量, 它可以较好的反映音频信号幅度随时间的变化, 如图三 所示。假设音频信号采样后被分割为 M 个音频帧 , 每帧包含 N 个采样点,帧间间隔为二分之一帧长。短时平均能量的定义为:12(1)Emx n w n mN式中 Em 表示第 m 个音频帧信号的平均能量,xn 表示第 m 个音频帧中第 n 个采样点的值, w n 为窗函数。短时平均能量主要应用如下:1. 在语音信号中, 由于浊音的能量比清音的能量大得多, 可以利用短时平均能量来区分清音和浊音;2. 可以设定一个阈值,根据短时平均能量来区分静音段与分非音段、

13、以及对连字分界等;3. 音频信号的短时能量可以作为特征向量的一维参数应用在音频检索系统中。图三 短时平均能量分析2. 短时过零率短时过零率是指每帧内信号通过零值的次数,如图四所示。对于连续信号,它可以考察时域波形通过时间轴的情况, 对于离散信号, 它实质上就是信号采样点符号变化的次数。 由于采样频率是固定的, 因此过零率在一定程度上可以反映频率的信息。短时过零率的计算公式为:1sgn x n sgn x n 1w n m(2)Zm2m式中 Zm 表示第 m 个音频帧的短时过零率, xn 表示第 m 个音频帧中第 n 个采样点的值, w n 为窗函数, sgn 是符号函数定义如下:1, x n1sgn x n11, x n将短时过零率和短时能量结合起来可以用于语音的端点检测 3 。若语音信号存在较大的背景噪声, 使用短时过零率能起到较好的检测效果; 若语音信号存在较小的背景噪声, 短时能量的检测效果更佳。 因此,语音识别系统在前端使用这两个特

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 幼儿/小学教育 > 幼儿教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号