语音情感识别算法中新型参数研究

资源描述

《语音情感识别算法中新型参数研究》由会员分享，可在线阅读，更多相关《语音情感识别算法中新型参数研究（7页珍藏版）》请在金锄头文库上搜索。

1、语音情感识别算法中新型参数研究余华章勤杰赵力江苏开放大学东南大学信息科学与工程学院摘要：语音情感识别是实现智能人机交互的关键技术之一。然而, 用于语音情感识别的语音情感特征十分有限。为此, 提出一种新型的语谱图显著性特征来改善语音情感识别效果。识别算法利用选择性注意模型获取语音信号语谱图像的显著图, 并从中提取显著性特征, 结合语音信号传统的时频特征构成语音情感识别特征向量。最后, 利用 KNN 分类方法进行语音情感识别。实验结果表明, 加入显著性特征后识别率有明显提升。关键词：语音情感识别; 显著性特征; KNN 分类; 作者简介：余华 (1963-) , 女, 江苏开放大

2、学教授, 研究方向为情感信息处理、电子与通信。收稿日期：2017-05-08基金：国家自然科学基金项目 (61673108) Practical Speech Emotion Recogniton Algorithm ResearchYU Hua ZHANG Qinjie ZHAO Li Jiangsu Open University; School of Information Engineering, Southeast University; Abstract： Speech Emotion recognition is one of the key technologies of in

3、telligent human-computer interaction.However, the speech emotion feature for speech emotion recognition is very limited. Therefore, a new spectrogram of significant features is proposed to improve speech emotion recognition effect. Using selective attention model to obtain significant speech signal

4、spectral image of the language, and extract significant features, recognition algorithm combined with the frequency characteristics of the speech signal constitutes the traditional speech emotion recognition feature vectors. Finally, we use KNN classification method for speech emotion recognition. E

5、xperimental results show that adding significant feature recognition rate has improved significantly.Keyword： speech emotion recognition; significant features; KNN classification method; Received： 2017-05-08当今世界科技水平高速发展, 人们也对计算机提出了更多要求。在智能人机交互系统构建中, 语音情感识别已成为关键技术之一。对语音信号的情感分析, 使得人机交互更加流畅1-2。智能人机交互系统

6、通过对操作者的情感进行分析, 可以更主动、更准确的去完成操作者的指示, 并实时调整对话的方式, 使交流变得更加友好、和谐和智能3。此外对单调的、高强度的任务中, 执行人员的某些负面情绪监测具有使用价值。因此, 对语音信号情感识别的研究仍具有重要意义。本文针对语音情感识别中特征参数的构造问题, 提出基于语音信号语谱图的新型特征参数提取方法, 并用于构建语音情感识别算法。算法利用语谱图像的显著性特征提取用于情感识别的特征参数, 构建情感识别特征参数向量, 最后利用 KNN 分类算法建立语音情感识别算法。1 语音情感识别方法语音信号是一种典型的非平稳信号。但是, 由于语音的形成过程是与发音器官的运动

7、密切相关的, 这种物理运动比起声音振动速度来要缓慢的多, 因此语音信号常常可假定为短时平稳的, 即在 10 ms30 ms 这样的时间段内, 其频谱特性和某些物理特征参量可近似地看作是不变的。这样就可以采用平稳过程的分析处理方法来对其进行处理。语音信号的特征计算都是以帧为单位进行的。一般来说, 语音中的情感特征往往通过语音韵律的变化表现出来。例如, 当一个人发怒的时候, 讲话的速率会变快, 音量会变大, 音调会变高等, 这些都是人们直接可以感觉到的。因此在语音情感识别中, 韵律特征起着非常重要的作用, 而韵律特征往往用语音的时域特征表示。进行语音情感识别时, 首先要对输入的语音数据进行预处理,

8、然后计算特征参数, 再利用特定的模式匹配算法把这些特征参数与语音信息库中的标准情感语句的参数相匹配, 最后得到语音的情感类型。语音情感识别的整体流程如图 1 所示。图 1 语音情感识别流程图下载原图2 传统情感语音信号的时域特征语音信号具有短时平稳性。语音信号经过与处理之后, 进行加窗分帧处理, 能够有效利用语音信号的短时平稳性进行特征提取和分析。把原始的语音信号与特定的窗函数 w (n) 相乘得到加窗语音信号 xw (n) =x (n) w (n) 。用 En表示第 n 帧语音信号 xn (m) 的短时能量, 定义:从 En的表达是可以看出, 当语音信号中存在一个较高的采样值时, 这个异

9、值会使得短时能量很高, 造成一定的误导。为了消除这中噪声敏感的特性, 我们用短时平均幅度函数 An来刻画信号幅值的变化, 其计算公式如下:从短时能量和短时平均幅度两者的计算公式可以看出, 前者对于信号的最值反应很敏感, 单个的采样结果对最终的短时能量的影响突出;而后者这种敏感性较低。定义语音信号 xn (m) 的短时过零率 Zn为:式中:sgn是符号函数。相关分析经常会在信号的时域分析中用到, 有自相关和互相关的分别。我们主要讨论自相关函数。定义第 n 帧语音信号 xn (m) 的短时自相关函数为:Rn (k) 不为零的范围为 k= (-N+1) (N-1) , 为偶函数。3 情感语音信号语谱

10、图的显著性特征提取本文将普遍存在于人类感知领域中的听觉和视觉选择性注意机制引入到情感语音的特征提取当中。利用选择性注意模型4,7对语音信号的语谱图像进行显著性分析。模型首先将图像进行分解, 提取视觉特征 (颜色、强度和方向) , 并进行中心周围差和归一化运算得到各特征图;将个尺度的特征度跨尺度融合得到各通道的关注图;最后将个关注图跨通道合并得到显著图。分析情感语音语谱图像的显著图, 提取特征参数用于情感识别。3.1 显著图计算首先对图像进行分解, 得到不同尺度的图像, 这过程称为对尺度滤波。通过将图像与线性分解高斯核 (66 的高斯核1, 5, 10, 10, 5, 1/32) 进行卷积运算来

11、完成分解, 这也被形象的称为高斯金字塔分解。各层高斯金字塔分解图像之间的关系可用如式 (5) 表示:式中: 为层数、I () 代表第层卷积分解图像。根据卷积结果算出各层上的分解图像。之后, 在不同尺度的的图像上提取图像的颜色、亮度和方向特征, 分别形成颜色、亮度和方向金字塔序列图像。3.1.1 颜色特征高斯金字塔分解图r、g、b 分别表示一幅彩色图像中红、绿、蓝分量值, 根据德国生理学家赫林提出的拮抗色学说, 用 R-G 和 B-Y 的拮抗作用来模表示颜色信息对最终显著图的贡献, 这两对颜色对相应的高斯金字塔分解图像由如下公式算得:式中:P R-G () 和 PB-Y () 分别表示 R-G

12、和 B-Y 颜色对在对应尺度图像上的高斯金字塔分解图。3.1.2 亮度特征高斯金字塔分解图模型中的亮度特征通道的高斯金字塔分解图像可以简单地由图像的 r、g、b 分量的平均值来表示:式中:P I () 表示在相应尺度上的高斯金字塔分解图像。3.1.3 方向特征高斯金字塔分解图图像的方向特征可以通过二维 Gabor 方向滤波器来提取。Gabor 滤波器与人类视觉系统中简单细胞的视觉刺激响应非常相似, 可以很好的模拟视网膜感受野方向选择的机制。将滤波器与相应尺度的图像进行卷积得到方向通道的高斯金字塔分解图。不同尺度上, 不同方向角度的方向特征高斯金字塔分解图即可由上式计算出来。得到各特征通道

13、的子关注图像之后, 经过一定的合并策略将这些子关注图合并成 3 个通道对应的关注图:颜色关注图、亮度关注图与方向关注图, 将这 3 幅关注图求和平均后即得到最终的显著图像。3.2 显著图分析根据上述的显著图计算方法, 我们对不同情感语音信号语谱图对应的显著图进行分析。分析结果如表 1。表 1 各情感类型显著图灰度级分布比例下载原表从表 1 可以看出, 3 种情感语音信号显著图的 0150 灰度级所占比例均在 90%以上, 说明各情感显著图的灰度大部分都集中在 0150 这个范围内。为了体现各情感语音信号显著图间的差异, 我们选取 0100 灰度范围所占比例作为衡量灰度级分布的参数用于情感识

14、别。显著图中较为明亮的部分对应于语谱图中有效谱线对应的部分, 能量越高的部分对应于显著图中越明亮的部分。基于这样的一个事实我们对显著图进行一些处理, 划分出两类面积:一类是语谱图中有效谱线对应的面积, 我们用 Sv表示;一类是语谱图在显著图中比较突出的部分对应的面积, 我们用 Sh表示。显著图中 Sv和 Sh对应关系如图 2 所示。图 2 显著图中 Sv (a) 和 Sh (b) 对应的图像下载原图将 Sh和 Sv的比值 Ss作为显著图第 2 参数, 并将其用于后续的情感识别算法中。4 实验结果分析本文的情感识别算法采用语音信号传统时域特征和语谱图显著性特征相结合的方法构建特征参数向量。所采

15、用的特征参数向量包括:语谱图显著图灰度分布参数、显著图面积比参数、能量、幅度、过零率和基音频率这 6 种参数作为识别模型的特征参数向量进行识别。实验中我们使用到的情感语音信号四名录制者 (男女各两名) , 语音内容为 20句不同的话语, 每位录制者分别对这 20 句话用不同的情感表达, 采用专业的录音工具录制而得。每种情感含有 80 个样本语音, 每个语音样本的采样率为 11 025 Hz, 以 16 bit、“.wav”的格式保存于 PC 机中。从录制完的语音情感库中每种情感选取 120 个样本作为训练样本集, 也即标本库。选取剩余 120 句作为测试样本集, 也即待测库。识别测试中我们使用

16、 KNN 分类算法进行识别8。并对仅使用四维时域特征 (基频、能量、幅度和过零率) 和使用六维特征 (加入两个显著图参数:显著图分布参数和显著图面积比) 两种情况下的识别率进行对比。4.1 四维特征识别率和六维特征识别结果对比在不使用显著性参数的情况下, 构建四维特征参数向量进行情感识别。各情感及不同分类算法的识别结果如表 2 所示。在特征参数向量中加入显著图参数, 构建六维特征参数向量进行情感识别。各情感及不同分类算法的识别结果如表3 所示。表 1 四维特征识别结果下载原表表 2 六维特征识别结果下载原表 4.2 实验结果分析从以上四维和六维特征的识别结果可以看出:加入显著图特征参数之后, 算法的情感识别率均有所提升, 各情感的识别率均在 80%左右, 愤怒 (ang) 和伤心 (sad) 情感的识别率接近于 90%, 在四维特征识别率中表现不佳的高兴 (hap) 情感识别率在加入显著图特征参数后识别率提升至 80%以上。这表明

展开阅读全文