文档详情

基于pad三维情绪模型的情感语音转换与识别

E****
实名认证
店铺
PDF
5.50MB
约80页
文档ID:114243912
基于pad三维情绪模型的情感语音转换与识别_第1页
1/80

西北师范大学 硕士学位论文 基于PAD三维情绪模型的情感语音转换与识别 姓名:周慧 申请学位级别:硕士 专业:电路与系统 指导教师:杨鸿武 2009-06 II 摘 要 语音是最主要的人际交流方式之一,也是最理想的人机交互方式之一人类 生活和学习中的自然语音不仅包含了基本的文字内容, 而且还承载了丰富的情感 信息研究情感语音有助于进一步加深对大脑中情感概念的解析和理解,将情感 的认识从感性认知上升为可计算模型 论文研究面向细微复杂情感的语音转换与 识别,录制了 11 种情感类型的语音数据,利用三维 PAD 情绪模型描述了情感语 音,分析了情感语音的声学特征与 PAD 值之间的关系,在此基础上进行了基于 PAD 的情感语音转换与识别论文的主要创新点和工作如下: 1.引入采用心理学标注的 PAD(愉悦度、激活度、优势度)三维情绪模型来 描述情感,和传统离散描述情感的方法相比,它更注重内在成分的表达,有利于 计算机对情感实现量化分析在录制的情感语音数据库基础上,定量分析了不同 情感的韵律特征参数差异,以及 PAD 三个维度和韵律特征、频谱特征之间的相 关性,研究结果对情感语音的定量研究有一定的指导意义。

2.提出了一种新的基于支持向量回归算法(SVR)的情感语音转换方法,在 录制的语料库基础上, 基于统计学习理论模型, 实现中性情感到其它情感的转换 提取了普通话 11 种情感语音的韵律特征,对比分析了中性语音和情感语音之间 的韵律特征差异,构建情感语音转换的特征参数训练集然后用 SVR 建立了基 频、时长、能量、停顿等韵律特征参数的预测模型,实现了由中性语音向情感语 音的转换情感主观平均评分(EMOS)实验结果表明,利用这种方法变换出的 10 种情感语音,其平均 EMOS 得分为 3. 4,能够表现出复杂的情感 3. 提出了一种新的连续维度情感语音识别的方法 该方法采用 Hilbert-Huang 变换中的经验模态分解(EMD)算法提取情感语音特征,结合 SVR 实现情感语音 识别的方法即先用 EMD 将情感语音分解成若干个 IMF(固有模态函数)分量, 提取有用的 IMF 分量并加以分段,而后对分段后的 IMF 提取相应的特征,组成 IMF 组的特征向量, 构建情感语音识别的特征参数集, 最终利用 SVR 预测出 PAD 值和短时处理技术相比,EMD 自身的特点更适于情感语音信号的处理。

实验 表明,该方法能够有效地预测 PAD 值 作为一种新的尝试, 本文提出的两种方法具有一定的理论依据和较好的实用 效果,为今后的语音情感转换与识别研究奠定了良好的基础 关键词:情感语音 PAD 情绪模型 支持向量回归 经验模态分解法(EMD) 语音转换 语音识别 III Abstract Speech signals is the main way of interpersonal communications, which is one of the most ideal one human-machine interactions. Natural voice not only includes the basic linguistics, but also carries the emotion in human life and study, so the study of information has the great significance in emotional speech theoretical and practical. This dissertation aims to research emotional speech recognition and conversion by recording 11 kinds of emotion type of speech data. The dissertation analyses the relationship between emotional speech parameters and PAD, and on this basis, recognizes the emotional speech recognition and transforms speech signal in neutral style to various emotions.The main contributions are: 1. The dissertation introduced 3-D PAD (Pleasure/displeasure、arousal/no arousal、 dominance/submissiveness) emotion model to represent emotions contained in Chinese speech quantitatively, which pay more attention to the internal composition. Thus, complex and subtle emotions can be represented in the 3-D continuous space, which makes it possible to compute emotions in a quantitative way. The dissertation analyzed the different emotional rhythms characteristic parameters, and the difference in three dimensions and prosodic feature PAD researched the correlation between prosodic feature, the spectrum characteristics and three dimensions PAD. Through the analysis, some conclusions have certain directive significance in future study of emotional speech. 2. The dissertation proposed a novel approach for emotional speech conversion based on support vector regression (SVR) method. By analyzing the prosodic features of contrastive neutral and emotional recordings, a support vector regression (SVR) based model is developed, which can transform acoustic features of emotional mean opinion score (EMOS) results demonstrate that the modified speech which achieved 3.4 of score can express emotion. 3. The dissertation proposed a novel approach for continuous emotional speech recognition based on Hilbert-Huang transform algorithm--empirical mode decomposition (EMD) and support vector regression (SVR) method. First: emotional speech will be divided into several IMF (intrinsic mode functions) with EMD, and then get useful IMF component, segment these IMF component .Second: extraction IV some feature from segment-IMF, and constructing feature vector for of the training. Finally, get PA values using SVR predict. Compare with short-term treatment technology, EMD is more suitable for the speech signal processing. Emotional Experiments show that this method can effectively predict PA values. As a new attempt, this dissertation proposed two novel approaches which have certain theoretical basis and the practical effect; it’s good for the future study and speech recognition and speech conversion. Keywords: emotional speech, 3-D PAD emotion model, support vector regression algorithm, empirical mode decomposition (EMD), speech conversion, speech recognition I 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作 及取得的研究成果。

尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包括其他人已经发表或撰写过的研究成果,也不包含为 获得西北师范大学或其他教育机构的学位或证书而使用过的材料 与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了谢意 签名: 日期: 关于论文使用授权的说明 本人完全了解西北师范大学有关保留、 使用学位论文的规定, 即: 学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以 公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保 存论文 (保密的论文在解密后应遵守此规定) 签名: 导师签名: 日期: 第 1 章 引 言 1 第 1 章 引 言 “人非草木,孰能无情?”人类在不同的环境中通过外在(例如,面部表情、 身段姿态表情以及言语声调表情等)表现出各种情绪,如喜悦、愤怒、悲哀、恐 惧、苦恼、烦闷、赞叹、蔑视等等,来表达出自己的想法、意图、观点[1][2]可 见,情感在人类之间的交流中扮演着重要的角色。

据文献记载,人类很早就已经 注意到情感在交流中的重要性如今,情感也倍受众多领域研究者的关注 比如在人机交互领域中,就情感语音而言,如何能够让计算机度量分辨出人 类的情感,并让计算机表现出人类不同的情感,成为了目前情感语音研究领域的 一个研究方向 本论文采用三维 PAD 情绪模型量化描述情感语音,通过录制的情感语音数 据库,分析了情感语音特征参数的差异,建立了基于 SVR 的情感语音转换模型, 并通过研究情感状态 PAD 值和语音特征的关系,实现了连续维度情感语音的识 别 1 .1 选题背景及意义选题背景及意义 人与人相互之间的交流, 除 “读。

下载提示
相似文档
正为您匹配相似的精品文档