基于面部表情分析的情感语音识别

资源描述

《基于面部表情分析的情感语音识别》由会员分享，可在线阅读，更多相关《基于面部表情分析的情感语音识别（58页珍藏版）》请在金锄头文库上搜索。

1、山东大学硕士学位论文基于面部表情分析的情感语音识别姓名：樊明申请学位级别：硕士专业：电路与系统指导教师：蒋保臣 20090507 山东人学硕上学位论文摘要随着计算机在各个领域的广泛应用，语音识别作为人机交互的关键技术越来越受到人们的重视。为了更全面的反映说话人的信息，听视觉多模态语音识别逐渐成为研究的热点。语音情感识别是多模态识别的一种，它让计算机在识别语音内容的同时又能判别说话人的情感状态。本文以基于矢量量化( V Q ) 算法的孤立词识别系统和基于主成分分析( P C A ) 算法的图像识别系统为基础，构建听视觉情感语音识别系统。孤立词识别系统包括声学层识别和

2、语法层修正两部分。为了改善声学层识别系统的不足，本文研究了一种适用于孤立词识别、基于词汇、短旬统计的2 元语法规则。该语法模型由词语矩阵和短句矩阵两大部分组成，按照相应的规则对原始识别结果加以修正。测试实验表明，识别率在语法规则的帮助下有了较为明显的改善。本文从摄像设备录制的连续视频流中抓取特定时刻的人脸表情图像，经过预处理和主成分分析，与表情模板库中的样本比较，进而判别图像所属的情感类别。为了在时间轴上实现语音识别和图像识别结果的同步对应，首先在语音信号端点检测时，利用语音段之间的时间的差异产生标点符号，以标点符号的产生时刻作为图像识别程序从视频中抓取图像的时间点。再利

3、用标点符号和图像的对应关系，把语音识别的输出结果和图像识别的输出结果进行融合，最终产生带有情感标记的语音识别结果。实验测试表明，这种综合识别系统能在识别语音内容的同时反映说话人的情感状况。关键字：孤立词识别；矢量量化；语法模型；表情识别；主成分分析山东入学硕：：学位论文 A B S T R A C T W i t ht h ew i d ea p p l i c a t i o n so fc o m p u t e rt e c h n o l o g yi nv a r i o u s f i e l d s ，S p e e c hR e c o g n i t i o nb

4、 e c o m e sm o r ea n dm o r ei m p o r t a n tt o p e o p l e r e c e n t y e a r s a st h e k e yt e c h n o l o g y o fM a n M a c h i n e I n t e r a c t i o n I no r d e rt of u l l yr e f l e c tt h es p e a k e r Sm e s s a g e ，t h es t u d y o fA V S R ( A u d i oV i s u a lS p e e c hR e

5、c o g n i t i o n ) h a sb e c o m eah o t s p o t E S R ( E m o t i o nS p e e c hR e c o g n i t i o n )i s ab r a n c ho fA V S R ，i t r e c o g n i z e st h ec o n t e n to fv o i c ea n ds p e a k e r se m o t i o na t t h es a m e t i m e T h i sp a p e rc o n s t r u c t sA V S Rs y s t e mw

6、i t ha n I S R ( I s o l a t e d S p e e c hR e c o g n i t i o n ) s y s t e mb a s e do nV Q ( v e c t o rq u a n t i z a t i o n ) a n d F E R( F a c i a l E x p r e s s i o nR e c o g n i t i o n ) b a s e do n P C A ( P r i - n c i p a l C o m p o n e n tA n a l y s i s ) A s i m p l es e m a n

7、 t i cm o d e li sp u tf o r w a r di nt h i sp a p e r ，t h em a i n c o n s t i t u t i o n so ft h i sm o d e la r ew o r dm a t r i xa n ds e n t e n c em a t r i x ，t h e y c o r r e c td e v i a t i o no fa c o u s t i cm o d e lb ym i n i m u m d i s t a n c ec r i t e r i o n a n dm a x i m

8、u mp r o b a b i l i t yc r i t e r i o ni nt e m p l a t em a t c h i n g E x p e r i m e n t r e s u l ts h o w st h a tr e c o g n i t i o nr a t ei si m p r o v e dw i t ht h eh e l po ft h i s s i m p l es e m a n t i cm o d e l W eg e tf a c i a le x p r e s s i o np i c t u r e sf r o mc o n

9、t i n u o u sv i d e os t r e a m s w h i c hr e c o r d e db yc a m e r a A f t e r p r e p r o c e s s i n g a n d P r i n c i p a l C o m p o n e n tA n a l y i n g ，w ed e t e r m i n ew h i c he m o t i o nk i n dt h ep i c t u r e b e l o n g st ob ym a t c h i n gu pw i t ht h et e m p l a t

10、el i b r a r y I no r d e rt or e a l i z es y n c h r o n i z a t i o nb e t w e e nI S Rr e s u l t sa n dF E R r e s u l t s ，w eu s ep u n c t u a t i o n sw h i c hp r o d u c e di nI S Rs y s t e mt oc o n t r o l t h et i m e sw h e nF E Rs y s t e mg e t sp i c t u r ef r o mv i d e os t r e

11、 a m s ，a n df u s e t h o s ei n f o r m a t i o nb ym a r k i n gp u n c t u a t i o na n dp i c t u r e E x p e r i m e n t r e s u l t ss h o wt h a tt h i si n t e g r a t e ds y s t e mc a nr e f l e c ts p e a k e r Se m o t i o n 3 山东人学硕士学位论文 w h i l er e c o g n i z i n gs p e e c h K e y w

12、 o r d s ：I s o l a t e d - S p e e c h - R e c o g n i t i o n ；V e c t o rq u a n t i z a t i o n ； S e m a n t i cm o d e l ；F a c i a le x p r e s s i o nr e c o g n i t i o n ；P r i n c i p a lC o m p o n e n t A n a l y s i s 4 原创性声明本人郑重声明：所呈交的学位论文，是本人在导师的指导下，独立进行研究所取得的成果。除文中已经注明引用的内容外，本论文不

13、包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡献的个人和集体，均已在文中以明确方式标明。本声明的法律责任由本人承担。论文作者签名：丝鲷日期：至旦旦星三Z 关于学位论文使用授权的声明本人完全了解山东大学有关保留、使用学位论文的规定，同意学校保留或向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅；本人授权山东大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名：蕉盟导师签名：昏丝日期：塑：f 彬山东人学硕上学位论文

14、1 1 引言第一章绪论传统的语音识别只是从语音方面辩别说话人所说的内容，忽视了人在说话时的表情，神态等信息。而表情是人类用来表达情绪的一种基本方式，是非语言交流中的一种有效手段。人们可通过表情准确而微妙地表达自己的思想感情，也可通过表情辨认对方的态度和内心世界【。近些年来，随着多媒体技术的不断发展，计算机在识别语音的同时又能识别说话人的面部表情、情感等信息的研究越来越引起人们的兴趣。这种综合识别系统融合了语音和说话人面部表情等多方面的信息。不仅表达了更丰富的内容，而且生动形象，易于被人们所接受，在玩具、语音短信、教育等行业中也更易于推广。 1 2 语音识别技术的发展语音

15、识别的研究工作开始于5 0 年代，第一个语音识别器 ( S p e e c hR e c o g n i z e r ) 是美国贝尔( B e l l ) 实验室的D a v i s 等人l9 5 2 年设计的1 2 ，该系统利用模拟电路将语音频带以9 0 0 H z 为界，形成第一，第二“共振峰”，与参考模板进行匹配。以此完成10 个语音数字的识别【3 】【4 1 。 7 0 年代是语音识别研究的关键时期，这期间最具代表性的成果是线性预测编码( 1 i n e a rp r e d i c t i v ec o d i n g ，L P C ) 方法【5J 和动态时间规整( d y

16、 n a m i ct i m ew a r p i n g ，D T W ) 技术【6 1 。这些技术的成熟使得孤立词发音和孤立语句发音的识别成为了现实。 8 0 年代，连续词识别成为了研究的重点。用于连接词识别的分层构筑技术得到发展。另一个重要的发展是语音识别算法从模板匹 5 山东人学硕上学位论文配技术发展到基于统计模型的技术。其问，美国C M U 大学的 J K B a k e r 等人将隐马尔可夫模型( H M M ) 【7J 【8 1 应用到语音识别领域，取得极大的成功，成为语音识别的主要研究方法。进入9 0 年代，语音识别研究的重点转向自然语言的识别处理，同时，人工神经网络( A r t i f i c i a lN e u r a lN e t w o r k s ，A N N ) i9 J 技术的应用成为语音识别的一条新途径。 2 0 0 0 年以后，人机语音交互成为研究的焦点。重点包括机器对人们自然口语的识别、理解，以及多语种的语音同声翻译。国内的语音识别研究工作最早开始于中科院声学所。五十年

展开阅读全文