智能环境下基于音频和视频特征融合的多说话人识别

资源描述

《智能环境下基于音频和视频特征融合的多说话人识别》由会员分享，可在线阅读，更多相关《智能环境下基于音频和视频特征融合的多说话人识别（82页珍藏版）》请在金锄头文库上搜索。

1、学校代号：1 0 7 3 1 学号：0 9 2 0 8 1 1 0 4 0 0 2 密级：公开兰州理工大学硕士学位论文智能环境下基于音频和视频特征融合的多说话人识别 I l l lII I I IIl l I II l l II II Y 2 110 0 4 1 M u l t i - - s p e a k e rR e c o g n i t i o nB a s e d o nA u d i o v i d e oF e a t u r eF u s i o ni nS m a r t 1 n E n V r o n m e n t B y Y UL i z h e n B E (

2、 H u b e iN o r m a lU n i v e r s i t y ) 2 0 0 9 At h e s i ss u b m i t t e di np a r t i a ls a t i s f a c t i o no f t h e R e q u i r e m e n t sf o rt h ed e g r e eo f M a s t e ro f E n g i n e e r i n g P a a e mR e c o g n i t i o na n dI n t e l l i g e n tS y s t e m i n t h e G r a d

3、u a t eS c h o o l o f L a n z h o u U n i v e r s i t yo fT e c h n o l o g y S u p e r v i s o r P r o f e s s o rC a oJ i e M a y , 2 0 1 2 兰州理工大学学位论文原创性声明和使用授权说明原创性声明本人郑重声明：所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明

4、的法律后果由本人承担。储摊：缅嗲醐哪年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权兰州理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据库，并通过网络向社会公众提供信息服务。作者签名：导师签名：日期：矽湃月日日期脚步多月千日硕士学位论文目录摘要】 A B S T R A C T I I I 插图

5、索引V 附表索引V I 第1 章绪论1 1 1 课题研究背景及意义1 1 1 1 说话人识别技术介绍1 1 1 2 说话人识别的优势及应用前景2 1 2 音视频说话人识别的国内外研究现状3 1 2 1 国外研究现状3 1 2 2 国内研究现状。5 1 3 智能环境、会议室研究项目及语料库介绍6 1 3 1 智能环境介绍6 1 3 2 会议环境项目介绍。8 1 3 3 语料库介绍9 1 4 音视频多说话人识别的关键性技术9 1 5 本文主要研究工作及组织结构1 0 第2 章多说话人识别一1 2 2 1 音频特征的多说话人识别系统结构。1 2 2 2 特征参数1 3 2 2 1M e l 倒谱系数

6、13 2 2 2 线性预测及线性预测倒谱系数! 1 5 2 2 3 子倒谱系数1 6 2 2 4 感知线性预测系数1 6 2 3 说话人分割和聚类1 7 2 3 1 说话人分割1 7 2 3 2 说话人聚类1 9 2 4 说话人识别的主要模型2 2 2 4 1 高斯混合模型方法2 3 智能环境下基于音频视频特征融合的多说话人识别 2 4 2 隐马尔可夫模型方法2 4 2 5 音视频多模态融合技术。2 5 2 6 本章小结2 6 第3 章改进的说话人聚类初始化的多说话人识别2 7 3 1 说话人聚类初始化算法2 7 3 1 1 常用聚类初始化方法2 7 3 1 2 改进的聚类初始化算法2 9 3

7、 2 改进的聚类初始化和G M M 多说话人识别3 0 3 2 1 系统原理描述3 0 3 2 2 实验数据。3 1 3 2 3 实验结果与分析3 2 3 3 本章小结3 4 第4 章音频和视频特征融合的多说话人识别3 5 4 1 常用视频特征提取3 5 4 1 1 压缩域视频特征提取3 5 4 1 2 像素域视频特征提取3 7 4 2 基于M F C C 和运动强度聚类初始化的多说话人识别3 7 4 2 1 实验过程简介3 9 4 2 2 实验环境及数据4 0 4 2 3 实验结果及分析4 1 4 3 音频和视频特征融合的多说话人识别4 4 4 3 1 音频，视频特征参数4 4 4 3 2

8、音频视频特征模型级融合4 5 4 3 3 实验结果及分析4 6 4 4 本章小结4 7 结论与展望J 4 8 参考文献5 0 j l 炙谢5 7 附录攻读学位期间参与科研项目和发表的学术论文目录5 8 硕士学位论文摘要人类大脑能够在复杂环境下利用其自身特有的融合机能帮助人们准确识别周边事物。在信息产业蓬勃发展的今天，说话人识别技术在模式识别领域不断被提及，因其在某些条件下能够很好地模仿人类机能，甚至赶超人类。而智能会议环境中的说话人识别研究是目前人机交互的又一重点课题，如何借鉴人脑的融合机能，利用多模态融合技术，将对应说话人的音频信息和视频信息进行进行有效融合，从而达到鲁棒准确的

9、识别效果，已成为智能信息处理的一个热点研究。在充分探讨和总结音频说话人识别、视频特征提取、多模态信息融合及多说话人识别关键技术基本理论的基础上，并取A M I 语料库中的视听会议材料进行仿真实验，提出了音视频特征融合的多说话人识别算法，该研究的主要内容包括三个部分，具体如下：首先，提出改进的说话人聚类初始化和G M M 的多说话人识别算法。它针对多说话人聚类线性初始化方法所得初始话者类纯度不高的问题，提出了一种改进的聚类初始化方法，该方法引入B I C 对由线性初始化产生的初始类进行检测分割，有效提升了说话人初始类纯度；最后将其应用到G M M 多说话人识别系统。，其次，引

10、入视频信号的运动强度特征，提出了基于M F C C 和运动强度聚类初始化的多说话人识别算法。它通过运用每一时间帧视频信号的运动强度特征对聚类初始化阶段的初始话者类进行选择，充分利用了音频视频信号的相关性，进一步提高性说话人初始类纯度，此时并未涉及真正意义上音视频多模态融合，为下阶段研究奠定基础。最后，提出了音视频特征融合的多说话人识别算法。它结合说话人语音产生和视频动作之间的时空相关性及互补性，利用麦克风中提取的音频特征和视频信号中提取的运动强度特征，分别对其建立音频流模型和视频流模型，并在说话人聚类分割阶段采用公式化方法将两者进行模型级融合得到对应说话人训练模型，最后应用到

11、G M M 多说话人识别系统。仿真结果表明，上述音视频特征融合识别算法是可行的。多说话人识别中，聚类分割是关键，而初始类的选择极大地影响识别的整体正确率，实验证明对说话人聚类初始化的研究中所提的两种新方法有效提高了说话人初始类纯度，在一定程度上有效地降低系统错误识别率。同时，音视频模型级特征融合的多说话人识别算法引入视频特征并应用于音频模型中较之常用的单音频说话人识别有很大改进且更具鲁棒性，尤其在动态会议、语音重叠等复杂情况下其识别效果更为明显，进一步证明了音视频特征融合的多说话人识别的有效性。智能环境下基于音频视频特征融合的多说话人识别，进一步证明了音视频特征融合的多说话人识别的有效性。键词：多说话人识别；信息融合；音频特征；视频特征；运动强度特征；聚类初始化；高斯混合模型文研究工作受甘肃省教育厅研究生导师基金项目( N o 0 9 1 4 Z T B 0 0 3 ) 资助。

展开阅读全文