基于内容的多媒体检索

上传人:子 文档编号:41900543 上传时间:2018-05-31 格式:DOC 页数:10 大小:34.50KB
返回 下载 相关 举报
基于内容的多媒体检索_第1页
第1页 / 共10页
基于内容的多媒体检索_第2页
第2页 / 共10页
基于内容的多媒体检索_第3页
第3页 / 共10页
基于内容的多媒体检索_第4页
第4页 / 共10页
基于内容的多媒体检索_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《基于内容的多媒体检索》由会员分享,可在线阅读,更多相关《基于内容的多媒体检索(10页珍藏版)》请在金锄头文库上搜索。

1、基于内容的多媒体检索基于内容的多媒体检索基于内容的多媒体检索摘 要 对基于内容的多媒体检索的有关概念、特点进行介绍,基于内容的分析方法的提出,在压缩域上直接对 MPEG 音频信号进行分析,达到多媒体实时分析检索目的。算法分为三步:首先利用压缩域特征对音频信号进行分割,然后应用分层方法把分割出来的音频片段粗分成音乐、语音和其它三个基本类别;由于话者身份是语音信号中的重要检索线索,最后利用隐马尔可夫链实现了与文本无关的话者识别,并用识别出来的话者身份对语音信号和其相应的视频进行标注。关键词 音频检索概念 多媒体 基于内容的检索压缩域 隐马尔可夫链 话者识别 多媒体检索引言随着计算机应用技术的发展与

2、互联网速度的提高,用户可以访问到的文本、音频和视频等多媒体信息不断增加。这样,计算机用户在处理信息时所面临的主要问题已经从早期的信息匮乏转变为从海量信息中快速合理检索出需要信息。于是,从 90 年代初开始,基于内容的图像(视频)检索成为多媒体领域研究的热点之一12。在基于内容的图像(视频)检索中,颜色、纹理、形状和运动等视觉特征被提取出来表征图像(视频)内容所蕴涵的语义,从而实现图像(视频)数据的查询与管理。基于内容的多媒体检索原理与特点多媒体检索是一种基于内容特征的检索(CBR:content-based retrieval) 。所谓基于内容的检索是对媒体对象的内容及上下文语义环境进行检索,

3、如图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音中的音调、响度、音色等。基于内容的检索突破了传统的基于文本检索技术的局限,直接对图像、视频、音频内容进行分析,抽取特征和语义,利用这些内容特征建立索引并进行检索。在这一检索过程中,它主要以图像处理、模式识别、计算机视觉、图像理解等学科中的一些方法为部分基础技术,是多种技术的合成。与传统的信息检索相比,CBR 有如下特点:(1) 相似性检索:CBR 采用一种近似匹配(或局部匹配)的方法和技术逐步求精来获得查询和检索结果,摒弃了传统的精确匹配技术,避免了因采用传统检索方法所带来的不确定性。(2) 直接从内容中提取信息线索:CBR 直接

4、对文本、图像、视频、音频进行分析,从中抽取内容特征,然后利用这些内容特征建立索引并进行检索。(3) 满足用户多层次的检索要求:CBR 检索系统通常由媒体库、特征库和知识库组成。媒体库包含多媒体数据,如文本、图像、音频、视频等;特征库包含用户输入的特征和预处理自动提取的内容特征;知识库包含领域知识和通用知识,其中的知识表达可以更换,以适应各种不同领域的应用要求。(4) 大型数据库(集)的快速检索:CBR 往往拥有数量巨大、种类繁多的多媒体数据库,能够实现对多媒体信息的快速检索。基于内容分析方法的提出我们知道视频、音频都是按时间顺序来组织的,传统方法查找其中某个片断都是通过快进或快到等顺序来浏览内

5、容查找,这种方法不仅要求用户注意力高度集中,而且特别浪费时间。由于视频、音频内容包含复杂丰富的信息数据,对视频、音频检索已成为实际应用中一个难题,而基于内容分析方法是目前视频、音频检索主要发展趋势。如何解决多媒体信息内容描述问题,目前主要是采用基于内容分析视频处理与检索方法,这种方法是近年来随着多媒体数据处理技术发展而提出的。基于内容分析的方法是从另一个角度来认识多媒体信息,从早期基本颜色检索,到综合利用多种多媒体特征进行检索。如:颜色、纹理、形状、 场景、镜头、帧等特征信息。目前该技术已经发展到实用阶段,其中多媒体内容描述接口 MPEG-7 是目前被广泛接受的一种国际标准,其核心就是基于多媒

6、体内容分析。MPEG 序列媒体标准是目前最为广泛应用的视/音频媒体标准,目前广泛应用的主要有 MPEG-I、MPEG-II、MPEG-4 等,它们都是对数字运动图像及伴音编码进行压缩的一种国际标准,其中 MPEG-4 采用按照具有一定时间关系和空间关系的对象来进行视、音频编码的处理方式。而 MPEG-7 是在 MPEG-4 基础上发展起来,MPEG-7 重点是对视音频信息内容进行不同程度描述与定义,而与多媒体信息的编码和存储方式无关。由于音频也蕴含了大量的语义信息,近年来,基于内容的音频检索3也受到越来越多的关注,其主要思想是通过提取音频流中的时域(频域)特征来描述音频内容。由于多媒体本质是由

7、文本,视频和音频等多种媒质交互融合而成的,它们之间存在或多或少的语义关联,一种媒质和另外一种媒质可以表示同一语义,媒质之间可以相互索引,如4中通过音频分类实现为视频数据建立索引。但是,无论是基于内容的图像(视频)检索或是基于内容的音频检索,目前还是基于视觉或听觉感知特征相似度比较的检索,而我们对多媒体内容的描述是基于其所蕴涵的语义信息的。因此,将多媒体数据流分类成预先定义的语义模型是多媒体检索面临的挑战5。语义概念模型可以分为三类:一是高级语义,这种语义是不同时间和空间几个多媒体事件高度抽象概念化的结果,如“厄尔尼诺气候的形成“,它需要探讨人脑的思维机制;二是中级语义,这种语义是高级语义中所涉

8、及的人或事件的分别描述,不涉及几个事件的交叉,如“某个主持人某类新闻报导“或“某场足球比赛“;最后是低级语义,它是利用视觉或听觉信息对多媒体数据进行初步分类,如“音乐“、“语音“或“海滩“等。对多媒体数据进行语义标注实现了多媒体从无结构到结构化的过程,可以有效组织多媒体数据流,方便检索。另外,随着网络技术的普及,对多媒体数据(特别是音频数据)进行实时分析也成为了需要6。传统多媒体检索中提取的特征基本上是基于非压缩域的,随着多媒体应用技术的发展,MPEG 凭借其易于传输存储的优点而成为多媒体数据压缩通用标准7。用非压缩域方法来对 MPEG 数据流进行语义标注时,必须先解码,才能提取特征和对特征分

9、析,造成运算量无谓增大,不能保证实时效果。同时,MPEG 对音频部分的编码结合了听觉心理学,编码时就考虑了人的听觉感知特性,所以直接在 MPEG 压缩域上提取特征,可以使这些感知特性不会丢失,保证对音频信息的正确理解。在音频数据流中,说话人是非常重要的语义信息,如不同的节目主持人会报导不同内容的新闻节目(体育,天气预报和时事等) 。通过对讲话人语音的分析,自动确认出话者身份,既可以用话者身份对音频进行中级语义标注,也可以对其相应的视频信息流进行分类,实现不同媒质之间的索引。基于此,本文提出了一种直接在压缩域上进行多媒体分析的方法:首先,MPEG 数据流被分成视频和音频两部分,然后对压缩域音频流

10、进行分割与粗分,并且对识别出来的语音片段中的话者身份进行确认;最后用确认出来的话者身份对相应的语音音频和视频进行标注(如图一) 。图一 压缩域特征多媒体检索分类流程压缩域音频特征提取所谓音频特征就是用来表征原始音频信息的数据。根据特征空间的不同,音频特征可以分为时域、频域和时频三类:时域特征包括短时能量、过零率和线性预测系数等;频域特征包括线性预测(LPC)倒谱系数和 MFCC 等;时频特征包括短时傅立叶变换和小波系数等。近年来,为了更真实反映原始音频数据流首先被耳蜗处理,然后才在大脑处形成“音频场景“的事实10,仿照人的听觉感知模型11,一些特征被提取出来。于是,根据是否使用感知模型,音频特

11、征可以分为物理和感知两类。物理特征包括短时能量、过零率、基本频率等,它来源于音频信号本身;感知特征包括音调和音高等,它依赖于人的听觉模型。要指出的是,有些时频特征也属于感知特征,如小波变换每层分解相当于一个恒 Q 滤波器,符合人耳听觉感知特性。MPEG 音频压缩利用了“心理声学模型(psychoacoustics model)“,在 MPEG 压缩领域上直接提取特征,可以保留这些感知特性,更好象人的听觉感知系统一样,实现对音频语义内容的理解。首先把 MPEG 数据流分解成视频和音频两部分。其中音频流数据是 MPEG2 Layer III,采样频率为 22050Hz。按照传统语音处理中对信号处理

12、分成短时“帧“的要求,音频数据被分割成大约为 20 毫秒的帧序列(每一帧有 576 个采样值) 。对于每一帧,首先求出每一个子带矢量值的均方根 ,其中 是 32 维的子带矢量, 也是一个 32 维的矢量。 表征了这一帧的特性,由此可以得到以下的具体特征:(1)质心(Centroid): ,指一个矢量的平衡点,质心反映了在压缩域上音频信号的基本频率带;(2)衰减截止频率(Rolloff): ,指音频信号能量衰减 3 分贝时的截止频率。由于人耳对音频信号强弱变化相当敏感,衰减截止频率其实就是自适应的听觉阈值,它体现了心理声学中的听觉掩饰特性;(3)频谱流量(Spectral Flux):指相邻两帧

13、的 矢量正规化后以2 为模的差分,频谱流量体现了音频信号的动态特征;(4)均方根( ): ,用来衡量这一帧音频信号强度。音频场景的切换通常伴随着音量变化,因此 在分割中是十分重要的一个指标。由于音频信号的非平稳特性,为了更好表征音频的时序变化,上述四个特征的统计信息也被提取出来作为音频特征:实验中,使用 40 帧为一个窗口(大约 1 秒) ,对每一帧,计算其前一个窗口中所有帧的质心,衰减截止频率和频谱流量的均值和方差,并且计算均方根低于某一阈值的比例,得到七个具有统计意义的特征。这样,对于每一帧,总共提取了 11 个特征。每个音频数据流的前40 帧统计特征值是这个音频流所有对应统计特征的平均值

14、。这 11 个特征反映了音频的静态和动态特性,符合心理声学模型,构成了压缩域上音频信号的描述算子,被用来进行音频的分割、粗分和识别。音频信号分割与粗分研究表明,虽然音频信号特征随时间变化剧烈,但是对于同一音频类而言,其特征之间的距离变化大致有一定规律的,通过选取好的窗口距离可以体现出这种规律性来1213。利用前面提取的 11个特征,实验中实现了如下的音频分割算法:(1)读入 MPEG 音频流,对每一帧求出特征矢量 , 是 11 维, 表示时间(帧数) ;(2)求出前后相邻特征向量 和 之间的对数化欧氏距离 ,其中 表示第 帧中的第 个特征;(3)对于得到的 序列,求出时刻 前后窗口长度为 的

15、均值的差 ;这个过程叫窗口化(4)如果 在某一时刻值大于阈值 ,则判定在该时刻特征矢量发生了跃变,因此发生了音频信号的转换,于是音频流从此处分割。对于分割得到的各个音频片段(clip),需要识别出每个音频片段的类别(也就是它们的低级语义) 。在识别出来低级语义的基础上,才能逐步形成中级和高级语义。为了对分割出来的音频片段标注低级语义,我们先把这些音频片段按分层原则粗分成三类:音乐,语音和其它14。然后对其中的语音片段专门处理,去识别语音片段中的话者身份信息。话者身份确认对于分割并粗分得到的语音片段,需要进一步细分出话者身份信息。话者识别可以分为自动话者确认(Automatic Speaker

16、Verification,简称 ASV)和自动话者辨认(Automatic Speaker Identification,简称 ASI)15。ASV 要求系统作出“是“或“不是“所记录集合中的话者,属于二元判决;而 ASI 是辨认待识别的语音片段属于哪一位话者的发音,属于多元判决。本文中的说话识别指ASI。规定了发音内容的话者识别称为与文本有关(Text-Dependent)的话者识别;反之不限定发音内容的话者识别称为与文本无关(Text-Independent)的话者识别,它更具有挑战性。本文实现的是与文本无关的话者识别。ASI 识别性能主要取决于特征参数的选择和识别模型的建立,下面从这两方面阐述。特征选取语音是人的自然属性之一,因此从语音信号中提取能反映人个性的特征是识别的关键16,通常采用线性预测(LPC)倒谱系数或 MFCC作为话者识别的特征参数。对于 MPEG 编码的音频数据,针对语音固有的特点,对前文所提取的质心、衰减截止频率、频谱流量和均方根等压缩域特征做了改进,得到的数据作为话者识别特征。由于人的语音信号

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号