音频检索的关键技术与挑战

上传人:pu****.1 文档编号:554752830 上传时间:2024-02-09 格式:DOCX 页数:7 大小:14.16KB
返回 下载 相关 举报
音频检索的关键技术与挑战_第1页
第1页 / 共7页
音频检索的关键技术与挑战_第2页
第2页 / 共7页
音频检索的关键技术与挑战_第3页
第3页 / 共7页
音频检索的关键技术与挑战_第4页
第4页 / 共7页
音频检索的关键技术与挑战_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《音频检索的关键技术与挑战》由会员分享,可在线阅读,更多相关《音频检索的关键技术与挑战(7页珍藏版)》请在金锄头文库上搜索。

1、音频检索的关键技术与挑战耳朵是我们每个人最为重要的身体器官之一,那么声音则是我们用来感知世 界,认识世界的最重要的工具之一。如果没有声音,那么我们的生活将会黯然失 色,毫无光彩,失去很多精彩的瞬间。我们都知道聋哑人刚刚开始的时候只是失 去听力,感知不到声音,他们的说话能力并没有问题。但是在一天天的成长过程 中,由于听不到声音,他们也就无法学习用语言交流,慢慢的慢慢的他们也就不 会说话了,没有了语言能力。所以,从这个例子中,我们知道了声音对我们有多 么的重要。科学家们也意识到了声音的重要性,逐渐地把音频做为了一种重要的研究对 象。音频做为一种意义非凡的媒体,包含了非常丰富的听觉特征,可分为 3

2、类: 语音(具有字词,语法等语素);音乐(具有节奏,旋律和声音等要素);波形 声音(对模拟声音数字化而得到的数字音频信号)。而音频内容又可以分为3 个级别:底层(物理样本级);中层(声学特征级);高层(语义级)。音频检 索是以波形声音为对象的检索,也是多媒体检索技术中的一个重要组成部分。我 们都知道音频信息做为一种不透明的位流,虽然有外部属性,但是缺少关键词可 以用来进行匹配的实体,可以通过方法将音频转化为文字进行检索。但是,缺点 是:数据量越来越大,人工注释的工作量越来越大;人对音频的感知不准确;不 能支持实时音频数据流检索。为了解决这些问题,音频检索应运而生。今天我们 要根据当前的音频检索

3、各种技术发展,来好好地讨论现阶段一些音频检索技术研 究中的关键技术:音频特征提取,音频分类,语音识别技术,特征相似度匹配等。音频信息检索技术有着广泛的应用前景:(1)它是智能语音系统的核心技术, 用户可通过该技术方便快捷地获取所需的信息;(2)它可以实现对网络中的媒体, 例如网上电视,音视频等的音频信息进行实时检索、审查和有效监控,对各种数 字音频产品的版权保护,如音乐的版权保护,即搜索未经授权的使用等;(3)它在 音频信息分类与统计技术的研究中也扮演着重要的角色,如在广播电视新闻节 目、数字图书馆等内容中包含着大量的语音、音乐等信息,使用音频信息检索技 术可以有效地对这些信息进行分类、统计与

4、检索,更好地管理、存储与高效利用这些资源。此外,它还可应用于网络管理、信息安全以及军事刑侦等诸多领域。早期的检索主要是采用文本检索技术,但是这种检索方式非常局限性。它是 通过人工方式输入音频的属性和描述(例如文件名、文件格式等文本信息)来进 行检索,但其局限性非常明显:首先,互联网信息庞杂,充斥着许多未标注、错 误标注文件名等文本信息的音频数据,而如要正确标注互联网所有音频数据显然 非人力所及;其次,许多现实的应用需要使用音频数据本身的感知内容,而这种 感知内容通过简单的文件名等文本标注无法体现,如音乐的旋律、音调、音质等。 再次,即便针对于语音信息,比如新闻记录、谈话记录等,通过文本检索技术

5、也 仅仅是检索其文件标注,而不能检索其内容。由于它的种种局限性,所以产生了一种新的检索方式,即基于内容的音频检 索。基于内容的音频信息检索技术是继基于内容的图像检索之后发展起来的一个 新兴研究方向,是指通过音频特征分析,对不同音频数据赋以不同的语义,使具 有相同语义的音频在听觉上保持相似,其中基于内容的音乐检索是具有较高实用 价值的一个部分。它研究如何利用音频的幅度、频谱等物理特征,响度、音高、 音色等听觉特征,词字、旋律等语义特征实现基于内容的音频信息检索。基于内容的音频检索,该方法是从媒体数据总体取出特定的信息线索,建立 音频数据表示方法和数据模型,采用有效和可靠的查询处理算法,使得用户可

6、以 在智能化的查询接口的辅助下,从大量存储数据库中的媒体进行查找,检索出与 接收的音频信号具有相似特征的媒体数据出来。它实际上是一种相似查询,是检 索出与用户指定的要求非常相似的所有声音。音频检索中的关键技术我们首先理解两个概念:(1)音频内容描述是整个基于内容的音频检索技术的核心技术。这里分语音 内容和乐音内容两部分。音频内容描述是在音频内容获取的基础之上进行的,同 时是进一步进行音频特征相似度匹配的必要前提。音频内容描述在本文中主要是 指旋律包络曲线,这是因为一般来说,人在哼唱歌曲时,他人判断其哼唱的歌曲 名字时是根据所哼唱的歌曲的旋律信息,而旋律信息,以旋律包络曲线表示,主 要包含两个重

7、要的参数序列,一是音调变化信息,二是节奏信息。这两种音频描 述跟音调持续时间长短及音调间的高低变化有关。(2)音频的相似度匹配是基于内容的音频检索技术的关键环节,匹配算法 的性能直接影响着检索结果和整个系统性能。相似度匹配包括精确匹配、模糊匹 配、相似度计算、相关度计算等,其性能各不相同适用范围也不同,通常根据实 际需要对其进行组合使用。而音频检索技术中最关键的主要是音频内容识别、获取与分类、音频特征提 取(音频内容的描述)和音频分割与分类和特征相似度匹配四个部分。首先是预 处理阶段对输入的音频进行格式转换(在此实现多采样率支持,多格式支持(wav, mp3, rm),转换为系统内部统一格式,

8、之后再进行相应的工作。在按帧进行音频 信号分析、提取音频信号参数之前,有一些经常使用的、共同的短时分析处理需 要预先进行,如音频信号的滤波去噪声、预加重、加窗和分帧等处理。音频特征提取技术音频特征提取是整个音频检索最核心的技术,它是在音频内容获取的基础之 上进行的,同时是进一步进行音频特征相似度匹配的必要前提,特征提取是指寻 找原始音频信号的表达形式,提取出能代表原始信号的数据形式. 与文本检索中 的特征是关键字不同,在音频数据中提取特征有两种方法,一种是提取听觉感知 特征如音调、音高等。另一种是计算非感知特征或者称物理特征,如对数倒频谱 系数、线性预测系数。要抽取特征和属性,通常要对数据库中

9、的多媒体数据项进 行预处理。所有这些提取出来的特征被用来表征音频数据流,在检索过程中,是 对这些特征和属性而不是对信息项本身进行搜索和比较,所以特征抽取的质量决 定着检索效果。对于时域特征提取:其中有几个关键点,平均能量(说明了音频信号的强度), 过零率(指每秒内信号值通过零值的次数),静音比(表示静音的声音片段的比 例);对于音频频域特征的提取:傅里叶变换可分解出音频信号的频率成分,可 提取的音频频域特征有带宽,频谱中心,谐音,音调等,带宽(说明了声音的频 率范围),频谱中心(是一个声音频谱能量分布的中心点),谐音(最低频率的 倍数的频谱成分),音调(听觉分辨声音高低的特征,完全由频率决定,

10、可通过 频谱估计)。音频分类由于音频信息是时间序列的数据流,为了对持续时间很长的音频直接进行处 理,选择在其特征发生突变的地方进行分割,把连续多媒体数据流分成不同长度 的数据片段,即音频分割,然后对分割好的数据片段进行处理。音频数据流分割 基本是根据所提取的音频低层物理特征完成的,所分割出来音频数据只是些物理 单元,需要对这些物理单元进行识别分类,将它们归属成事先定义好的不同语义 类,这由音频识别分类这一步完成。根据音频的特征值可将音频进行分类,在这 一步中,可以对分割出来的音频物理单元进行组分,如将切分出来的音频分类为 静音、音乐和语音、环境音等,也可以进行某一事件或某一人物的精细分类,如

11、“暴力”事件、“演讲”事件等。常见的音频分类的方法及顺序如下:1.计算输入音频片段的频谱中心,如果 比值高,则认为是音乐,否则是语音;2.计算静音比,如果静音比低,则认为是 音乐,否则,认为它是语音或独奏音乐;3.最后计算平均过零率ZCR,如果ZCR 可变性高,则它是语音,否则它是独奏音乐。特征判定的顺序是非常重要的,一 般首先判定差别性大,复杂性低的特征,这样可以降低整个计算量。 语音识别技术ASR技术主要应用于语音检索领域,自动的语音识别(ASR)问题就是一 个模式匹配问题,一个典型的 ASR 系统通常包括训练和模式匹配2 个阶段。1. 在训练阶段,ASR系统收集大量的发音者的语音序列,然

12、后ASR系统提取每个 语音单位的特征并存放在系统中,通常最小的语音单位为音素。最常用的特征是MFCC 系数。2.在模式匹配阶段,系统用与训练阶段相似的方法对输入语音进行 处理,产生特征矢量,再根据一定的准则以及专家知识,计算输入特征与库存模 式之间的相似度,找到与输入语音的特征矢量最匹配的特征矢量的单词序列。采 用 ASR 技术的语音索引和检索的方法主要有 4 种:( 1 )大词汇语音识别检索方 法;(2)子词单元检索方法;(3)关键词识别检索方法;(4)发音者识别分 割方法。最后我们需要对识别出来的语义类建立索引,进行检索。建立索引可以有三 个途径:(1)用文字形成的抽象概念描述这些类别,这

13、样用户必须通过文字查询音频数 据。(2)用音频特征建立索引,查询时用户提交的是对特征的描述,如对音频能量 描述的“音调”。(3)提交一个音频例子,提取这个音频例子的特征,按照前面介绍的音频例子 识别方法判断这个音频例子属于那一类,然后把识别出的这类所包含的若干个样 本按序返回给用户,这是基于例子的音频检索。基于例子的音频检索遵循概率排 队的规则,根据用户的查询需要,基于检索 模型对查询样本和库中音频分别计 算音频的相关特征,并比较相似性,最后按相 似性值由大到小排列库中音频, 完成一个查询过程。音频检索技术所面临的挑战那么,音频检索技术发展至今,在不断壮大与完善给人们带来便利的同时也 在面临着

14、无限的挑战。我们都知道音频信号具有不准确性,常常是变化万千,我 们根本没有模式去遵循,目前的研究大多基于听觉特征进行检索,因此如何基于 语义内容进行检索也是一个亟待解决的热点问题。我们首先分析音频的特点,从音频的特点来分析音频检索所面临的挑战。音 频本身具有的特点如下:(1)音频信号是时间依赖的连续媒体;(2)人接收声音有两个通道(左耳、右耳),因此为使计算机模拟接收自然声 音,也应该有两个声道;(3)语音或乐音信号不仅仅是声音的载体,同时还携带了情感和意向,故对音 频信号的处理,不仅是信号处理问题,还要抽取语义等其它信息。由于音频具有以上特点,基于人工输入的属性和描述来进行音频检索有其固 有

15、的缺陷,势必要寻找一种新的途径来进行音频检索。然而尽管国内外研究者就 音频信息检索技术开展了大量的研究工作,但音频检索技术在应用领域面临着重 重困境。在理论研究方面,与文本信息检索及图像和视频信息检索技术相比,音 频检索技术仍然是一个未成熟的、具有极大潜力的研究领域,还存在很多问题需 要解决:(1)有效音频特征提取问题 音频是应用最广泛的表示形式,却由于难以获得其有效信息,因此很难进行相 关检索。要解决这个问题,首先需要实现音乐的自动标注,检测音频中同时发声 的多个音符的基频,即多基频估计,以及识别音乐的旋律、节拍等语义内容。在 实际的检索应用中,音频数据不可避免地存在噪声,在歌曲旋律检索时由

16、于存在 大量的背景音乐而模糊了实际提取所需要的旋律特征。如何正确有效地进行音频 特征提取,这方面研究难度很大,目前还处于初级阶段,很不成熟。(2)动态音频检索问题 与静态音频信息相比,动态音频流具有实时性强、流过的数据无法重现且事先不 能预知等特点。对动态音频检索,需要实时地获取音频流数据、计算特征以及匹 配计算等,而且检索过程必须一次完成,无法采用基于用户反馈进行多次检索的 机制。因此,要求动态音频检索首先具有足够的速度,即检索速度大于数据流到 达的速度,这在多目标音频检索中的困难较大。其次,要求动态音频检索在噪声、 检索目标发生部分残缺等情况下,均能达到较好的检索性能;最后,在检索中还 需要解决与实时性相关的控制问题。(3)噪声鲁棒的静态音频检索与索引问题 在实际的检索应用中,在背景声音相当大并且特征提取标注可能存在错误的情况 下,大多数检索算法的噪声鲁棒性不理想;其次,实现静态信息快速检索的最有 效方法就是对其建立索引,之后再进行检索。高维数据的

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号