音频检索的关键技术与挑战

资源描述

《音频检索的关键技术与挑战》由会员分享，可在线阅读，更多相关《音频检索的关键技术与挑战（7页珍藏版）》请在金锄头文库上搜索。

1、音频检索的关键技术与挑战耳朵是我们每个人最为重要的身体器官之一，那么声音则是我们用来感知世界，认识世界的最重要的工具之一。如果没有声音，那么我们的生活将会黯然失色，毫无光彩，失去很多精彩的瞬间。我们都知道聋哑人刚刚开始的时候只是失去听力，感知不到声音，他们的说话能力并没有问题。但是在一天天的成长过程中，由于听不到声音，他们也就无法学习用语言交流，慢慢的慢慢的他们也就不会说话了，没有了语言能力。所以，从这个例子中，我们知道了声音对我们有多么的重要。科学家们也意识到了声音的重要性，逐渐地把音频做为了一种重要的研究对象。音频做为一种意义非凡的媒体，包含了非常丰富的听觉特征，可分为 3

2、类：语音（具有字词，语法等语素）；音乐（具有节奏，旋律和声音等要素）；波形声音（对模拟声音数字化而得到的数字音频信号）。而音频内容又可以分为3 个级别：底层（物理样本级）；中层（声学特征级）；高层（语义级）。音频检索是以波形声音为对象的检索，也是多媒体检索技术中的一个重要组成部分。我们都知道音频信息做为一种不透明的位流，虽然有外部属性，但是缺少关键词可以用来进行匹配的实体，可以通过方法将音频转化为文字进行检索。但是，缺点是:数据量越来越大，人工注释的工作量越来越大；人对音频的感知不准确；不能支持实时音频数据流检索。为了解决这些问题，音频检索应运而生。今天我们要根据当前的音频检索

3、各种技术发展，来好好地讨论现阶段一些音频检索技术研究中的关键技术：音频特征提取，音频分类，语音识别技术，特征相似度匹配等。音频信息检索技术有着广泛的应用前景：（1）它是智能语音系统的核心技术，用户可通过该技术方便快捷地获取所需的信息;（2）它可以实现对网络中的媒体，例如网上电视，音视频等的音频信息进行实时检索、审查和有效监控，对各种数字音频产品的版权保护，如音乐的版权保护，即搜索未经授权的使用等;（3）它在音频信息分类与统计技术的研究中也扮演着重要的角色，如在广播电视新闻节目、数字图书馆等内容中包含着大量的语音、音乐等信息，使用音频信息检索技术可以有效地对这些信息进行分类、统计与

4、检索，更好地管理、存储与高效利用这些资源。此外，它还可应用于网络管理、信息安全以及军事刑侦等诸多领域。早期的检索主要是采用文本检索技术，但是这种检索方式非常局限性。它是通过人工方式输入音频的属性和描述（例如文件名、文件格式等文本信息）来进行检索，但其局限性非常明显：首先，互联网信息庞杂，充斥着许多未标注、错误标注文件名等文本信息的音频数据，而如要正确标注互联网所有音频数据显然非人力所及；其次，许多现实的应用需要使用音频数据本身的感知内容，而这种感知内容通过简单的文件名等文本标注无法体现，如音乐的旋律、音调、音质等。再次，即便针对于语音信息，比如新闻记录、谈话记录等，通过文本检索技术

5、也仅仅是检索其文件标注，而不能检索其内容。由于它的种种局限性，所以产生了一种新的检索方式，即基于内容的音频检索。基于内容的音频信息检索技术是继基于内容的图像检索之后发展起来的一个新兴研究方向，是指通过音频特征分析，对不同音频数据赋以不同的语义，使具有相同语义的音频在听觉上保持相似，其中基于内容的音乐检索是具有较高实用价值的一个部分。它研究如何利用音频的幅度、频谱等物理特征，响度、音高、音色等听觉特征，词字、旋律等语义特征实现基于内容的音频信息检索。基于内容的音频检索，该方法是从媒体数据总体取出特定的信息线索，建立音频数据表示方法和数据模型，采用有效和可靠的查询处理算法，使得用户可

6、以在智能化的查询接口的辅助下，从大量存储数据库中的媒体进行查找，检索出与接收的音频信号具有相似特征的媒体数据出来。它实际上是一种相似查询，是检索出与用户指定的要求非常相似的所有声音。音频检索中的关键技术我们首先理解两个概念：（1）音频内容描述是整个基于内容的音频检索技术的核心技术。这里分语音内容和乐音内容两部分。音频内容描述是在音频内容获取的基础之上进行的，同时是进一步进行音频特征相似度匹配的必要前提。音频内容描述在本文中主要是指旋律包络曲线，这是因为一般来说，人在哼唱歌曲时，他人判断其哼唱的歌曲名字时是根据所哼唱的歌曲的旋律信息，而旋律信息，以旋律包络曲线表示，主要包含两个重

7、要的参数序列，一是音调变化信息，二是节奏信息。这两种音频描述跟音调持续时间长短及音调间的高低变化有关。（2）音频的相似度匹配是基于内容的音频检索技术的关键环节，匹配算法的性能直接影响着检索结果和整个系统性能。相似度匹配包括精确匹配、模糊匹配、相似度计算、相关度计算等，其性能各不相同适用范围也不同，通常根据实际需要对其进行组合使用。而音频检索技术中最关键的主要是音频内容识别、获取与分类、音频特征提取（音频内容的描述）和音频分割与分类和特征相似度匹配四个部分。首先是预处理阶段对输入的音频进行格式转换（在此实现多采样率支持，多格式支持（wav, mp3, rm），转换为系统内部统一格式，

8、之后再进行相应的工作。在按帧进行音频信号分析、提取音频信号参数之前，有一些经常使用的、共同的短时分析处理需要预先进行，如音频信号的滤波去噪声、预加重、加窗和分帧等处理。音频特征提取技术音频特征提取是整个音频检索最核心的技术，它是在音频内容获取的基础之上进行的，同时是进一步进行音频特征相似度匹配的必要前提，特征提取是指寻找原始音频信号的表达形式，提取出能代表原始信号的数据形式. 与文本检索中的特征是关键字不同，在音频数据中提取特征有两种方法，一种是提取听觉感知特征如音调、音高等。另一种是计算非感知特征或者称物理特征，如对数倒频谱系数、线性预测系数。要抽取特征和属性，通常要对数据库中

9、的多媒体数据项进行预处理。所有这些提取出来的特征被用来表征音频数据流，在检索过程中，是对这些特征和属性而不是对信息项本身进行搜索和比较，所以特征抽取的质量决定着检索效果。对于时域特征提取：其中有几个关键点，平均能量（说明了音频信号的强度），过零率（指每秒内信号值通过零值的次数），静音比（表示静音的声音片段的比例）；对于音频频域特征的提取：傅里叶变换可分解出音频信号的频率成分，可提取的音频频域特征有带宽，频谱中心，谐音，音调等，带宽（说明了声音的频率范围），频谱中心（是一个声音频谱能量分布的中心点），谐音（最低频率的倍数的频谱成分），音调（听觉分辨声音高低的特征，完全由频率决定，

10、可通过频谱估计）。音频分类由于音频信息是时间序列的数据流，为了对持续时间很长的音频直接进行处理，选择在其特征发生突变的地方进行分割，把连续多媒体数据流分成不同长度的数据片段，即音频分割，然后对分割好的数据片段进行处理。音频数据流分割基本是根据所提取的音频低层物理特征完成的，所分割出来音频数据只是些物理单元，需要对这些物理单元进行识别分类，将它们归属成事先定义好的不同语义类，这由音频识别分类这一步完成。根据音频的特征值可将音频进行分类，在这一步中，可以对分割出来的音频物理单元进行组分，如将切分出来的音频分类为静音、音乐和语音、环境音等，也可以进行某一事件或某一人物的精细分类，如

11、“暴力”事件、“演讲”事件等。常见的音频分类的方法及顺序如下：1.计算输入音频片段的频谱中心，如果比值高，则认为是音乐，否则是语音；2.计算静音比，如果静音比低，则认为是音乐，否则，认为它是语音或独奏音乐；3.最后计算平均过零率ZCR,如果ZCR 可变性高，则它是语音，否则它是独奏音乐。特征判定的顺序是非常重要的，一般首先判定差别性大，复杂性低的特征，这样可以降低整个计算量。语音识别技术ASR技术主要应用于语音检索领域，自动的语音识别（ASR）问题就是一个模式匹配问题，一个典型的 ASR 系统通常包括训练和模式匹配2 个阶段。1. 在训练阶段，ASR系统收集大量的发音者的语音序列，然

12、后ASR系统提取每个语音单位的特征并存放在系统中，通常最小的语音单位为音素。最常用的特征是MFCC 系数。2.在模式匹配阶段，系统用与训练阶段相似的方法对输入语音进行处理，产生特征矢量，再根据一定的准则以及专家知识，计算输入特征与库存模式之间的相似度，找到与输入语音的特征矢量最匹配的特征矢量的单词序列。采用 ASR 技术的语音索引和检索的方法主要有 4 种：（ 1 ）大词汇语音识别检索方法；（2）子词单元检索方法；（3）关键词识别检索方法；（4）发音者识别分割方法。最后我们需要对识别出来的语义类建立索引，进行检索。建立索引可以有三个途径：（1）用文字形成的抽象概念描述这些类别，这

13、样用户必须通过文字查询音频数据。（2）用音频特征建立索引，查询时用户提交的是对特征的描述，如对音频能量描述的“音调”。（3）提交一个音频例子，提取这个音频例子的特征，按照前面介绍的音频例子识别方法判断这个音频例子属于那一类，然后把识别出的这类所包含的若干个样本按序返回给用户，这是基于例子的音频检索。基于例子的音频检索遵循概率排队的规则，根据用户的查询需要，基于检索模型对查询样本和库中音频分别计算音频的相关特征，并比较相似性，最后按相似性值由大到小排列库中音频，完成一个查询过程。音频检索技术所面临的挑战那么，音频检索技术发展至今，在不断壮大与完善给人们带来便利的同时也在面临着

14、无限的挑战。我们都知道音频信号具有不准确性，常常是变化万千，我们根本没有模式去遵循，目前的研究大多基于听觉特征进行检索，因此如何基于语义内容进行检索也是一个亟待解决的热点问题。我们首先分析音频的特点，从音频的特点来分析音频检索所面临的挑战。音频本身具有的特点如下：（1）音频信号是时间依赖的连续媒体；（2）人接收声音有两个通道（左耳、右耳），因此为使计算机模拟接收自然声音，也应该有两个声道；（3）语音或乐音信号不仅仅是声音的载体，同时还携带了情感和意向，故对音频信号的处理，不仅是信号处理问题，还要抽取语义等其它信息。由于音频具有以上特点，基于人工输入的属性和描述来进行音频检索有其固有

15、的缺陷，势必要寻找一种新的途径来进行音频检索。然而尽管国内外研究者就音频信息检索技术开展了大量的研究工作，但音频检索技术在应用领域面临着重重困境。在理论研究方面，与文本信息检索及图像和视频信息检索技术相比，音频检索技术仍然是一个未成熟的、具有极大潜力的研究领域，还存在很多问题需要解决：（1）有效音频特征提取问题音频是应用最广泛的表示形式，却由于难以获得其有效信息，因此很难进行相关检索。要解决这个问题，首先需要实现音乐的自动标注，检测音频中同时发声的多个音符的基频，即多基频估计，以及识别音乐的旋律、节拍等语义内容。在实际的检索应用中，音频数据不可避免地存在噪声，在歌曲旋律检索时由

16、于存在大量的背景音乐而模糊了实际提取所需要的旋律特征。如何正确有效地进行音频特征提取，这方面研究难度很大，目前还处于初级阶段，很不成熟。（2）动态音频检索问题与静态音频信息相比，动态音频流具有实时性强、流过的数据无法重现且事先不能预知等特点。对动态音频检索，需要实时地获取音频流数据、计算特征以及匹配计算等，而且检索过程必须一次完成，无法采用基于用户反馈进行多次检索的机制。因此，要求动态音频检索首先具有足够的速度，即检索速度大于数据流到达的速度，这在多目标音频检索中的困难较大。其次，要求动态音频检索在噪声、检索目标发生部分残缺等情况下，均能达到较好的检索性能；最后，在检索中还需要解决与实时性相关的控制问题。（3）噪声鲁棒的静态音频检索与索引问题在实际的检索应用中，在背景声音相当大并且特征提取标注可能存在错误的情况下，大多数检索算法的噪声鲁棒性不理想；其次，实现静态信息快速检索的最有效方法就是对其建立索引，之后再进行检索。高维数据的

展开阅读全文

音频检索的关键技术与挑战

最新文档