多媒体信号处理-赵勇——音频信息检索技术

上传人:飞*** 文档编号:54679356 上传时间:2018-09-17 格式:PPT 页数:67 大小:1.37MB
返回 下载 相关 举报
多媒体信号处理-赵勇——音频信息检索技术_第1页
第1页 / 共67页
多媒体信号处理-赵勇——音频信息检索技术_第2页
第2页 / 共67页
多媒体信号处理-赵勇——音频信息检索技术_第3页
第3页 / 共67页
多媒体信号处理-赵勇——音频信息检索技术_第4页
第4页 / 共67页
多媒体信号处理-赵勇——音频信息检索技术_第5页
第5页 / 共67页
点击查看更多>>
资源描述

《多媒体信号处理-赵勇——音频信息检索技术》由会员分享,可在线阅读,更多相关《多媒体信号处理-赵勇——音频信息检索技术(67页珍藏版)》请在金锄头文库上搜索。

1、多媒体信号处理音频部分 第三讲 音频信息检索技术,申凌 北京大学深圳研究生院,提纲,Introduction: 基于内容的音频检索 音频指纹检索 音频例子检索 语音检索 哼唱检索 研究展望,基于内容的音频检索,互联网上音乐资源越来越多 iTunes 超过千万 谷歌搜索-巨鲸音乐库: 100万 目前主要的搜索方式是文本搜索 播客检索 音乐检索 歌名 歌手 专辑 歌词,基于内容的音频检索,Content-based Music Information Retrieval (CBMIR) 在服务端(音乐数据库) 波形文件(wav, mp3, wma) 特征信息 旋律(乐谱、mid) 在客户端(查询方

2、式) 音频原音 音频例子 哼唱检索,音频信息的三个层次,物理特征 元素:波形 幅度、频谱、短时特征 听觉特征 响度、音高、音色 节奏与弦律 概念层面 类别、语义、情感,音频信息的层次结构,波形,短时能量、短时过零率、短时频谱、LPC系数、MFCC,10-20ms,20us-125us,0.3-1.5s,音素: a o e I u v b p,音符: ABCDEFG,5-10s,句子: 字、词组成,旋律与节奏,1-5m,段落、文章,歌曲,5m,思想、语义,类别、情绪、意境,Low Level,Middle Level,High Level,语音检索,音频例子检索、音频指纹检索,音乐检索,音频检索

3、的指标,查准率 查全率,正确的查询结果,错误的查询结果,正确但没有出现的结果,音频检索的基本步骤,特征提取 相似度计算 索引及快速搜索方法,特征提取,模式匹配,数据库索引,特征提取,输入信号 检索源数据 database,参考信号 检索目标信号 query,Top N best,音频指纹检索(1),音频指纹(Audio Fingerprint, Audio Hash):表征一段音频的独特特征。如果一段音频来源于同一张CD,无论其编码格式如何,其音频指纹都非常相似。否则,音频指纹不同。 输入:音频片段 希望输出:与输入片段听上去一模一样的音频片段 应用 歌曲识别:Shazam, Gracenot

4、e, 酷我歌词 版权监控,音频指纹检索(2),音频指纹的特性 准确性(Accurary) 可靠性(Reliability) 鲁棒性(Robust) 颗粒度(Granularity) 安全性(Security) 多样性(Versatility) 扩展性(Scalability) 复杂度(Complexity),音频指纹检索(3),应用:歌曲识别 全曲识别:酷我歌词 片段识别:Shazam无线歌曲识别服务,音频指纹检索(4),应用:与音频水印结合的版权保护,指纹嵌入水印中,指纹比较,音频指纹检索(5),其他应用: 互联网音频版权监控 音频广播监控 公众场所音频内容监控,音频指纹检索(6),基本框架

5、,音频指纹检索(6),前端处理,音频指纹检索(7),常用的特征提取方法,音频指纹检索(8),相似性度量 欧几里德距离 汉明距离 指数距离 搜索方法 离线计算距离并索引 用简单的相似度量进行粗匹配 文件索引,音频指纹检索(9),Philips方案Haitsma, 2002 ,音频指纹检索(10),指纹图形表示,音频指纹检索(11),搜索方法:文件索引,音频指纹检索(12),另一个特征提取的例子:libfoo,音频指纹检索(13),粗匹配与精确匹配,音频指纹检索(14),近似最近邻匹配算法(App. Nearest Neighbor),音频例子检索(1),输入:音频片段,广泛的音频类别:语音、音乐

6、或其他(如:雨声、鸟叫声、发动机的声音等)。 希望输出:听上去与输入相似的音频片段。,音频例子检索(2),特征提取:动态直方图Kashino, 1999 归一化频带能量,2-order IIR filterbank,Audio Samples,短时能量,短时能量,能量 归一化,直方图,每个子带信号(N帧)统计1个直方图,音频例子检索(3),相似性度量:直方图交集,音频例子检索(4),直方图无法表示音频帧时序关系,引入多个子窗 直方图相似度在移动p帧后增长的上限为,P为直方图的帧数,只有在相似度上限大于阈值才计算相似度,可以跳跃式搜索,音频例子检索(5),树与链表相结合的索引,F1+F2+F3+

7、F4,F1+F2,F3+F4,F1,F2,F3,F4,对于不同长度的 检索目标可以选择 合适层次范围搜索。 代价是索引数据 存储量大,语音检索(1),基于关键词检出技术 基于声学层面的算法:如filler模板,two-pass解码机制 检索速度无法满足要求:几秒内检索几十到几百小时的语音数据。 基于大词表连续语音识别技术 查询语音-文字,语音库-文字 例如:google audio,只能检索新闻广播。,语音检索(2),基于子词基于的语音检索 由于语音识别,音字转换的准确率不够。在对音频数据进行索引时可以采用子词单元的表示形式。 不受词表大小的限制,对语音识别错误有较好的鲁棒性。,nin2,ni

8、2,hao2,ha,o,语句“你好”的音素网格,语音检索(3),基于说话人的语音检索 输入:一个人的说话的语音片段 目标:语音库中所有与输入说话人相同的语音 特征:基于倒谱特征的混合高斯模型,会议文本数据库,会议音频数据库,说话者模型,特征分析,文本分析,Viterbi对齐,说话人顺序,时间标记,说话人索引,MIT Media Lab 会议录音浏览系统,音乐检索,音乐数据 表示形式 结构化的符合表示形式:MIDI, MusicXML 音频形式: wav, mp3, wma, rm 乐谱形式 音乐内容 单声部音乐(monophonic music) 齐奏音乐(homophonic music)

9、多声部音乐(polyphonic music),音乐检索,检索方式 哼唱(query-by-humming) 对用户要求低、使用简便,是最主要的音乐检索方式。 节拍拍打 演奏输入(如使用MIDI键盘) 乐谱输入(如直接输入音符序列),哼唱检索(1),开拓性的工作,Ghias 1995,旋律被表示为三个字符的字符串 U-Up, D-Down, S-Same,贝多芬第5交响曲 - S S D U S S D,哼唱搜索(2),字符串近似匹配,哼唱搜索(3),系统工作流程,音符分割,基音提取,旋律编码,旋律匹配,乐曲索引,乐曲库,Top N歌曲片段,哼唱片段,哼唱搜索(4),音符切分 对输入信号的对数

10、能量曲线平滑后,根据曲线的极大值和极小值估计出有声区的能量阈值,切割出有声片段。 用户采用Da-Da-Da方式输入,切分比较准确,如果唱歌词切分毕竟困难。 可以采用其他一些特征,如过零率、倒谱峰值等提供切分准确度。,哼唱搜索(6),基音提取 计算有声段每一帧信号的基频:60-1000Hz 将基频转换为半音单位 通过多帧加权平均的方法计算一个音符的音高。,哼唱搜索(7),基音提取方法 时域方法 频域方法 统计方法,哼唱搜索(8),时域基音提取方法:自相关 The correlation between two waveforms is a measureof their similarity.

11、The waveforms are compared at different time intervals,and their “sameness” is calculated at each interval. The autocorrelation function itself is periodic. Problems with this method arise when the autocorrelation of a harmonically complex, pseudoperiodic waveform is taken.,哼唱搜索(9),时域基音提取方法(YIN) The

12、 difficulty withautocorrelation techniques hasbeen that peaks occur at subharmonics as well, and it is sometimes difficult to determine which peak is the fundamental frequency and which represent harmonics orpartials. YIN attempts to solvethese problems by in severalways. In order to reduce the occu

13、rrence of subharmonic errors, YIN employes a cumulative mean function which de-emphasizes higher period dips,哼唱搜索(10),频域基音提取方法 1979, Martin Piszczalski, complete automatic music transcription system Spectral transform and identify the partials in the signal using peak detection. For each pair of the

14、se partials, the algorithm finds the “smallest harmonic numbers” that would correspond to a harmonic series. Work through each pair and a hypothetic f0 is made. Higher amplitude pair has higher weight. This method does not require that the fundamental frequency of the signal be present, and it works

15、 well with inharmonic partials and missing partials.,哼唱搜索(11),其他基音提取方法 神经网络 最大似然估计 心理声学模型,哼唱搜索(12),基音提取方法 时域方法 频域方法 统计方法,哼唱搜索(13),旋律编码 音高差 Ghias: UDS 重升、升、相同、降、重降 半音音高差 相对音高 基于frame的编码 基于音符的编码,哼唱搜索(14),旋律匹配 近似字符串匹配 动态时间归正(Dynamic Time Wraping) 基于统计模型的算法,如HMM 基于特征空间的算法,如ANN,旋律搜索(15),动态时间归正(DTW)算法,线性对

16、齐,旋律搜索(16),动态时间归正(DTW)算法,非线性对齐,旋律搜索(17),动态时间归正(DTW)算法 一种弹性模板匹配技术 更加局部相似性技术,找到一种“最佳”的对齐方式。(非线性伸缩),旋律搜索(18),动态时间归正(DTW)算法,旋律搜索(19),动态时间归正(DTW)算法,旋律搜索(20),动态时间归正(DTW)算法,旋律搜索(21),动态时间归正(DTW)算法,离散时间DTW,旋律搜索(22),动态时间归正(DTW)算法,旋律搜索(23),动态时间归正(DTW)算法,旋律搜索(24),动态时间归正(DTW)算法,旋律搜索(25),动态时间归正(DTW)算法,旋律搜索(26),动态时间归正(DTW)算法,旋律搜索(27),动态时间归正(DTW)算法,旋律搜索(28),动态时间归正(DTW)算法,旋律搜索(29),动态时间归正(DTW)算法,旋律搜索(30),动态时间归正(DTW)算法,旋律搜索(31),DTW应用于旋律匹配,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号