基于内容的音乐检索技术研究 定稿.doc

上传人:marr****208 文档编号:134622377 上传时间:2020-06-07 格式:DOC 页数:35 大小:1.05MB
返回 下载 相关 举报
基于内容的音乐检索技术研究 定稿.doc_第1页
第1页 / 共35页
基于内容的音乐检索技术研究 定稿.doc_第2页
第2页 / 共35页
基于内容的音乐检索技术研究 定稿.doc_第3页
第3页 / 共35页
基于内容的音乐检索技术研究 定稿.doc_第4页
第4页 / 共35页
基于内容的音乐检索技术研究 定稿.doc_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《基于内容的音乐检索技术研究 定稿.doc》由会员分享,可在线阅读,更多相关《基于内容的音乐检索技术研究 定稿.doc(35页珍藏版)》请在金锄头文库上搜索。

1、江西科技师范学院 毕业设计 论文 毕业设计 论文 题 目 中文 基于内容的音乐检索技术研究 外文 Research on Content Based Music Retrieval Technology 系 院 专 业 学生姓名 学 号 指导教师 2011 年 5 月 6 日 成 绩 0 目录目录 1 绪论 1 1 1 课题研究的目的和意义 1 1 2 国内外研究状况 2 1 3 核心问题和关键技术 3 2 基于内容的音乐检索基础 4 2 1 音乐乐理基础 4 2 2 音乐信号的特征 6 2 3 音乐旋律的表示方法 9 2 4 音乐信息检索 12 3 MP3 音乐格式分析和旋律特征抽取 14

2、3 1 MP3 的音乐格式分析及编解码算法 14 3 2 旋律特征提取 22 4 单声部音乐检索 26 4 1 类简谱 26 4 2 单声部查询音乐的类简谱表示 27 4 3 检索和匹配过程 27 4 4 简单举例 27 5 多声部音乐检索 30 5 1 MARKOV模型和隐 MARKOV模型简介 30 5 2 和弦特征 31 5 3 HMM 和声模型 32 6 总结 33 参考文献 34 1 基于内容的音乐检索技术研究基于内容的音乐检索技术研究 摘要摘要 音乐是一类重要的音频数据 传统的音乐检索都是基于关键词的检索 使用受限 随着互联网的快速发展及数 字化设备的普及 基于内容的音乐检索研究得

3、到广泛的关注 基于内容的音乐检索就是把音乐本身的内涵 如节奏 旋 律 和弦 伴奏音型 音色等 作为查询条件 对一个由不同格式的音频媒体 如MIDI MP3或其它格式的波形音乐 所 构成的音乐数据库实施查询检索以获取数据库中满足查询条件或包含相同或相似音乐片段的音乐资源 这些表征不同音 乐内涵的查询条件可以通过哼唱或借助现有的乐谱输入工具输入到检索系统中以实施检索 本论文对基于内容的MP3音 乐检索技术进行了研究 并实现了一个灵活的具有多种查询音乐输入方式的MP3音乐检索原型系统 关键词关键词 音乐检索 计算机音乐 MP3 特征提取 近似匹配 1 1 绪论绪论 1 11 1 课题研究的目的和意义

4、课题研究的目的和意义 音乐是一类重要的音频数据 传统的音乐检索都是基于关键词的检索 使用非常受限 随着多媒体和 Internet 的广泛应用和深入普及 多媒体数据的数量正在呈指数增长 音频 数据作为多媒体数据的重要组成部分 其信息量也在迅速膨胀 面对如此海量的音频数据 如何快速 准确地检索到所需的音频已成为音频检索领域的一个热点 传统的音频检索采 用文本检索技术 它们使用基于标题或文件名的文本标注方式 允许用户通过音频名称等 关键字进行检索 诸如我们生活中接触到的 Google 和 baidu 这样的搜索引擎 但是 基于 文本标注的音频检索方式具有其固有的局限性 1 对音频信号的文本描述具有不

5、完整性和 主观性 2 音频信息的数量庞大并增长迅速 人工标注需要花费比较高的成本 并且根本 无法完成对如此大规模音频数据的标注 3 不能支持实时音频数据流的检索 4 无法检 索出与指定音频数据相同的信息等 为了解决上述问题 基于内容的音乐检索技术应运而 生 所谓基于内容的音频检索 是指通过音频特征分析 对不同音频数据赋以不同的语义 使具有相同语义的音频在听觉上保持相似 其中 基于内容的音乐检索是具有较高实用价 值的一部分 基于内容的音乐检索是根据音乐的内容特征 如音乐的旋律 节奏等进行检 索 目前的音乐检索方式大多是基于文本的 即根据歌名 演唱者 歌词等关键字进行检 索 人们想查找到某首歌曲时

6、 只有通过这首歌曲的这些文字性信息才能进行检索 如果 忘记了这些文字性信息 就无法找到自己想要的歌曲 这显然不能满足人们的搜索需要 另外 基于文本描述的音乐检索还需要人们对大量的音乐文件进行标注 这种工作费时又 费力 并且音乐CD层出不穷 完成对如此大规模音乐的标注几乎是不可能的 最重要的是 2 音乐的旋律 节奏等重要特性无法用文本表达清楚 为了解决以上问题 就需要寻找其它 的检索方式 使得用户可以方便 快捷地找到想要的音乐 假如我们能通过这样一种检索 方式使得用户在不知道某首歌曲的名字或演唱者等文字信息 但是对这首歌的旋律和风格 等非常熟悉的情况下 对着麦克风将他熟悉的旋律 哼 或 唱 出来

7、 然后通过计算 机就可以检索出与哼唱旋律类似的歌曲该有多好 这种新颖的检索方式称为哼唱检索 哼 唱检索是一种基于内容的音乐检索方式 它通过用户哼唱进行检索 使得用户只需哼唱一 个歌曲片段 系统便能根据用户哼唱的旋律在音乐数据库中搜索出与之相似的歌曲 相对 于传统的基于关键字形式的用户接口 哼唱检索给用户提供了更便捷 更自然 更人性化 的检索方式 并且给用户带来更佳的搜索体验 6 1 21 2 国内外研究状况国内外研究状况 相对于文本和图像检索 基于内容的音乐信息检索技术的研究起步较晚 成果也比 较有限 但自上个世纪90年代以来 研究工作取得较大进展 在该研究领域中 比较重要 的期刊和会议包括I

8、EEE Transaction on Speech and Audio Proeessing IEEE Transaetion on Multimedia IEEE Transaction on signal Proeessing IEEE Intemational Conference on Acousties Speech and Signal proeessing ICASSP Intemational symposium on Music Information Retrieval IsMIR 等 基于内容的音乐信息检索最早可以追溯到上世纪60年代中期 美国康奈尔大学 Cornell

9、University的Micheal Kassler和他的同事 1966 1970 己着手开始研究 之后直 到1995年 同一所大学的Ghias 1995 等人开发了第一个哼唱检索QBH系统 重新开启了 这方面的研究工作 近些年 随着个人计算机和互联网的普及 数字音乐产业的快速发展 及人们对搜索技术的日益重视 基于内容的音乐检索得到了迅猛发展 2006年 COMMUNICA TIONS OF THE ACM杂志对音乐信息检索等相关内容进行了专题探讨 BP 2006 RD 2006 AW 2006 在国外 包括Midomi http www songtap 和TuneSpotting 等基于内容

10、的音乐搜索引擎已 经推向实用 在国内 中科院 上海交通大学 李扬等 2003 西安交通大学 浙江大学 冯等 2004 西北大学 赵 2005 郭 2006 等院校开展了相关的研究工作 清华大学 中科院 自动化所 台湾清华大学 上海交通大学 西安电子科技大学 北京师范大学 西北大学 3 等多家单位也开展了相关的研究工作 也取得了一定的进展 基于内容的音乐检索经过十多年的发展 虽然取得了不小的成就 但是 在应用方面 成果有限 研究的重心还只是停留在理论的层面上 目前 可供用户使用的哼唱检索系统 很少 哼唱检索的应用仍停留在初始阶段 而另一方面 音乐产业发展迅猛 新的音乐不 断大量涌现 音乐爱好群体

11、的需求旺盛 虽然取得了很大的成就 但是在应用方面还不是 很完善 可供用户使用的哼唱检索系统也不多 因此 哼唱检索还有广阔的发展前景 基 于内容的音乐检索存在广阔的发展空间 1 31 3 核心问题和关键技术核心问题和关键技术 从已有的研究可以总结出哼唱是输入的基于内容的音乐检索的核心问题和关键技术 旋律是乐曲相似性的决定性依据已经成为不争的事实 于是围绕着乐曲旋律的相似匹配 我们总结出哼唱检索的三个核心问题 旋律的表示形式 提取得到的特征值以怎样数据结构存储 旋律的特征提取 特征提取是指在输入音频经过基本信号处理后 如何从中量化和提 取描述了旋律特征的参数值 比如音高 节奏 旋律的匹配算法 如何

12、评价和计算 数字化的 旋律之间的相似性 其中旋律的匹配算法处于主导和决定性的位置 围绕着如何解决这三个核心问题 已有的研究提出了多种不同的方案 每一种方案都 涉及了一系列关键技术 其中有些技术相对更通用一些 比如语音信号处理 在所有的方 案中都有出现 而另一些技术则针对性比较强 往往是某种方案所特有的 下面试对前人已经提出的各种方案和关键技术作一小结 基于近似符号匹配的检索方案 这大概是被研究和运用得最为广泛的一种方案 它基于旋律是由音符组成这一观点 一般先对输入语音作能量分析 提取出音符 再作基音检测 提取出每个音符的音高 从 而将哼唱信号转换成一个音符序列 然后运用传统的近似符号匹配算法与

13、音乐库中的已知 旋律的音符序列逐一匹配 得到检索结果 基于音高曲线匹配的检索方案 这种方案认为旋律是音高随时间的起伏 一般把输入语音作短时分帧后 对每一帧作 基音提取 然后相连构成音高随时间的变化曲线 与音乐库中已知旋律的音高曲线比较 计算误差 得到检索结果 4 基于统计模型的检索方案 该方案依据的是旋律频谱特征值在统计上的规律 对旋律信号作短时分帧 从每帧的 频谱提取特征向量 考察这些特征向量序列在统计上的规律 多采用Markov 统计模型 在检索前要对每首已知旋律分别训练建模 然后计算待测旋律在这些模型上的概率 挑选 概率最大的作为检索结果 15 2 2 基于内容的音乐检索基础基于内容的音

14、乐检索基础 音乐与人的听觉感知密切相关 它更多地表达了一种感情 是一种很难量化的情绪 传统的音乐检索使用歌名等关键字来进行 而基于内容的音乐检索则是根据音乐的内容特 征 如音高 节奏等音乐特征进行检索 本章在研究音乐乐理相关知识 音乐信号特征以及音乐旋律表示方法的基础上 给出 了哼唱检索的特征表示形式及基于内容哼唱检索的基本框架 2 12 1 音乐乐理基础音乐乐理基础 音是一种物理现象 是由发音体发出的一系列频率 振幅各不相同的振动复合而成的 其中 整体振动所产生的音叫做基音 各个部分振动所产生的音叫做泛音 基音决定了音 高 在自然界中 人的听觉能感受到的音很多 但并不是所有的音都可以作为音乐

15、的材料 在音乐中使用的音是人们在长期的生活实践中为了表现人们的生活或思想感情而特意挑选 出来的 一般只限于每秒振动27 4100次的范围内 这些音被组成一个固定的体系 用来 表达音乐思想和塑造音乐形象 在音乐中使用的 有固定音高的音的总和 叫做乐音体系 乐音体系中的各音叫做音 级 音级有基本音级和变化音级两种 其中 七个具有独立名称的音级叫做基本音级 乐 音体系中的各音级都有各自的名称 叫做音名 七个基本音级的音名用拉丁字母标记为 C D E F G A B 演唱时将它们唱成 do re mi fa sol la si 在简谱中记 为1234567 如图2 l所示 升高或降低基本音级而得来的音

16、 叫做变化音级 8 5 图图2 12 1 基本音级 音名及唱名基本音级 音名及唱名 乐音体系中的音 按照上行或下行次序排列起来 叫做音列 两个相邻的具有同样名称的音叫做八度 半音是音高的最小单位 将一个八度音分成十二等份 每一份为半音 全音由两个半 音组成 音程是指两个音级在音高上的相互关系 是两个音符之间相差几个自然音音名的数量 单位 其度量单位是度 度数并没有显示两个音符之间的实际距离 实际距离是两个音符 之间相差的半音个数 因此 度数相同的两个音符 其实际距离未必相同 如do和fa之间 的度数是四度 实际距离是5个半音 fa和si之间的度数也是四度 实际距离却是6个半音 音乐的基本要素是指构成音乐的各种元素 包括音高 音长 音量和音色 音高即声音的高低 它由发声体振动频率 次数 的高低 多少 所决定 发声体的振动 频率越低 振动次数越少 音调越低 发声体的振动频率越高 振动次数越多 音调越高 例如 男性唱歌时声带振动频率较低 而女性唱歌时声带振动频率较高 因此 女性的音 调比男性的音调高 音长即声音的长短 它由发声体振动延续时间的长短所决定 延续时间越短 音长越 短 延续时间越长

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号