基于内容的音乐检索技术研究定稿.doc

资源描述

《基于内容的音乐检索技术研究定稿.doc》由会员分享，可在线阅读，更多相关《基于内容的音乐检索技术研究定稿.doc（35页珍藏版）》请在金锄头文库上搜索。

1、江西科技师范学院毕业设计论文毕业设计论文题目中文基于内容的音乐检索技术研究外文 Research on Content Based Music Retrieval Technology 系院专业学生姓名学号指导教师 2011 年 5 月 6 日成绩 0 目录目录 1 绪论 1 1 1 课题研究的目的和意义 1 1 2 国内外研究状况 2 1 3 核心问题和关键技术 3 2 基于内容的音乐检索基础 4 2 1 音乐乐理基础 4 2 2 音乐信号的特征 6 2 3 音乐旋律的表示方法 9 2 4 音乐信息检索 12 3 MP3 音乐格式分析和旋律特征抽取 14

2、3 1 MP3 的音乐格式分析及编解码算法 14 3 2 旋律特征提取 22 4 单声部音乐检索 26 4 1 类简谱 26 4 2 单声部查询音乐的类简谱表示 27 4 3 检索和匹配过程 27 4 4 简单举例 27 5 多声部音乐检索 30 5 1 MARKOV模型和隐 MARKOV模型简介 30 5 2 和弦特征 31 5 3 HMM 和声模型 32 6 总结 33 参考文献 34 1 基于内容的音乐检索技术研究基于内容的音乐检索技术研究摘要摘要音乐是一类重要的音频数据传统的音乐检索都是基于关键词的检索使用受限随着互联网的快速发展及数字化设备的普及基于内容的音乐检索研究得

3、到广泛的关注基于内容的音乐检索就是把音乐本身的内涵如节奏旋律和弦伴奏音型音色等作为查询条件对一个由不同格式的音频媒体如MIDI MP3或其它格式的波形音乐所构成的音乐数据库实施查询检索以获取数据库中满足查询条件或包含相同或相似音乐片段的音乐资源这些表征不同音乐内涵的查询条件可以通过哼唱或借助现有的乐谱输入工具输入到检索系统中以实施检索本论文对基于内容的MP3音乐检索技术进行了研究并实现了一个灵活的具有多种查询音乐输入方式的MP3音乐检索原型系统关键词关键词音乐检索计算机音乐 MP3 特征提取近似匹配 1 1 绪论绪论 1 11 1 课题研究的目的和意义

4、课题研究的目的和意义音乐是一类重要的音频数据传统的音乐检索都是基于关键词的检索使用非常受限随着多媒体和 Internet 的广泛应用和深入普及多媒体数据的数量正在呈指数增长音频数据作为多媒体数据的重要组成部分其信息量也在迅速膨胀面对如此海量的音频数据如何快速准确地检索到所需的音频已成为音频检索领域的一个热点传统的音频检索采用文本检索技术它们使用基于标题或文件名的文本标注方式允许用户通过音频名称等关键字进行检索诸如我们生活中接触到的 Google 和 baidu 这样的搜索引擎但是基于文本标注的音频检索方式具有其固有的局限性 1 对音频信号的文本描述具有不

5、完整性和主观性 2 音频信息的数量庞大并增长迅速人工标注需要花费比较高的成本并且根本无法完成对如此大规模音频数据的标注 3 不能支持实时音频数据流的检索 4 无法检索出与指定音频数据相同的信息等为了解决上述问题基于内容的音乐检索技术应运而生所谓基于内容的音频检索是指通过音频特征分析对不同音频数据赋以不同的语义使具有相同语义的音频在听觉上保持相似其中基于内容的音乐检索是具有较高实用价值的一部分基于内容的音乐检索是根据音乐的内容特征如音乐的旋律节奏等进行检索目前的音乐检索方式大多是基于文本的即根据歌名演唱者歌词等关键字进行检索人们想查找到某首歌曲时

6、只有通过这首歌曲的这些文字性信息才能进行检索如果忘记了这些文字性信息就无法找到自己想要的歌曲这显然不能满足人们的搜索需要另外基于文本描述的音乐检索还需要人们对大量的音乐文件进行标注这种工作费时又费力并且音乐CD层出不穷完成对如此大规模音乐的标注几乎是不可能的最重要的是 2 音乐的旋律节奏等重要特性无法用文本表达清楚为了解决以上问题就需要寻找其它的检索方式使得用户可以方便快捷地找到想要的音乐假如我们能通过这样一种检索方式使得用户在不知道某首歌曲的名字或演唱者等文字信息但是对这首歌的旋律和风格等非常熟悉的情况下对着麦克风将他熟悉的旋律哼或唱出来

7、然后通过计算机就可以检索出与哼唱旋律类似的歌曲该有多好这种新颖的检索方式称为哼唱检索哼唱检索是一种基于内容的音乐检索方式它通过用户哼唱进行检索使得用户只需哼唱一个歌曲片段系统便能根据用户哼唱的旋律在音乐数据库中搜索出与之相似的歌曲相对于传统的基于关键字形式的用户接口哼唱检索给用户提供了更便捷更自然更人性化的检索方式并且给用户带来更佳的搜索体验 6 1 21 2 国内外研究状况国内外研究状况相对于文本和图像检索基于内容的音乐信息检索技术的研究起步较晚成果也比较有限但自上个世纪90年代以来研究工作取得较大进展在该研究领域中比较重要的期刊和会议包括I

8、EEE Transaction on Speech and Audio Proeessing IEEE Transaetion on Multimedia IEEE Transaction on signal Proeessing IEEE Intemational Conference on Acousties Speech and Signal proeessing ICASSP Intemational symposium on Music Information Retrieval IsMIR 等基于内容的音乐信息检索最早可以追溯到上世纪60年代中期美国康奈尔大学 Cornell

9、University的Micheal Kassler和他的同事 1966 1970 己着手开始研究之后直到1995年同一所大学的Ghias 1995 等人开发了第一个哼唱检索QBH系统重新开启了这方面的研究工作近些年随着个人计算机和互联网的普及数字音乐产业的快速发展及人们对搜索技术的日益重视基于内容的音乐检索得到了迅猛发展 2006年 COMMUNICA TIONS OF THE ACM杂志对音乐信息检索等相关内容进行了专题探讨 BP 2006 RD 2006 AW 2006 在国外包括Midomi http www songtap 和TuneSpotting 等基于内容

10、的音乐搜索引擎已经推向实用在国内中科院上海交通大学李扬等 2003 西安交通大学浙江大学冯等 2004 西北大学赵 2005 郭 2006 等院校开展了相关的研究工作清华大学中科院自动化所台湾清华大学上海交通大学西安电子科技大学北京师范大学西北大学 3 等多家单位也开展了相关的研究工作也取得了一定的进展基于内容的音乐检索经过十多年的发展虽然取得了不小的成就但是在应用方面成果有限研究的重心还只是停留在理论的层面上目前可供用户使用的哼唱检索系统很少哼唱检索的应用仍停留在初始阶段而另一方面音乐产业发展迅猛新的音乐不断大量涌现音乐爱好群体

11、的需求旺盛虽然取得了很大的成就但是在应用方面还不是很完善可供用户使用的哼唱检索系统也不多因此哼唱检索还有广阔的发展前景基于内容的音乐检索存在广阔的发展空间 1 31 3 核心问题和关键技术核心问题和关键技术从已有的研究可以总结出哼唱是输入的基于内容的音乐检索的核心问题和关键技术旋律是乐曲相似性的决定性依据已经成为不争的事实于是围绕着乐曲旋律的相似匹配我们总结出哼唱检索的三个核心问题旋律的表示形式提取得到的特征值以怎样数据结构存储旋律的特征提取特征提取是指在输入音频经过基本信号处理后如何从中量化和提取描述了旋律特征的参数值比如音高节奏旋律的匹配算法如何

12、评价和计算数字化的旋律之间的相似性其中旋律的匹配算法处于主导和决定性的位置围绕着如何解决这三个核心问题已有的研究提出了多种不同的方案每一种方案都涉及了一系列关键技术其中有些技术相对更通用一些比如语音信号处理在所有的方案中都有出现而另一些技术则针对性比较强往往是某种方案所特有的下面试对前人已经提出的各种方案和关键技术作一小结基于近似符号匹配的检索方案这大概是被研究和运用得最为广泛的一种方案它基于旋律是由音符组成这一观点一般先对输入语音作能量分析提取出音符再作基音检测提取出每个音符的音高从而将哼唱信号转换成一个音符序列然后运用传统的近似符号匹配算法与

13、音乐库中的已知旋律的音符序列逐一匹配得到检索结果基于音高曲线匹配的检索方案这种方案认为旋律是音高随时间的起伏一般把输入语音作短时分帧后对每一帧作基音提取然后相连构成音高随时间的变化曲线与音乐库中已知旋律的音高曲线比较计算误差得到检索结果 4 基于统计模型的检索方案该方案依据的是旋律频谱特征值在统计上的规律对旋律信号作短时分帧从每帧的频谱提取特征向量考察这些特征向量序列在统计上的规律多采用Markov 统计模型在检索前要对每首已知旋律分别训练建模然后计算待测旋律在这些模型上的概率挑选概率最大的作为检索结果 15 2 2 基于内容的音乐检索基础基于内容的音

14、乐检索基础音乐与人的听觉感知密切相关它更多地表达了一种感情是一种很难量化的情绪传统的音乐检索使用歌名等关键字来进行而基于内容的音乐检索则是根据音乐的内容特征如音高节奏等音乐特征进行检索本章在研究音乐乐理相关知识音乐信号特征以及音乐旋律表示方法的基础上给出了哼唱检索的特征表示形式及基于内容哼唱检索的基本框架 2 12 1 音乐乐理基础音乐乐理基础音是一种物理现象是由发音体发出的一系列频率振幅各不相同的振动复合而成的其中整体振动所产生的音叫做基音各个部分振动所产生的音叫做泛音基音决定了音高在自然界中人的听觉能感受到的音很多但并不是所有的音都可以作为音乐

15、的材料在音乐中使用的音是人们在长期的生活实践中为了表现人们的生活或思想感情而特意挑选出来的一般只限于每秒振动27 4100次的范围内这些音被组成一个固定的体系用来表达音乐思想和塑造音乐形象在音乐中使用的有固定音高的音的总和叫做乐音体系乐音体系中的各音叫做音级音级有基本音级和变化音级两种其中七个具有独立名称的音级叫做基本音级乐音体系中的各音级都有各自的名称叫做音名七个基本音级的音名用拉丁字母标记为 C D E F G A B 演唱时将它们唱成 do re mi fa sol la si 在简谱中记为1234567 如图2 l所示升高或降低基本音级而得来的音

16、叫做变化音级 8 5 图图2 12 1 基本音级音名及唱名基本音级音名及唱名乐音体系中的音按照上行或下行次序排列起来叫做音列两个相邻的具有同样名称的音叫做八度半音是音高的最小单位将一个八度音分成十二等份每一份为半音全音由两个半音组成音程是指两个音级在音高上的相互关系是两个音符之间相差几个自然音音名的数量单位其度量单位是度度数并没有显示两个音符之间的实际距离实际距离是两个音符之间相差的半音个数因此度数相同的两个音符其实际距离未必相同如do和fa之间的度数是四度实际距离是5个半音 fa和si之间的度数也是四度实际距离却是6个半音音乐的基本要素是指构成音乐的各种元素包括音高音长音量和音色音高即声音的高低它由发声体振动频率次数的高低多少所决定发声体的振动频率越低振动次数越少音调越低发声体的振动频率越高振动次数越多音调越高例如男性唱歌时声带振动频率较低而女性唱歌时声带振动频率较高因此女性的音调比男性的音调高音长即声音的长短它由发声体振动延续时间的长短所决定延续时间越短音长越短延续时间越长

展开阅读全文

基于内容的音乐检索技术研究 定稿.doc

最新文档

基于内容的音乐检索技术研究定稿.doc