多媒体元数据研究－金锄头文库

资源描述

《多媒体元数据研究》由会员分享，可在线阅读，更多相关《多媒体元数据研究（42页珍藏版）》请在金锄头文库上搜索。

1、多媒体元数据研究n1、多媒体资源nAudio Visual MetadatanECHO (European Chronicles On-line，欧洲编年史在线)nMEPG-7nMPEG-21nVRA Core CategoriesnEAD(编码文档描述)2、数字图像资源nMOA (the Making of American) 2 数字图像元数据nCDL数字图像元数据nDig35nNISO/CLIR/RLG的图像技术元数据n3、元数据编码与传输标准METSnMetadata Encoding and Transmission Standardnhttp:/www.loc.gov/stan

2、dards/metsn由数字图书馆联盟(Digital Library Federation)发起研发，现由美国图书馆代表大会网络发展与MARC标准办公室负责维护n目标：n期望能针对数字图书馆对象的编码叙述、管理与元数据构建提供一个以XML为基础的框架n内容涵盖四个方面：n描述性元数据(Descriptive Metadata)n管理性元数据(Administrative Metadata)n文件群组(File Groups)n结构地图(Structural Map)nMETS除可以作为对象间交换的标准外，还可以作为对象保存、访问、展示的编码机制n4、MPEG系列标准（1、2、4、7、

3、21）MPEG是专门从事多媒体音、视频压缩技术标准制定的国际组织，成员包括来自近30个国家、200多个公司的400多位专家。该组织自1988年以来，已经制定了一系列国际标准，其中MPEG-1、MPEG-2已为人们所熟知，它们为VCD、DVD及数字电视等产业的发展奠定了基础。目前正在制定的MPEG-4、MPEG-7和MPEG -21将为多媒体数据压缩和基于内容检索的数据库应用提供一个更为通用的平台，必将对下一代视、音频系统和网络应用产生深远的影响。 nMPEG-1：存储和回放 MPEG-1制定于1993年，是针对1.5Mbps以下数据传输率的数字存储媒介运动图像及其伴音编码的国

4、际标准，主要用于在CD-ROM上存储同步和彩色运动视频信号。 nMPEG-2：数字电视 MPEG-2出台于1995年，它是针对HDTV和 DVD等制定的3Mbps10Mbps的运动图像及其伴音的编码标准。它的出现使得基于CD-ROM 的交互式电视和数字电视成为了可能。 nMPEG-4：基于对象的存取 MPEG-4于1999年成为国际标准。它和MPEG- 1和MPEG-2的重点在于编码效率上不同的是， MPEG-4的目标是提出一种新的方式来传输、访问和操作数字视听数据。MPEG-4计划为多种通讯规范提供一种普遍的技术解决方案，最终消除它们之间的差别。与MPEG-1和MPEG-2的另一

5、点不同是，MPEG-1和MPEG-2是基于帧的规范，而MPEG-4则是基于对象的规范。 n4.1 MPEG-7：多媒体内容描述随着Internet的普及和网络带宽的增加，产生了大量的多媒体数据，如何在浩如烟海的信息中快速、容易地获得自己所需的内容则成为当前必须解决的问题。在此需求下，MPEG-7应运而出。MPEG-7力求能够快速且有效地搜索出用户所需的不同类型的多媒体信息。该标准主要致力于视听数据的信息编码表达，换句话说也就是集中在对多媒体材料描述的通用接口的标准化上。 MPEG-7的功能与其他MPEG标准互为补充。 MPEG-1、 MPEG-2和MPEG-4是内容本身的表

6、示，而MPEG-7是有关内容的信息，是比特的比特。nMPEG-7中的主要概念数据(Data) 是用MPEG-7描述的视听资料，不考虑它们的存储、编码、显示、传输、媒介或技术。该定义非常广泛，包含图形、静止图像、视频、影片、音乐、语音、声音、文本和其他相关的AV媒体。 - 特征(Feature) 指数据的特性。特征本身不能比较，而要用有意义的特征表示(描述子)和它的实例(描述值)。如图像的颜色、语音的声调、音频的旋律等。 - 描述子(Descriptor，D) 是特征的表示。它定义特征表示的句法和语义，可以赋予描述值。一个特征可能有多个描述子，如颜色特征可能的描述子有：颜色直方

7、图、频率分量的平均值、运动的场描述、标题文本等。 - 描述值(Descriptor Value) 是描述子的实例。描述值与描述模式结合，形成描述。 -描述模式(Description Scheme，DS) 说明其成员之间的关系结构和语义。成员可以是描述子和描述模式。DS和 D的区别是：D仅仅包含基本的数据类型，不引用其他D 或DS。如对于影片，时间结构化为场景和镜头，在场景级包括一些文本描述子，在镜头级包含颜色、运动和一些音频描述子。 - 描述(Description) 一个描述由一个描述模式(结构)和一组描述值组成。 - 编码的描述(Coded Description) 是对已完

8、成编码的描述，满足诸如压缩效率、差错恢复和随机存取的相关要求。 - 描述定义语言(Description Definition Language，DDL) 是一种允许产生新的描述模式和描述子的语言，允许扩展和修改现有的描述机制。 -为了更好地理解这些术语，请参看图1。图中解释了 MPEG-7在实际系统中的位置。圆角框表示处理工具，矩形框表示静态元素，阴影部分包含MPEG-7标准的规范元素：DDL提供建立描述模式的机制，然后将描述模式作为基础，产生一个描述。nMPEG-7的范围下图是MPEG-7处理链的一种高度抽象示意图，用于解释MPEG-7的范围。它包括特征抽取(分析)、描述本身

9、和搜索引擎(应用)。nMPEG-7对视觉数据的描述MPEG-7具体对视觉方面的描述子和描述模式有以下方面的要求:(1) 特征类型 - 视觉描述允许以下特征(与查询中使用的信息类型有关)：颜色、视觉对象、纹理、轮廓(草图)、形状、静止和动态图像、体积、空间关系(相对于图像和图像序列中的对象空间和拓扑关系，这个关系是空间合成关系)、运动(如视频镜头中的运动，用于利用时间合成信息来检索等方面)、变形(如对象的弯曲)、视觉对象的源和它的特性(如源对象、源事件、源属性、事件、事件属性等)、模型(如 MPEG-4 SNHC)。 (2) 利用描述进行数据可视化 - MPEG-7数据描述应该容许被

10、索引数据或多或少地粗略可视化。(3) 可视数据的格式 - 支持以下可视数据格式：数字视频和电影(例如MPEG- 1/2/4)、模拟视频和电影、电子形式的静态图像(如JPEG)或纸上的图像、图形、 3D模型以及与视频关联的编辑数据。(4) 可视数据类型 - 可以是自然视频、静态图像、图形、动画、三维模型、编辑信息。nMPEG-7对听觉数据的描述(1) 特征类型 - 频率轮廓线、音频对象、音色、和声、频率特征、振幅包络、时间结构(包括节奏)、文本内容(语音或歌词)、声波近似值(通过哼唱一段旋律或发出一种声音效果来生成)、原型声音(典型的用于示例查询)、空间结构(用于多通道声源，如立体声、5

11、.1通道等，每个声道有特定的映像)、声源和它的特性(例如源对象、源时间、源属性、事件、事件属性和典型的关联场景)、模型(如MPEG-4 SAOL)。 - (2) 描述数据的听觉化 - 类似视觉数据的要求。 - (3) 听觉数据格式 - 数字音频(如MPEG-1音频、CD)、模拟音频(如录音带介质)、MIDI( 包括一般的MIDI和Karaoke格式)、基于模型的音频、产品数据。 - (4) 听觉数据类 - 声音轨迹(自然音频场景)、音乐、原子声音效果(如掌声)、语音、符号音频表示(MIDI、SNHC音频)、混音信息(包括效果)。 n4.2 MPEG-7的“拉”应用1）视频数据库的存储和检

12、索 - 电视和电影档案中保存有大量的各种格式的多媒体资料，如数字、模拟磁带和胶片、CD等，这些资料不一定有描述信息(元数据)，即使有也大都是简单的文本描述，它们以专用的格式存储在数据库中，因此，需要按照国际标准格式进行存储和交换。另外，要对大量旧的模拟视听资料进行数字化，在数字化和压缩阶段，可以在数据库中使其包含基于内容的索引特征。对于新的视听媒体，在视频生产的各个阶段可以把描述信息附加在视频流上，从而极大地提高了用手工进行有限词汇注释的质量和生产率。“拉”应用2）专业媒体制作方面的图片和视频提交 - 演播室需要向电视频道提交适当的视频，另外还需要编辑一段库中的视频，如编辑

13、记录片和广告片等。 - 在这个应用中，用户是专业性的。演播人员可以基于元数据和视频片段来提交一个完整的视频，可以基于客观特性和主观特性来查询出想要的视频片段并用于编辑。查询也可以作用于分布数据库，以获得视觉、版权和价格信息，以及源视频资料的技术质量数据。 - 在设计方面，静止图片也具有相似的应用和需求。 Web 设计人员并不都是做新的设计，有时也在网络上选择现有的图片用于Web站点的设计。在网络上，设计人员可以通过基于内容的检索方法挑选想要的素材。其他设计领域具有相似的可视搜索用途。“拉”应用3）商业音乐应用(卡拉OK和音乐销售) - 卡拉OK在亚洲极其流行。一般是根据歌名和原唱

14、者姓名检索，但也常有记不清歌名的情况。这时可以利用音频内容检索技术，业余歌手哼几句记忆的曲调，让计算机查找相应的歌曲(或给出相似歌曲的列表)。 - 相似的与音乐销售有关的应用是把可选择的音乐库扩展到用户家里。人们可以容易地访问在线数据库，用基于内容的方式(结合歌手名、风格、歌名、创作年代等) ，查找感兴趣的歌曲和音乐作品，并付费下载。“拉”应用4）声音效果库 - 对于要使用大容量声音效果数据库的艺术家和声音设计人员，常规的数据库管理和搜索方法是不够的。一个声音设计人员要求从声音效果库中选择出要求的声音效果，其选择方式可能是由设计人员提供原型化的声音和音频特征，甚至可以发出类似

15、要查找的声音，通过拟声方式查询。 - 5）历史语音数据库 - 可以通过口头关键词、关键事件、说话人、地点、日期，或以上属性的组合来搜索历史数据库中的音频录音和视听演讲。这种应用也可以辅助教育或新闻业应用。例如，用户说一句关键词：I have a dream, 系统把语音转换为文本关键词，查找出马丁路德金的录音和演讲文本。“拉”应用6）通过听觉事件进行电影场景检索 - 许多视觉场景是与声音事件相关的。例如在喜剧电影或电视场景中，人们可以通过记忆的对话和台词来检索电影的场景。另外，还可以通过明显的声音事件来检索，例如通过观众的欢呼声和解说员的解说词检索足球进球的场景，通过爆炸声

16、检索战斗和破坏场景等。音轨中的听觉事件也同样具有这样的检索能力。该应用利用语音的描述和声音效果的描述来实现检索。 7）商标库的注册和检索 - 通常情况下，商标是二维图像，包含文本、图画或图片以及象征性的颜色。二维商标可以分为三类：文字商标( 仅仅包含文字，适合用文本注释来描述)、图案商标(仅仅包含图形或象征性标志，需要形状描述)、组合形式的商标(包含字符和图形)。 n4.3 MPEG-7的“推”应用与以上的“拉”应用相反，下面的“推”应用类似于广播和Web广播。“推”应用用到“选择”和“ 过滤”，而不是“索引”和“检索”，因此有非常不同的要求。通常它们涉及到流描述，而不是存储在数据库中的静态描述。“推”应用1）用户代理驱动的媒体选择和过滤 - - 过滤与搜索正好相反

展开阅读全文

多媒体元数据研究

最新文档