多媒体元数据研究

上传人:平*** 文档编号:47571481 上传时间:2018-07-03 格式:PPT 页数:42 大小:242.14KB
返回 下载 相关 举报
多媒体元数据研究_第1页
第1页 / 共42页
多媒体元数据研究_第2页
第2页 / 共42页
多媒体元数据研究_第3页
第3页 / 共42页
多媒体元数据研究_第4页
第4页 / 共42页
多媒体元数据研究_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《多媒体元数据研究》由会员分享,可在线阅读,更多相关《多媒体元数据研究(42页珍藏版)》请在金锄头文库上搜索。

1、多媒体元数据研究n1、多媒体资源nAudio Visual MetadatanECHO (European Chronicles On-line,欧洲编 年史在线)nMEPG-7nMPEG-21nVRA Core CategoriesnEAD(编码文档描述)2、数字图像资源nMOA (the Making of American) 2 数字图像 元数据nCDL数字图像元数据nDig35nNISO/CLIR/RLG的图像技术元数据n3、元数据编码与传输标准METSnMetadata Encoding and Transmission Standardnhttp:/www.loc.gov/stan

2、dards/metsn由数字图书馆联盟(Digital Library Federation)发起研发,现由 美国图书馆代表大会网络发展与MARC标准办公室负责维护n目标:n期望能针对数字图书馆对象的编码叙述、管理与元数据构建提供 一个以XML为基础的框架n内容涵盖四个方面:n描述性元数据(Descriptive Metadata)n管理性元数据(Administrative Metadata)n文件群组(File Groups)n结构地图(Structural Map)nMETS除可以作为对象间交换的标准外,还可以作为对象保存 、访问、展示的编码机制n4、MPEG系列标准(1、2、4、7、

3、21)MPEG是专门从事多媒体音、视频压缩技术标准 制定的国际组织,成员包括来自近30个国家、200多 个公司的400多位专家。该组织自1988年以来,已经 制定了一系列国际标准,其中MPEG-1、MPEG-2已为人 们所熟知,它们为VCD、DVD及数字电视等产业的发展 奠定了基础。目前正在制定的MPEG-4、MPEG-7和MPEG -21将为多媒体数据压缩和基于内容检索的数据库应 用提供一个更为通用的平台,必将对下一代视、音频 系统和网络应用产生深远的影响。 nMPEG-1:存储和回放 MPEG-1制定于1993年,是针对1.5Mbps以下数 据传输率的数字存储媒介运动图像及其伴音编 码的国

4、际标准,主要用于在CD-ROM上存储同 步和彩色运动视频信号。 nMPEG-2:数字电视 MPEG-2出台于1995年,它是针对HDTV和 DVD等制定的3Mbps10Mbps的运动图像及其 伴音的编码标准。它的出现使得基于CD-ROM 的交互式电视和数字电视成为了可能。 nMPEG-4:基于对象的存取 MPEG-4于1999年成为国际标准。它和MPEG- 1和MPEG-2的重点在于编码效率上不同的是, MPEG-4的目标是提出一种新的方式来传输、访 问和操作数字视听数据。MPEG-4计划为多种通 讯规范提供一种普遍的技术解决方案,最终消 除它们之间的差别。与MPEG-1和MPEG-2的另 一

5、点不同是,MPEG-1和MPEG-2是基于帧的规 范,而MPEG-4则是基于对象的规范。 n4.1 MPEG-7:多媒体内容描述 随着Internet的普及和网络带宽的增加,产生了 大量的多媒体数据,如何在浩如烟海的信息中 快速、容易地获得自己所需的内容则成为当前 必须解决的问题。在此需求下,MPEG-7应运而 出。MPEG-7力求能够快速且有效地搜索出用户 所需的不同类型的多媒体信息。该标准主要致 力于视听数据的信息编码表达,换句话说也就 是集中在对多媒体材料描述的通用接口的标准 化上。 MPEG-7的功能与其他MPEG标准互为补充。 MPEG-1、 MPEG-2和MPEG-4是内容本身的表

6、 示,而MPEG-7是有关内容的信息,是比特的比 特。nMPEG-7中的主要概念数据(Data) 是用MPEG-7描述的视听资料,不考虑它们的 存储、编码、显示、传输、媒介或技术。该定义非常广 泛,包含图形、静止图像、视频、影片、音乐、语音、 声音、文本和其他相关的AV媒体。 - 特征(Feature) 指数据的特性。特征本身不能比较,而要 用有意义的特征表示(描述子)和它的实例(描述值)。如图 像的颜色、语音的声调、音频的旋律等。 - 描述子(Descriptor,D) 是特征的表示。它定义特征表示 的句法和语义,可以赋予描述值。一个特征可能有多个 描述子,如颜色特征可能的描述子有:颜色直方

7、图、频 率分量的平均值、运动的场描述、标题文本等。 - 描述值(Descriptor Value) 是描述子的实例。描述值与描 述模式结合,形成描述。 -描述模式(Description Scheme,DS) 说明其成员之间的 关系结构和语义。成员可以是描述子和描述模式。DS和 D的区别是:D仅仅包含基本的数据类型,不引用其他D 或DS。如对于影片,时间结构化为场景和镜头,在场景 级包括一些文本描述子,在镜头级包含颜色、运动和一 些音频描述子。 - 描述(Description) 一个描述由一个描述模式(结构)和一 组描述值组成。 - 编码的描述(Coded Description) 是对已完

8、成编码的描述 ,满足诸如压缩效率、差错恢复和随机存取的相关要求 。 - 描述定义语言(Description Definition Language,DDL) 是一种允许产生新的描述模式和描述子的语言,允许扩 展和修改现有的描述机制。 -为了更好地理解这些术语,请参看图1。图中解释了 MPEG-7在实际系统中的位置。圆角框表示处理工具, 矩形框表示静态元素,阴影部分包含MPEG-7标准的规 范元素:DDL提供建立描述模式的机制,然后将描述模 式作为基础,产生一个描述。nMPEG-7的范围下图是MPEG-7处理链的一种高度抽象示意图,用于解 释MPEG-7的范围。它包括特征抽取(分析)、描述本身

9、和 搜索引擎(应用)。nMPEG-7对视觉数据的描述MPEG-7具体对视觉方面的描述子和描述模式有以下方面的要求:(1) 特征类型 - 视觉描述允许以下特征(与查询中使用的信息类型有关):颜色、视 觉对象、纹理、轮廓(草图)、形状、静止和动态图像、体积、空间 关系(相对于图像和图像序列中的对象空间和拓扑关系,这个关系 是空间合成关系)、运动(如视频镜头中的运动,用于利用时间合成 信息来检索等方面)、变形(如对象的弯曲)、视觉对象的源和它的特 性(如源对象、源事件、源属性、事件、事件属性等)、模型(如 MPEG-4 SNHC)。 (2) 利用描述进行数据可视化 - MPEG-7数据描述应该容许被

10、索引数据或多或少地粗略可视化。(3) 可视数据的格式 - 支持以下可视数据格式:数字视频和电影(例如MPEG- 1/2/4)、模拟 视频和电影、电子形式的静态图像(如JPEG)或纸上的图像、图形、 3D模型以及与视频关联的编辑数据。(4) 可视数据类型 - 可以是自然视频、静态图像、图形、动画、三维模型、编辑信息。nMPEG-7对听觉数据的描述(1) 特征类型 - 频率轮廓线、音频对象、音色、和声、频率特征、振幅包络、时间 结构(包括节奏)、文本内容(语音或歌词)、声波近似值(通过哼唱一 段旋律或发出一种声音效果来生成)、原型声音(典型的用于示例查 询)、空间结构(用于多通道声源,如立体声、5

11、.1通道等,每个声道 有特定的映像)、声源和它的特性(例如源对象、源时间、源属性、 事件、事件属性和典型的关联场景)、模型(如MPEG-4 SAOL)。 - (2) 描述数据的听觉化 - 类似视觉数据的要求。 - (3) 听觉数据格式 - 数字音频(如MPEG-1音频、CD)、模拟音频(如录音带介质)、MIDI( 包括一般的MIDI和Karaoke格式)、基于模型的音频、产品数据。 - (4) 听觉数据类 - 声音轨迹(自然音频场景)、音乐、原子声音效果(如掌声)、语音、符 号音频表示(MIDI、SNHC音频)、混音信息(包括效果)。 n4.2 MPEG-7的“拉”应用1)视频数据库的存储和检

12、索 - 电视和电影档案中保存有大量的各种格式的多媒体资 料,如数字、模拟磁带和胶片、CD等,这些资料不一 定有描述信息(元数据),即使有也大都是简单的文本描 述,它们以专用的格式存储在数据库中,因此,需要按 照国际标准格式进行存储和交换。另外,要对大量旧的 模拟视听资料进行数字化,在数字化和压缩阶段,可以 在数据库中使其包含基于内容的索引特征。对于新的视 听媒体,在视频生产的各个阶段可以把描述信息附加在 视频流上,从而极大地提高了用手工进行有限词汇注释 的质量和生产率。“拉”应用2)专业媒体制作方面的图片和视频提交 - 演播室需要向电视频道提交适当的视频,另外还需要 编辑一段库中的视频,如编辑

13、记录片和广告片等。 - 在这个应用中,用户是专业性的。演播人员可以基于 元数据和视频片段来提交一个完整的视频,可以基于客 观特性和主观特性来查询出想要的视频片段并用于编辑 。查询也可以作用于分布数据库,以获得视觉、版权和 价格信息,以及源视频资料的技术质量数据。 - 在设计方面,静止图片也具有相似的应用和需求。 Web 设计人员并不都是做新的设计,有时也在网络上选 择现有的图片用于Web站点的设计。在网络上,设计人 员可以通过基于内容的检索方法挑选想要的素材。其他 设计领域具有相似的可视搜索用途。“拉”应用3)商业音乐应用(卡拉OK和音乐销售) - 卡拉OK在亚洲极其流行。一般是根据歌名和原唱

14、者姓 名检索,但也常有记不清歌名的情况。这时可以利用音 频内容检索技术,业余歌手哼几句记忆的曲调,让计算 机查找相应的歌曲(或给出相似歌曲的列表)。 - 相似的与音乐销售有关的应用是把可选择的音乐库扩 展到用户家里。人们可以容易地访问在线数据库,用基 于内容的方式(结合歌手名、风格、歌名、创作年代等) ,查找感兴趣的歌曲和音乐作品,并付费下载。“拉”应用4)声音效果库 - 对于要使用大容量声音效果数据库的艺术家和声音设计 人员,常规的数据库管理和搜索方法是不够的。一个声 音设计人员要求从声音效果库中选择出要求的声音效果 ,其选择方式可能是由设计人员提供原型化的声音和音 频特征,甚至可以发出类似

15、要查找的声音,通过拟声方 式查询。 - 5)历史语音数据库 - 可以通过口头关键词、关键事件、说话人、地点、日期 ,或以上属性的组合来搜索历史数据库中的音频录音和 视听演讲。这种应用也可以辅助教育或新闻业应用。例 如,用户说一句关键词:I have a dream, 系统把语音转 换为文本关键词,查找出马丁路德金的录音和演讲文本 。“拉”应用6)通过听觉事件进行电影场景检索 - 许多视觉场景是与声音事件相关的。例如在喜剧电影或 电视场景中,人们可以通过记忆的对话和台词来检索电 影的场景。另外,还可以通过明显的声音事件来检索, 例如通过观众的欢呼声和解说员的解说词检索足球进球 的场景,通过爆炸声

16、检索战斗和破坏场景等。音轨中的 听觉事件也同样具有这样的检索能力。该应用利用语音 的描述和声音效果的描述来实现检索。 7)商标库的注册和检索 - 通常情况下,商标是二维图像,包含文本、图画或图片 以及象征性的颜色。二维商标可以分为三类:文字商标( 仅仅包含文字,适合用文本注释来描述)、图案商标(仅 仅包含图形或象征性标志,需要形状描述)、组合形式的 商标(包含字符和图形)。 n4.3 MPEG-7的“推”应用与以上的“拉”应用相反,下面的“推”应用类 似于广播和Web广播。“推”应用用到“选择”和“ 过滤”,而不是“索引”和“检索”,因此有非常不 同的要求。通常它们涉及到流描述,而不是存 储在数据库中的静态描述。“推”应用1)用户代理驱动的媒体选择和过滤 - - 过滤与搜索正好相反

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号