用于注解多媒体文档中多模特征的系统与方法

资源描述

《用于注解多媒体文档中多模特征的系统与方法》由会员分享，可在线阅读，更多相关《用于注解多媒体文档中多模特征的系统与方法（3页珍藏版）》请在金锄头文库上搜索。

1、用于注解多媒体文档中多模特征的系统与方法专利名称：用于注解多媒体文档中多模特征的系统与方法技术领域：本发明涉及计算机处理多媒体文件。更具体地，本发明涉及出现在多媒体文件中的多模事件，对象，场景，和音频的人工注解。背景技术：在万维网和本地计算机上多媒体内容正变得更普通。随着多媒体内容的文集的增加，内容中特征索引变得越来越重要。同时感知(observing)音频和视频并注解这种感知产生更高的可信度。现有的多媒体工具提供分别注解而非作为整体注解音频或视频的能力。(一个仅注解视频工具的例子是IBM MPEG7)注解工具，其发明人为J.Smith等，其可通过http/ MediaContent Ann

2、otation Tool”；和1997年“Pattern Recognition”的第30卷第565页TR#349中Minka等人的“Interactive Learning using aSociety of Models”。已经认识到孤立注解视频或音频特征将导致较不可信的特征识别。考虑到前述原因，我们认识到需要提供用于感知并注解出现在多媒体文件中的多模事件，对象，场景，和音频的改进的系统和方法。发明内容按照本发明至少一个当前优选的实施例，在总体上考虑了多媒体注解系统和方法，其允许用户仅感知视频，视频和音频，仅音频，或音频和视频并注解所感知的。在一个实施例中，提供了一种计算机系统，其具有一个

3、或多个存储在工作存储器中的多媒体文件。多模注解过程显示用户选择的多媒体文件，允许感知文件内容的一个或多个模式的选择，注解该感知；并保存注解于工作存储器中(如MPEG-7 XML文件)。总之，本发明的一个方面提供了一种用于管理多媒体内容的设备，该设备包括用于供应多媒体内容的管理；用于为了感知允许选择下面和多媒体内容关联的模式中的至少一个的输入接口包括视频的音频部分；和包括音频的视频部分；和用于注解选择的模式的感知的布置。本发明进一步的方面提供管理多媒体内容的方法，该方法包括以下步骤供应多媒体内容；用于为了感知允许选择下面和多媒体内容关联的模式中的至少一个的输入接口包括视频的音频部分；和包括音频的

4、视频部分；和注解选择的模式的感知。而且，本发明的另一方面提供机器可读的程序存储装置，有形体现可由机器执行的指令程序从而执行用于管理多媒体内容的方法步骤，该方法包括如下步骤供应多媒体内容；用于为了感知允许选择下面和多媒体内容关联的模式中的至少一个包括视频的音频部分；和包括音频的视频部分；和注解选择的模式的感知。为了更好地理解本发明，以及其进一步的特征和优点，参考下面的说明，并结合附图，本发明的范围由所附权利要求限定。图1是描绘多模注解系统的方框图。图2是注解视频场景，对象，和事件的系统的图示。图3是注解音频和视频系统的图示。图4是注解没有视频的音频的系统的图示。具体实施例方式图1是按照本发明的多

5、模注解系统的一个优选实施例的方框图。多媒体内容和前面的注解存储在存储介质100上。当用户130经注解工具从存储介质100中选择多媒体文件时，其被加载到工作存储器110且其部分内容显示于注解工具120上。任何时候，用户130也可要求和当前多模文件关联的以前保存的注解从存储介质100中加载到工作存储器110。用户100通过注解工具120作出请求查看多媒体数据。用户130然后注解他的感知且注解工具120保存这些注解于工作存储器110中。用户可在任何时候请求注解工具120保存注解于存储介质100上。图2是注解视频场景，对象，和事件的系统的图示。(同时参考图1。)多媒体数据已经从存储介质100加载到工作

6、存储器110上。视频标签290已经选择。多媒体视频已经用场景改变的检测分段成多个画面(shots)。画面列表窗口200显示多媒体中一部分画面。这里，用户130已经选择画面210，其在画面列表窗口200中被加亮。优选显示关键帧220，其为画面帧代表性画面。此外，画面帧可在视频窗口230中用播放控制240查看。根据静音按钮250的选择与否，视频可以伴随音频或没有音频查看。用户130可通过点击事件框260，静止场景270，或关键对象280框列表而选择用于该画面的注解。任何不包含在检查框中的重要的感知可在关键词文本框300中注明。图3是注解音频和视频的系统的图示。(同时应参考图1。)多媒体数据已从存储

7、介质100加载到工作存储器110。选择具有视频标签370的音频。多媒体视频已经用场景改变的检测分段成多个画面。画面列表窗口200显示多媒体中部分画面。与当前音频位置关联的画面210在画面列表窗口200中被加亮。音频数据显示于窗口390中。音频340的段被定界以便注解；也就是，为随后的注解固定音频的界限或边界。和音频关联的视频示于230中。随着用户130使用播放控制360，更新音频数据显示390以显示当前音频数据且视频窗口230改变以反映当前视频帧。因此用户130可感知视频并同时听到音频并做音频注解。用户130优选使用按钮350以定界音频段。相应于前景声音(320)(段内最显著的声音)的检查框和

8、背景声音(330)(存在但比其它声音弱的声音)可被检查以指示音频段340内听到的声音。任何没有包含在检查框中的重要感知可记录在关键词文本框300中。图4是注解没有视频的音频的系统。(同时参考图1)。多媒体数据已经从存储介质100加载到工作存储器110中。没有视频的音频标签400已被选择。音频数据显示于窗口390中。音频340的段已经定界以便注解。随着用户130使用播放控制360，音频数据显示390被更新以显示当前音频数据。因此，用户130可仅听到音频同时做音频注解。用户130使用按钮350以定界音频段。用于前景声音320和背景声音330的检查框可被检查以指示在音频段340内听到的声音。任何没有

9、包含在检查框内的重要的感知可记录在关键词文本框300内。应该理解，按照至少一个当前优选实施例，本发明包括用于供应多媒体内容的布置，用于为感知允许选择和多媒体内容关联的模式的输入接口，和用于注解选择的模式的感知的布置。这些元素一起可执行于至少一个通用计算机上，该计算机运行合适的软件程序。这些也可执行于至少一个集成电路或至少一个集成电路的部分上。因此，可以理解本发明可执行于硬件，软件，或它们的组合。如果没有另外指出，可以假定在此提到的和引用的所有专利，专利申请，专利公开或其它公开(包括基于网络的公开)完全包含在此以供参考，如同它们在这里完全陈述一样。虽然本发明说明性的实施例在此已经参考，应该理解本

10、发明不局限于这些精确实施例，且本领域技术人员可在此作出多种不偏离本发明范畴或精神的其它的改变和修改。权利要求1.一种用于管理多媒体内容的设备，所述设备包括用于供应多媒体内容的布置；用于允许为感知而选择下列和多媒体内容关联的模式中的至少一个的输入接口包括视频的音频部分；和包括音频的视频部分；和用于注解选择的模式的感知的布置。2.按照权利要求1所述的设备，其中所述输入接口允许为感知而选择和多媒体内容关联的下面两者包括视频的音频部分；和包括音频的视频部分。3.按照权利要求1所述的设备，其中所述输入接口还允许为感知仅选择多媒体内容的视频部分。4.按照权利要求1所述的设备，其中所述输入接口还允许为感知仅

11、选择多媒体内容的音频部分。5.按照权利要求1所述的设备，其中所述用于供应多媒体内容的布置包括工作存储器，其存储多媒体文件。6.按照权利要求1所述的设备，其中所述输入接口适于首先允许多媒体文件的选择和然后允许所述与视频一起的音频部分、和与音频一起的视频部分中的至少一个的选择。7.按照权利要求1所述的设备，进一步包括工作存储器，其用于保存所选择的模式的注解的感知。8.按照权利要求1所述的设备，其中所述输入接口适于允许为感知至少选择和多媒体内容关联的下面模式包括音频的视频部分。9.按照权利要求8所述的设备，其中所述输入接口包括用于允许为感知而选择多媒体内容视频模式的布置；和用于可选择地添加视频至视频

12、模式以便感知的布置。10.一种用于管理多媒体内容的方法，所述方法包括下列步骤供应多媒体内容；允许为感知而选择和多媒体内容关联的下面模式的至少之一包括视频的音频部分；和包括音频的视频部分；和注解所选择模式的感知。11.按照权利要求10所述的方法，其中所述允许选择的步骤包括允许为感知选择下面和多媒体内容关联的两者包括视频的音频部分；和包括音频的视频部分。12.按照权利要求10所述的方法，其中所述允许选择的步骤还包括允许为感知仅选择多媒体内容的视频部分。13.按照权利要求10所述的方法，其中所述允许选择的步骤包括允许为感知仅选择多媒体内容的音频部分。14.按照权利要求10所述的方法，其中所述供应多媒

13、体内容的步骤包括提供存储多媒体文件的工作存储器。15.按照权利要求10所述的方法，其中所述允许选择的步骤包括首先允许多媒体文件的选择，然后允许选择所述的与视频一起的音频部分、和与音频一起的视频部分中的至少一个。16.按照权利要求10所述方法，进一步包括提供工作存储器以保存所选择模式的注解的感知的步骤。17.按照权利要求10所述方法，其中所述允许选择的步骤包括允许为感知至少选择和多媒体内容关联的下列模式包括音频的视频部分。18.按照权利要求17所述方法，其中所述允许选择的步骤包括允许为感知而选择多媒体内容的视频模式；和然后为感知而使能添加音频至视频模式。19.一种机器可读的程序存储装置，有形地体现可由机器执行的指令程序以便执行用于管理多媒体内容的方法步骤，所述方法包括下列步骤供应多媒体内容；允许为感知而选择和多媒体内容关联的下面模式中的至少一种包括视频的音频部分；和包括音频的视频部分；和注解所选模式的感知。全文摘要本发明提供一种多媒体文件中多模特征的人工注解系统。提供了用于选择具有音频的视频，没有音频的视频，具有视频的音频，或没有视频的音频的感知模式的布置以便用来注解多媒体内容。孤立地注解视频或音频特征导致特征识别的可信度较低，而同时感知音频和视频并注解该感知导致可信度较高。

展开阅读全文