（广告传媒）多媒体数据挖掘

资源描述

《（广告传媒）多媒体数据挖掘》由会员分享，可在线阅读，更多相关《（广告传媒）多媒体数据挖掘（6页珍藏版）》请在金锄头文库上搜索。

1、基于多媒体的数据挖掘【摘要】：多媒体挖掘是数据挖掘的一个新兴且富有挑战性的子领域。本文介绍了多媒体数据挖掘的特性，一种适合多媒体挖掘的系统模型,阐述了几种多媒体挖掘方法以及讨论了多媒体数据挖掘在知识服务中的应用。【关键词】：数据挖掘，多媒体挖掘，挖掘方法，服务应用目前，数据挖掘是数据库研究、开发和应用最活跃的分支之一，也是人们一直研究的热点。在数据挖掘近年来研究与应用迅猛发展的过程中，前人取得了一定的成果1。新的和改进的算法不断出现，所考察的数据类型日趋丰富，应用领域逐渐扩大，数据挖掘技术正慢慢融入到多媒体数据库中。多媒体数据库因为其数据量大、数据结构复杂、模式多样等特点一直是人们研究的难点。

2、随着数据挖掘技术应用的成功，人们将目光放到了多媒体数据库中进行知识发现。一、数据挖掘的概念及其结构1、基本概念简单地说，数据挖掘是从大量数据中提取或挖掘知识。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包括好几层含义：数据源必须是真实的、大量的、含噪声的；发现的是用户感兴趣的知识；发现的知识要可接受、可理解、可运用；并不要求发现放之四海皆准的知识，仅支持特定的发现问题。数据挖掘是从大量数据中寻找其规律的技术，主要有数据准备、规律寻找和

3、规律表示三个步骤。2、体系结构一个典型的数据挖掘系统的体系结构如下：其中数据库、数据仓库或者是其他一些信息存储媒介为数据挖掘的工作对象；服务器主要是响应数据挖掘引擎的请求，提取相应的数据；领域知识库主要用来指导挖掘的过程，以及用来评价挖掘出来的候选模式；数据挖掘引擎是整个系统的核心部分，可以由以下模块组成：分类模块、关联规则模块、聚类分析模块、时序模块和异常分析模块等；模式评价模块主要是根据一定的度量标准来与数据挖掘模块交互，以使得数据挖掘向着我们感兴趣的方向进行，往往越是高效的数据挖掘系统这种交互影响的程度越高；图形用户界面主要是为方便用户与数据挖掘系统的交互，由用户提出挖掘任务、指定重要的

4、挖掘参数以及由当前返回的结果指导进行更进一步的挖掘工作。二、多媒体与数据挖掘相结合随着多媒体技术的发展，人们接触的数据形式不断地丰富，多媒体数据库的日益增多，原有的数据库技术已满足不了应用的需要，人们希望从这些媒体数据中得到一些高层的概念和模式，找出蕴涵于其中的有价值的知识。这种将数据挖掘技术和多媒体信息处理技术有机地结合起来形成的在多媒体数据中进行知识发现的信息处理方法就是多媒体数据挖掘。1、多媒体数据挖掘的特性由于音频视频设备、数码像机、CD- ROM 和因特网的流行和普及，多媒体数据库系统变得日益普通。多媒体数据通常是一种多维的、非结构化或者半结构化的，各媒体数据有着不同的特点，有着

5、各自表述信息的方式，各媒体既可独立表示信息又可共同表示相同事件的不同特征，共同描述事件的存在、发展和结果。因此，多媒体数据集中必定存在关于信息主体的特征、属性以及它们之间的关系，或者存在着某些人们从直观上无法得到的模式。多媒体数据挖掘是一种智能的数据分析，旨在从特定的多媒体数据集中发现必要的结果来用于决策、对策及融合分析。例如在MMMiner(Mult iMediaMiner，多媒体挖掘)中，如查找包含人脸的所有图像，用户界面上就会逐步显示不同国家、不同肤色、不同表情的人脸，而不是显示一些猴脸或者是马脸。由此可见，多媒体挖掘就是从大量的多媒体数据集中，通过综合分析视听特性和语义，发现隐含的、有

6、效的、有价值的、可理解的模式，得出事件的趋向和关联，为用户提供问题求解层次的决策支持能力。22、多媒体数据挖掘的系统模型多媒体挖掘需要一个切实可行的系统框架模型。它的一般系统结构模型如图：3、多媒体数据挖掘的方法31多媒体数据的相似性搜索对于多媒体数据相似性搜索，主要考虑两种多媒体索引和检索系统：（1）基于描述的检索系统，它基于图像描述（如关键词、标题、尺寸和创建时间等）建立索引和进行对象检索：(2)基于内容的检索系统，它支持基于图像内容的检索，如颜色直方图、纹理、模式、图像拓扑、对象的形状和它们在图像中的布局和位置。基于描述的检索若人工完成是很费力的。若自动完成，则质量较差。例如，关键词到

7、图像的赋值可能是棘手和武断的任务。最近开发的基于web的图像聚类和分类方法提高了基于描述的web图像检索的质量，因为环绕图像的文本信息和web链接信息可以用于提取合适的描述，并将描述相似主题的图像聚合在一起。基于内容的检索使用视觉特征索引图像，并促进基于特征相似性的对象检索，这在很多应用中都是非常期望的。332多媒体数据的多维分析为便于大型多媒体数据库的多维分析，可以用类似于从关系数据构造传统数据立方体的方法，设计和构造多媒体数据立方体。多媒体数据立方体可包含针对多媒体信息的维和度量，如颜色、纹理和形状。如图是一个简单的图像数据立方体的模型：多媒体数据立方体是一种对多媒体数据进行多维分析的有

8、趣模型, 通过适当的一些操作: 上卷、下钻、切片和切块、转轴(旋转)可以进行强有力的分析。多媒体数据立方体的建立有助于基于视觉内容的多媒体数据的多维分析，和多种知识的挖掘，包括汇总、比较、分类、关联和聚类。33多媒体数据的分类和预测分析分类和预测建模已经用于挖掘多媒体数据，尤其在科学研究中，如天文学、地震学和地理科学的研究。数据分类可通过以下两步来实现：（1）建立描述预先定义的数据类或概念集的分类器：分类通常是根据媒体数据的某一特性来确定的，该特性在元数据库中表现为视听描述子。通过分析元数据库中部分数据的该描述子值来构造模型，并把用于建立模型的媒体数据作为训练集。训练样本可以随机选取，并预先

9、给出类标号。（2）使用模型分类：首先评估分类器的预测准确率，用给定检验集上的准确率来判定分类器的准确率，如果分类器的准确率可以接受，就可以用它来对未来元组进行分类。34多媒体数据挖掘的关联规则多媒体图像数据挖掘的一个十分关键的问题是图像数据本身的表示问题。这也是图像处理和模式识别的关键。一般说来，可以用颜色、纹理、形状和运动向量等来表示图像的基本特征。高级概念可以看成是一种特征模式。多媒体图像数据挖掘的过程可以由下图所示：在图像和视频数据库中，可以挖掘涉及多媒体对象的关联规则。至少包括以下三类：（1）图像内容和非图像内容特征间的关联：如规则“如果一幅图片的上面至少50%是蓝色，则它很可能代表

10、天空”属于此类，因为它把图像的内容和关键词天空关联在一起。（2）与空间联系无关的图像内容间的关联：如规则“如果一幅图片包含两个蓝色正方形，则它很可能也包含一个红色圆形”属于此类，因为关联考虑的都是图像内容。（3）与空间联系有关的图像内容间的关联：如规则“如果一个红色三角形在两个黄色正方形之间，则很可能下面存在一个大的椭圆形对象”属于此类，因为它把图像中对象与空间联系关联在一起。4为了挖掘多媒体对象间的关联，可以把每个图像看作一个事务，找出在不同图像中频繁出现的模式。三、多媒体数据挖掘在知识服务中的应用1、文本数据挖掘所谓多媒体文本数据挖掘，就是从大量的多媒体文本数据中发现有意义的模式过程。多媒

11、体文本数据挖掘的过程对多媒体文本数据挖掘最行之有效的途径就是将多媒体文本数据结构化后，再对结构化数据采用数据挖掘方法。文本挖掘从功能上可以分为总结、分类、聚类、趋势预测等。文本是指从文档中抽取关键信息，用简洁的形式对文档内容进行摘要或解释。从而用户不需要浏览全文就可以了解文档或文档集合的总体内容。文本总结在有些场合非常有用，例如，搜索引擎在向用户返回查询结果时，通常需要给出文档的摘要。目前，绝大部分搜索引擎采用的方法是简单地截取文档的前几行。在对文档进行特征提取前，需要先进行文本信息的预处理，对英文而言，需进行Stemming 处理，中文的情况则不同，因为中文词与词之间没有固有的间隔符，需要

12、进行分词处理。在中文信息处理领域，对中文自动分词研究已经比较多了，提出了一些分词方法，如最大匹配法、逐词遍历匹配法、最小匹配法等。采用基于词典的正向逐词遍历匹配法，在我们设计的分类系统(ST CS)中，我们在分析了最大匹配法的特点后，提出了一种改进的算法。该算法在允许一定的分词错误率的情况下，能显著提高分词效率，其速度优于传统的最大匹配法。但是我们忽略了通用词的处理，仅处理专用词典中词条，从而较好地避免了通用分词的技术问题，此方法适合于专用领域文档的分类。2、图像数据挖掘图像挖掘是多媒体挖掘的一个分支，图像挖掘可以广泛地应用于图像检索、医学影像诊断分析、卫星图片分析、地下矿藏预测等各种领域。其

13、挖掘方法和原型结构存在着巨大的改进空间。图像挖掘的一般过程如下。运用图像处理技术。如图像分割、边缘探测、边缘提取、模式识别等。从图像(视频帧)中抽取能代表、区分该图像的结构化内容的特征。同时收集用于图像处理和数据挖掘所需要的知识。获得各种元数据及领域知识。建立特征库和知识库。当挖掘任务确定后。抽取与挖掘任务相关的特征向量。形成多维特征向量。在这些特征向量空间中比较、分析各向量之间的距离或相似关系。在知识库的指导下。完成对图像内容的分析、索引、摘要、分类、聚类、关联等操作。将所得到的结果进行解释和表示。从而获得高层的概念或模式。63、视频、音频数据挖掘除了静态图像，在数字文档、万维网、广播数

14、据流、个人或专业数据库中，还能获得数字形式的大量音频和视频信息。这类信息量增长迅速，迫切需要针对音频和视频数据的、有效的、基于内容的检索和挖掘方法。典型的例子包括：在TV工作室搜索和多媒体编辑特定的视频片段，从监视录像中检测可疑的人或场景，在个人多媒体库中检索特定的事件，从气象雷达记录中发现模式或离散点，在你的MP3音频簿中找到特定的主旋律或曲调。4、在医学图书馆服务中的应用多媒体数据挖掘对医学信息有很强的适应性。多媒体技术的应用便于医学信息的储存多媒体技术是当今信息技术领域发展最快、最活跃的技术，是新一代电子技术发展和竞争的焦点。利用现代数据挖掘技术对医学信息进行组织、开发、传递和评价以及导

15、航，可以最大限度满足用户的医学信息资源需求和服务需求。多媒体医学信息数据库系统为医学教育、咨询提供了方便的技术手段，也为从事临床医学研究的人员提供了高效的数据处理工具。目前，高校医学资源库的建立已初具规模，拥有多种媒体、内容丰富的数字化信息资源。这些信息具有模式的多态性(纯数据、图像、信号、文字等)、不完整性(疾病信息的客观不完整和描述疾病的丰观不完整)、较强时间性、复杂性和冗余性。常用的数据库及统计分析方法已经远不能满足现实的要求，因此。必须使用多媒体数据库对高校医学信息资源进行整理和收集。多媒体数据挖掘在医学图书馆服务中的应用医学资料的数据类型多种多样，大致有下列几种：文本，包括病员的

16、个人资料，如姓名、性别，住址等；长文本，包括病史详述、医生的诊断报告等；静态图像，包括各类医学图片，如CT、x光片、等；运动图像，包括B超或血管造影等得到的视频图像；声音，包括电子听诊器侦听到的声音和医生的口头诊断结果等音频数据5。医学信息的特点要求多媒体挖掘技术在基础医学领域、疾病的临床诊断和治疗方面、流行病学研究和医学统计方法学方面、医院和卫生事业管理等多方面都已经有各种挖掘方法和软件出现(如DNA序列分析)。相信随着数据挖掘技术的广泛应用，方法的不断改进，可实现软件的发展，数据挖掘在医学领域的应用将更为广泛和深入，从而带来更大的社会经济效益。四、前景展望多媒体数据挖掘是多媒体和数据挖掘的结合，是一个新的研究方向，一些概念和方法正在形成中，有很多问题急待解决。尽管多媒体数据挖掘面临着

展开阅读全文