多媒体大数据分析与搜索

资源描述

《多媒体大数据分析与搜索》由会员分享，可在线阅读，更多相关《多媒体大数据分析与搜索（2页珍藏版）》请在金锄头文库上搜索。

1、现代社会中，大数据来源丰富，使得交通、医疗卫生、教育、安全等都发生了变化，而在智慧城体系中，监控视频是体量最大的大数据。基于此，我主要分享媒体大数据的三个挑战问题。第一，存不下， 24 小时产生的数据量积累得很大。第二，看不清，用眼睛看，横看竖看，还是看不清楚，可能有时候都要猜来猜去，还需要很有经验的人才能看出来大概。为什么？存的时候做了压缩，压缩时不知将来作何用，为了节省存储量，压得太狠了，再把它解开时基本看不清。第三，找不到。现在摄像头到处都是，摄像头拍到了，但是不是想要找的？不知道，即使看清楚了，一跨摄像头也就找不到了。所以摄像机网络跨摄像头搜索问题也是个难题。超高效视频编码解决压缩

2、问题第一个挑战，我们想办法找到最高效的编码来应对这个挑战。视频流是图像序列，在每个单独的图像里是有冗余的，通常叫 “空间冗余” 。相邻的像素或图像块会有一些相关性，这些相关性即是 “冗余”，这种冗余可以通过滤波器的算法进行估算。如果参数对了，就可以用它去做预测，继而找到一些更简洁的表达方式，不需要那么多比特就可以压缩了，这就是空间冗余。其次是“时间冗余”，即一个图像序列，第一帧和第二帧有很多是连续的，背景几乎是一样的，它有很多东西是重复的，这个重复的就是冗余，我们管它叫“时间冗余”。第三种是“感知冗余” ，行业里的人把它叫“编码冗余”。比如 26 个字母要怎么表达？给出8 个 bit或 7b

3、it ，每个字母给的bit是一样的，学计算机的人都知道这种分法是不科学的，应该怎么分？按照它的信息熵来分，图像也是一样，每个像素表达的亮度、颜色在每类里分布不均匀，最好把出现概率高的那些单体给它比较短的码，把出现概率低的给长码，统计上面就会比较合理，对此我们称之为“熵编码”。如果这三种用好了，就有办法把图像或视频完美地压缩下去。现在图像压缩实际达到的现状和理论有很大差别，但同时空间也很大。到现在为止，编码技术离理论上限大概还有百分之八九十的空间可以改进，因为在数学上我们很容易证明理论上限，若干个上限中可以取最低的上限，就很容易计算出有多大空间可以继续改进。这就是为什么视频编码领域这些年还在

4、不停地发展，并且，每十年编码效率就会提高1倍。在这样每十年翻一番的情况下，算法变得更复杂了，计算的复杂度换取了编码的效率。当然，这里有很多新的算法，以前因为硬件比较贵，不能让编码的器件成本太高，所以有些算法还行，只要算法太复杂就基本不用。现在不在乎这个，因为集成电路发展以后，算法愈来愈多，编码放进去后视频效果会越来越好。针对监控视频我们会有更好的方法，使它的效率更高。从编码的角度，去空间冗余、去时间冗余和去编码冗余这三种技术可以把视频流里的冗余去掉，这三种技术包含了许多算法，有变换、滤波、运动补偿、熵编码等。去空间冗余最主要的工具是变化，把时域变到频域上再进行处理，对于空间的冗余主要是采用预测

5、编码的方式去除，对于感知主要是通过熵编码去除。面向对象检测、跟踪与识别解决模式识别问题第二个挑战，对象检测、跟踪识别挑战。模式识别率再高、人脸识别再准，识别的准和不准取决于算法的好坏，还取决于在编码那端能不能提供支持。以往这两个系统像轨道一样完全平行，我们希望编码和识别能合作，把中间那堵墙翻过去或者拆掉。怎么拆掉？编码时要考虑怎么办。现在我们提出个支持是roi （region of internet），就是编码时识别出来哪个区域可能是识别要用的区域，把这个区域定义成感兴趣区域，对于感兴趣区域要描绘出来，现在语法里对感兴趣区域有专门的描述，除了这个区域以外还包括其他的，比如gps 信息、摄像机

6、参数信息。有了这个以后，在后面编码时，会针对编码参数进行调整，roi区域压得轻一点，这样关键的信息丢失的会少一点。有了这样的知识，可以用它架构友好的智能监控识别体系。现在即使有个算法很好，比如 266，它编码的效率和avs2 是一样的，我说那也不行，为什么？因为你压完以后还有解，解的时候才知道哪个地方是可识别的。现在压的时候就知道哪个东西有用，哪个东西没有用，有用的可以压得轻一点，这样构建分析架构，底层是完全的视频流，视频流上面可以构架一个区域描述，不是有roi么，这个“ r ”就是 region ，根据区域描述，若干的区域构成个对象，它们的关联就可以构成事件，只要处理能力足够强，我就把这个东

7、西表述出来了，这对识别非常有用。以大规模视觉搜索解决跨摄像头搜索问题第三个挑战，跨摄像头怎么办？我们可以对跨摄像头的数据进行矫正，然后再进行一些后续的工作。这方面有很多工作已经开始做了，比如我们试验室学生搭了一个系统，你在北大校园的一个地方走，其他几个框是别的几个摄像头，从一个摄像头跨到另外一个摄像头的时候，现在有一个专门技术是再认证，一个人在一个摄像头里出现过，当他出现在第二个摄像头的时候，就可以被识别出来。因为有时候可能不是正脸，靠人脸识别已经不管用了，就要靠颜色、身体、步态、外形等综合识别。要做好这个系统有一个重要的技术是能做到大规模的搜索。大规模的搜索这一块我们组有个很好的工作叫cdv

8、s ，它可以用很少的特征去搜索你要的东西，比如我用手机拍一张照片或者拍一个景色，拍完以后传送到服务器，搜索后会告诉你拍的是哪里。这个过程它需要你的特征选得非常好、非常准，然后有代表性，这样才能搜索得比较准。可以用一组特征，这组特征我们把它命名叫“cdvs ” ，cd 是一个紧缩的描述词，就是面向视觉搜索的紧缩描述词，这也是在国际标准化框架下面做的。前一段时间有个多媒体描述标准是 mepg7。这里面的关键技术，一个是选择特征点，然后是选择特征，把这些特征进行聚合、压缩、进行点压缩，最后变得非常小。举例来说有多小，比如你照了个照片，这个照片有三、四兆大的尺寸，我们从中提出来大概500 个 bit

9、，连 1k 都不到，就可以进行搜索了，最高可以到16k，16k 检索的效率就更高，我们判断特征好不好是用召回率来判断，我们都希望召回率达到 90% ，低于 90% 就认为这个特征没有选好。什么叫召回率90% ？我用完整的照片到库里搜出来的东西，和我用521 个去搜，是不是有90% 都在我搜的100 个里面，如果是的话那你这个特征是可以的，这是一个准则。后台的技术会涉及到数据压缩、计算机视觉特征提取以及机器学习和视觉挖掘。和特征、视觉有关的主要是局部描述，模式识别里有个非常好的描述词叫“sift特征”，它可以保持平移不变、旋转不变、伸缩尺度不变等。但是这个特征也有问题，一个是专利问题，另一个是耗费存储比较大，耗费计算时间比较大。（本文根据高文在“2015 中国大数据技术大会”上的演讲整理而成，未经本人确认。

展开阅读全文

多媒体大数据分析与搜索

最新文档