多媒体大数据分析与搜索

上传人:飞*** 文档编号:47489653 上传时间:2018-07-02 格式:PDF 页数:2 大小:6.15KB
返回 下载 相关 举报
多媒体大数据分析与搜索_第1页
第1页 / 共2页
多媒体大数据分析与搜索_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《多媒体大数据分析与搜索》由会员分享,可在线阅读,更多相关《多媒体大数据分析与搜索(2页珍藏版)》请在金锄头文库上搜索。

1、现代社会中,大数据来源丰富,使得交通、医疗卫生、教育、安全等都发生了变化,而在智慧城体系中,监控视频是体量最大的大数据。基于此,我主要分享媒体大数据的三个挑战问题。第一,存不下, 24 小时产生的数据量积累得很大。第二,看不清, 用眼睛看, 横看竖看,还是看不清楚,可能有时候都要猜来猜去,还需要很有经验的人才能看出来大概。为什么?存的时候做了压缩,压缩时不知将来作何用,为了节省存储量,压得太狠了,再把它解开时基本看不清。第三,找不到。现在摄像头到处都是,摄像头拍到了,但是不是想要找的?不知道,即使看清楚了,一跨摄像头也就找不到了。所以摄像机网络跨摄像头搜索问题也是个难题。超高效视频编码解决压缩

2、问题第一个挑战,我们想办法找到最高效的编码来应对这个挑战。视频流是图像序列,在每个单独的图像里是有冗余的,通常叫 “空间冗余” 。相邻的像素或图像块会有一些相关性,这些相关性即是 “冗余”,这种冗余可以通过滤波器的算法进行估算。如果参数对了, 就可以用它去做预测,继而找到一些更简洁的表达方式,不需要那么多比特就可以压缩了,这就是空间冗余。其次是“时间冗余”,即一个图像序列,第一帧和第二帧有很多是连续的,背景几乎是一样的,它有很多东西是重复的,这个重复的就是冗余,我们管它叫“时间冗余”。第三种是“感知冗余” ,行业里的人把它叫“编码冗余”。比如 26 个字母要怎么表达?给出8 个 bit或 7b

3、it ,每个字母给的bit是一样的,学计算机的人都知道这种分法是不科学的,应该怎么分?按照它的信息熵来分,图像也是一样, 每个像素表达的亮度、颜色在每类里分布不均匀,最好把出现概率高的那些单体给它比较短的码,把出现概率低的给长码,统计上面就会比较合理, 对此我们称之为“熵编码”。如果这三种用好了,就有办法把图像或视频完美地压缩下去。现在图像压缩实际达到的现状和理论有很大差别,但同时空间也很大。到现在为止,编码技术离理论上限大概还有百分之八九十的空间可以改进,因为在数学上我们很容易证明理论上限,若干个上限中可以取最低的上限,就很容易计算出有多大空间可以继续改进。这就是为什么视频编码领域这些年还在

4、不停地发展,并且,每十年编码效率就会提高1倍。在这样每十年翻一番的情况下,算法变得更复杂了,计算的复杂度换取了编码的效率。当然,这里有很多新的算法,以前因为硬件比较贵,不能让编码的器件成本太高,所以有些算法还行,只要算法太复杂就基本不用。现在不在乎这个,因为集成电路发展以后,算法愈来愈多,编码放进去后视频效果会越来越好。针对监控视频我们会有更好的方法,使它的效率更高。从编码的角度,去空间冗余、去时间冗余和去编码冗余这三种技术可以把视频流里的冗余去掉,这三种技术包含了许多算法,有变换、滤波、运动补偿、熵编码等。去空间冗余最主要的工具是变化,把时域变到频域上再进行处理,对于空间的冗余主要是采用预测

5、编码的方式去除,对于感知主要是通过熵编码去除。面向对象检测、跟踪与识别解决模式识别问题第二个挑战,对象检测、跟踪识别挑战。模式识别率再高、人脸识别再准,识别的准和不准取决于算法的好坏,还取决于在编码那端能不能提供支持。以往这两个系统像轨道一样完全平行,我们希望编码和识别能合作,把中间那堵墙翻过去或者拆掉。怎么拆掉?编码时要考虑怎么办。现在我们提出个支持是roi (region of internet) ,就是编码时识别出来哪个区域可能是识别要用的区域,把这个区域定义成感兴趣区域,对于感兴趣区域要描绘出来,现在语法里对感兴趣区域有专门的描述,除了这个区域以外还包括其他的,比如gps 信息、摄像机

6、参数信息。有了这个以后,在后面编码时,会针对编码参数进行调整,roi区域压得轻一点,这样关键的信息丢失的会少一点。有了这样的知识,可以用它架构友好的智能监控识别体系。现在即使有个算法很好,比如 266,它编码的效率和avs2 是一样的,我说那也不行,为什么?因为你压完以后还有解,解的时候才知道哪个地方是可识别的。现在压的时候就知道哪个东西有用,哪个东西没有用,有用的可以压得轻一点,这样构建分析架构,底层是完全的视频流,视频流上面可以构架一个区域描述,不是有roi么,这个“ r ”就是 region ,根据区域描述,若干的区域构成个对象,它们的关联就可以构成事件,只要处理能力足够强,我就把这个东

7、西表述出来了,这对识别非常有用。以大规模视觉搜索解决跨摄像头搜索问题第三个挑战,跨摄像头怎么办?我们可以对跨摄像头的数据进行矫正,然后再进行一些后续的工作。这方面有很多工作已经开始做了,比如我们试验室学生搭了一个系统,你在北大校园的一个地方走,其他几个框是别的几个摄像头,从一个摄像头跨到另外一个摄像头的时候,现在有一个专门技术是再认证,一个人在一个摄像头里出现过,当他出现在第二个摄像头的时候,就可以被识别出来。因为有时候可能不是正脸,靠人脸识别已经不管用了,就要靠颜色、身体、步态、外形等综合识别。要做好这个系统有一个重要的技术是能做到大规模的搜索。大规模的搜索这一块我们组有个很好的工作叫cdv

8、s ,它可以用很少的特征去搜索你要的东西,比如我用手机拍一张照片或者拍一个景色,拍完以后传送到服务器,搜索后会告诉你拍的是哪里。这个过程它需要你的特征选得非常好、非常准,然后有代表性,这样才能搜索得比较准。可以用一组特征,这组特征我们把它命名叫“cdvs ” ,cd 是一个紧缩的描述词,就是面向视觉搜索的紧缩描述词,这也是在国际标准化框架下面做的。前一段时间有个多媒体描述标准是 mepg7。这里面的关键技术,一个是选择特征点,然后是选择特征, 把这些特征进行聚合、压缩、进行点压缩,最后变得非常小。举例来说有多小,比如你照了个照片,这个照片有三、四兆大的尺寸,我们从中提出来大概500 个 bit

9、 ,连 1k 都不到,就可以进行搜索了,最高可以到16k,16k 检索的效率就更高,我们判断特征好不好是用召回率来判断,我们都希望召回率达到 90% ,低于 90% 就认为这个特征没有选好。什么叫召回率90% ?我用完整的照片到库里搜出来的东西,和我用521 个去搜,是不是有90% 都在我搜的100 个里面,如果是的话那你这个特征是可以的,这是一个准则。后台的技术会涉及到数据压缩、计算机视觉特征提取以及机器学习和视觉挖掘。和特征、视觉有关的主要是局部描述,模式识别里有个非常好的描述词叫“sift特征”,它可以保持平移不变、旋转不变、伸缩尺度不变等。但是这个特征也有问题,一个是专利问题,另一个是耗费存储比较大,耗费计算时间比较大。(本文根据高文在“2015 中国大数据技术大会”上的演讲整理而成,未经本人确认。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号