973项目基于视觉特性的视频编码理论与方法研究

资源描述

《973项目基于视觉特性的视频编码理论与方法研究》由会员分享，可在线阅读，更多相关《973项目基于视觉特性的视频编码理论与方法研究（45页珍藏版）》请在金锄头文库上搜索。

1、编号：时间：2021年x月x日书山有路勤为径，学海无涯苦作舟页码：第1页共1页项目名称：基于视觉特性的视频编码理论与方法研究首席科学家：高文北京大学起止年限：2009.1至2013.8依托部门：教育部一、研究内容由于可以有效节省通信带宽和存储容量，高效率的视频编码技术已经成为数字视频广播(广播网)、数字媒体存储与网络传输(计算机网络)、以及多媒体通讯(通信网)等数字媒体产业的共性关键技术。特别是近年来，我国的数字媒体产业迅猛发展，年均产值已近万亿元，使得音视频编解码标准技术的地位越来越重要。经过多年努力，2006年中国终于有了自己的视频编码国家标准AVS。但我们仍需未雨绸缪，从模型、理论、

2、方法和技术上为下一代视频编码国家标准和国际标准的制定早做准备，确保在下一轮的标准竞争中立于不败之地。从视频编码的需求角度看，编码的主要动机是在尽量保证高质量视觉效果的前提下最大限度地降低码率，达到压缩的目的。众所周知，人类视觉系统的信息处理能力远远超过目前的视频处理系统，因此，从方法论上借鉴人类视觉系统的视觉信息处理基本神经机制和心理机理，构建统一的图像/视频基本结构与表示模型及其相应的视觉计算方法，发展将香农信息论与人类视觉系统信息处理原理相结合的高效视觉信息编码理论与方法，就成为了本项目的基本出发点和立项依据。视频编码处理的核心环节要对视频中包含的视觉信息进行高效的表达和准确的重建，其本质

3、是视觉信息的基本结构和有效表示问题。为此，我们需要探讨以下关键科学问题：（1）视频编码可以借鉴的视觉信息处理机理是什么？作为长期进化的结果，人类视觉信息处理系统是至为精致的生物系统之一。但遗憾的是，其基本神经机制、知觉和认知机理目前尚不完全清晰。本项目将从多学科交叉的角度出发，探索视觉信息处理的基本神经机制和认知机理，研究相应的理论和模型，对其进行实验验证与计算仿真，以期能够用以指导建立更加有效的视觉计算模型。（2）视频编码可以利用的符合视觉信息处理机理的计算模型是什么？尽管人类视觉系统的信息处理机理尚不完全明了，但随着技术手段的提高，脑科学、神经科学和认知心理学专家已经掌握了越来越多的规

4、律并提出了很多假说和模型。如何基于这些发现构建相应的、可计算的视觉信息处理数学模型就成为一个重要的基础科学问题。其解决不仅可以有效促进视觉编码技术的发展，还可以从计算模拟的角度反过来推动视觉基本机理的研究。（3）与人类视觉系统特性相吻合的视频表示及编码的理论是什么？香农信息论虽然从理论上给出了编码效率的上界和失真的关系，但并未考虑编码的符号(事件)集，因而对视频中高阶相关缺乏有效的描述手段。视觉信息论试图借鉴神经生理学在不同感知阶段对感知对象的抽象，建立对应的符号(事件)集，使之能够方便地描述高阶相关性，体现语义结构，从而丰富信息论理论。符号(事件)是借鉴稀疏编码理论通过采用贝叶斯计算视觉感

5、知的后验概率建立的。这将为高效视频编码提供指导性的理论基础。上述三个关键科学问题紧紧围绕视觉信息处理系统中最核心的表示与编码问题，分别从生理/心理基本机理、视觉信息处理计算模型、视频编码基础理论三个层面展开。其中，视觉基本机理既是基本出发点也是落脚点，计算模型是桥梁和纽带，视觉信息论则是设计和实现下一代视频编码方法和技术的理论基础。围绕上述三个关键科学问题，我们提出的总体研究内容框架如图2所示，以期建立解决这些问题的模型、理论和方法，构建相应的验证平台和原型系统。如图所示，对应三个关键科学问题，本项目的主要研究内容自底向上分别建立在三个层面，即：机理与模型层，理论与方法层，关键技术与验证层。下

6、面我们分别从这三个层面对本项目的主要研究内容进行阐述。2.1视觉基本机理与模型层该层面的研究内容面向的科学问题主要是前两个：视觉信息处理的基本机理和符合这些基本机理的计算模型。不难理解，二者有天然的紧密联系：一方面，视觉信息处理基本机理为视觉信息处理的计算仿真、计算模型建立等提供了良好的生理学和心理学参照系，对其基本规律的认识为计算模型的建立提供了良好的技术可能性和努力方向。另一方面，计算模型也为基本机理的正确性和模型的有效性提供了验证机会，有利于推动视觉基本机理的研究。下面分别叙述本项目在视觉基本机理和计算模型方面拟开展的研究。2.1.1视觉信息处理基本机理研究在视知觉机理方面，将主要从生理

7、、心理角度，通过神经电生理学、视觉行为学、药物学等研究手段，在灵长类动物上采用包括微电极矩阵记录方法、高时间分辨率的事件相关电位(ERP)、功能核磁共振(fMRI)等技术手段从初级视觉皮层V1神经元群体反应特性入手，研究V1神经元经典和非经典感受野与上级视觉皮层区域神经元正向和反向联系、V1神经元之间的横向联系，以及视觉学习过程中神经元群视觉编码模式的变化特性，探索初级和高级皮层中的神经元群在视觉处理中对简单和复杂视觉刺激的编码模式以及动态反应模式，各级皮层神经元群对不同视觉模式识别的贡献，考察视觉注意和知觉组织之间相互影响和交互作用，以验证或改进现有假说或理论模型(如稀疏编码、群组编码、视觉

8、注意、增量成组假说等)，乃至提出有关视觉模式识别的神经机制及编码机理的新假说、新模型，为后续的计算模型的研究提供神经机制和心理机理方面的基础。图3给出了本项目在视知觉基本机理方面拟开展的主要研究内容，涉及的主要关键问题，机理模型/假说，以及拟采用的技术手段。视知觉基本机理的研究成果为实现人工视觉提供了一条可行的道路，利用基本视觉机理如稀疏编码、群组编码、增量成组等，根据人类视觉系统在平移、旋转、尺度下的不变性以及对数据缺失、噪声等问题的自适应性，从计算仿真的角度研究相应的视觉信息处理计算结构，探讨视知觉的计算机理，建立相应的表示和计算模型。我们将在这一框架下研究包括视觉信息的稀疏表示、初级视觉

9、皮层(V1区)、V2区、V4区和IT区的各个层次、不同复杂度下特征形成的计算模型和实现算法。具体研究内容包括：在视皮层网络结构第一层上研究视觉信息稀疏表示的机器学习算法、超完备表示对实现鲁棒图像编码的作用以及基于超完备表示的特征提取方法等。在第二网络层次上将研究视觉特征成组(Feature Grouping)机理以及神经网络拓扑结构和学习算法。在皮层型网络的第三层上则研究整体特征形成机理及计算模拟算法，在最高层则研究基于整体特征的物体识别模型与算法。2.1.2面向视频编码的视觉计算模型研究在上述视知觉机理研究基础上，我们将从功能模拟的角度，采用统计学习方法，研究从图像和视频中学习与视觉感知相对

10、应的视觉信息表示基本粒子结构，建立形式化数学描述的有关理论和方法。特别要重点研究稀疏编码、增量成组和视觉注意机制所遵循的基本规律及其可能的计算模型，进而建立与视觉信息处理相关的统计模型和计算方法。在本项目的研究中，我们将基于静态要素图模型，提出一个针对视觉运动的、统一的视觉表示模型时空要素图(Spatial Temporal prImal skeTCh graph STITCH)系统。该系统包含了运动图像序列中每一帧的要素图表示。这些要素图比以往从静态图像中所获得的要素图显示出更强的语义信息。这些语义信息主要来源于运动所提供的丰富线索考虑到运动的时空相关性以及整体运动的一致性(coherenc

11、e)，我们可以对每帧静态要素图做进一步的分析处理，如层次化连接不同粒度的基元和模式等。图与图之间元素的对应关系表示了这些元素在时间上的动态对应关系。此外，STITCH系统还包括驱使这些要素图产生变化的动力学模型，如：要素图或其子图的运动、几何变形、以及拓扑结构的变化模型等。我们认为时空要素图模型是对运动图像序列的一种内在本质表示，它将为编码提供稀疏、高效的表示，从而有望使得新一代编码技术获得本质性的飞跃。本项目将通过提出上述针对视频信息的“时空要素图”表示模型和计算方法，研究将视频分解为层次化基元结构的可行性，探讨视频表示及编码的基本数学模型问题，进而探索视频的内在基本结构，为后续的“视知觉熵

12、”、“视觉信息论”、基于视觉特性的高效视频压缩、多维度可伸缩编码、分布式多视点编码和面向智能监控的视频编码等研究内容提供基础性的视觉表示和计算模型。在视觉注意计算方面，项目将基于前面讨论的STITCH表示，研究视频的注意选择计算模型。将视频分解成基元结构后，根据视觉机理中的“中心-环绕”机制，视频中的注意区域可定义为运动基元的时空特征拐点，如飞翔的小鸟、飘落的雪花可能会因其空间特征与周围区域有显著差异而显著性高，而快速行走的人突然停下来可能会引起运动特征与周围(时间轴)有变化而被关注。显著性可以用特征与中心/环绕类别标记之间的互信息来描述，特征与类别标记关联越紧密，该特征越能将中心和环绕区域分

13、离开，即中心与环绕区域之间的特征分布差异越大，则显著性越高这种定义在运动基元上的显著性与现有的基于低级特征(如颜色、亮度、方向和光流)的显著性相比更加符合人类的视觉特性，可以为后续基于注意的视频编码和内容监控提供更多信息。2.2视频编码理论与方法层上述视觉基本机理与模型层研究的核心内容是视觉信息的有效表示问题，而视频编码的根本目标则是要使用尽可能少的比特来编码表达原始视频中包含的视觉信息，因此，上述基本机理和数学模型恰可以利用以进行高效的视频编码，而且这为突破现有技术框架提出了新思路，即基于视觉特性的高效视频编码理论。从视频编码领域自身技术发展趋势来看，除了提高编码效率这一核心目标之外，也需要

14、在其他角度上发展。首先，需要适应不同的传输带宽、存储和检索目的，实现多个维度上的可伸缩编码。传统的可伸缩编码重点在时间、空间和质量上进行伸缩，我们则提出了更多的维度，包括注意可伸缩、动态范围可伸缩等。其次，分布式系统、立体视系统(尤其是三维电视)等应用需求越来越强烈，因此也特别有必要针对这类多视频源编码问题进行探讨，即所谓分布式多视点编码。最后，在视频监控领域，对智能视频监控的需求日益强烈。目前的监控系统均直接采用面向广播或通信业务的视频编码方法，而没有针对监控任务本身进行特殊的编码，因此编码和后端的智能分析功能是割裂开的。为此本项目提出一种新的解决思路，试图将二者更加紧密地联系起来，即在前端

15、编码阶段就尽量多地考虑后端的智能分析需求。在视频编码理论与方法层面，我们将重点开展四个方面的研究，即：基于视觉模型的高效视频编码理论、多维度可伸缩编码方法、分布式多视点视频编码方法和面向智能监控的视频编码方法。它们之间的关系如表1所示：表1 编码理论与方法主要研究内容之间的关系编码方法涉及的机理与计算模型主要的理论与方法主要应用领域基于视觉模型的高效视频编码视知觉机理，特别是稀疏编码理论，视觉计算模型，特别是局部视觉（基元）模型视觉信息论，视觉要素编码方法，局部视觉模型参数编码高清、超高清视频广播，视频存储多维度可伸缩编码视觉注意机理，图像/视频显著性计算模型可伸缩编码理论，注意区域编码方法流

16、媒体服务，可伸缩质量服务分布式多视点视频编码分布式信源相关模型，深度视觉计算模型分布式编码理论，Wyner-Ziv编码多视点视频，3D电视面向智能监控的视频编码群组编码机理，对象检测与识别模型，视觉注意机理面向对象编码方法，智能视频分析与编码，索引编码智能视频监控，视频检索四个主要研究内容各自具体描述如下：2.2.1基于视觉模型的高效视频编码理论结合视知觉机理和视觉计算模型，研究符合人类视知觉机理的视频压缩理论与方法。本部分研究内容将从基础理论、算法与框架以及应用三个方面开展。在基础理论方面，研究基于视知觉熵的视觉信息论，探讨视知觉机理中给出的视觉基本组成单元与视觉信息论中基本信源符号的关系，定义合理的基本信源符号，进而提出视知觉熵的概念；研究视知觉熵的测度和数量化方法，特别是视知觉熵的

展开阅读全文