小股人群重识别研究进展

资源描述

《小股人群重识别研究进展》由会员分享，可在线阅读，更多相关《小股人群重识别研究进展（29页珍藏版）》请在金锄头文库上搜索。

1、小股人群重识别研究进展张权，赖剑煌，2，3，4*，谢晓华，3，陈泓栩1.中山大学计算机学院，广州 510006；2.广州新华学院，广州 510520；3.广东省信息安全技术重点实验室，广州 510006；4.视频图像智能分析与应用技术公安部重点实验室，广州 5100060 引言行人重识别（person re-identification）是计算机视觉在安防领域的一个重要任务。该任务旨在一个视域互不重叠的摄像机网络中，将不同摄像机下属于同一身份类别的行人图像进行正确的关联（赵才荣等，2021）。该任务自从2006 年首次在国际计算机视觉与模式识别会议提出以来（Gheissari 等，20

2、06），得到了学术界和工业界的广泛关注。在经过了十几年的快速发展之后，行人重识别的模型框架日趋成熟，相关算法落地初展头角，在我国有着广泛的应用价值，给城市安全和公众财产给予了强有力的保障和支撑。然而，现有的行人重识别技术仅关注对于单个行人研究，对于多个行人同时出现的情况没有过多讨论。由于人类社会存在群居属性以及社会角色的多样性，人们更倾向于以小群体形式结伴出行，而非独立出现（Mei 等，2020）。将小规模人群作为重识别目标的任务，简称小股人群重识别（group re-identification，GReID）（Zheng 等，2009）。该任务对于行人重识别中被研究对象的数目进行了

3、拓展，大幅拓展了行人重识别的应用场景，对某些团伙作案的犯罪行为（如绑架）起到了良好的检测、防范和打击作用，对社会安全和人民财产起到了保护作用。除此之外，小股人群重识别也可以促进行人重识别的性能进一步提高。具体地，由于监控摄像头的环境复杂，单个行人很容易受到遮挡的影响。在严重遮挡的条件下，仅依靠单人的表观特征并不可靠。此时小股人群重识别可以考虑将与之同行的其他群体成员的表观特征作为检索线索，提高行人重识别在复杂环境下的鲁棒性和判别性。相比于行人重识别，小股人群重识别的研究相对较少。因为小股人群不仅需要面对传统行人重识别中的挑战，还需要解决由于图像中群组结构变化带来的挑战，通常包括群组人数的变化和

4、群组成员位置的变化。近年来，提出了不少围绕小股人群重识别的工作，使该任务在深度学习时代得到了快速发展。Lin 等人（2021）提出了多粒度表示（multigrained representations，MGR），引入深度网络结构作为成员表观特征的提取器。Huang 等人（2019a）提出了基于域迁移的图神经网络方法（domain transfer graph neural network，DoTGNN），引入对抗生成网络增加群组的多样性。Yan 等人（2020）提出了多注意上下文图匹配（multi-attention context graph，MACG），将图结构与注意力机制相结合提取群组特

5、征，Zhang 等人（2022b）提出了二阶自注意力模型（second-order Transformer，SOT），首次将自注意力模型（Transformer）应用在这项任务中。然而，上述工作都是针对小股人群重识别任务的某一具体问题或者挑战展开技术性研究，对该任务的整体回顾和未来发展缺乏详细的讨论。本文是对小股人群重识别任务发展至今的综述性研究。具体地，本文对已有工作在数据集、算法和性能等方面进行系统论述，对已有算法和模型进行归纳总结，对未来的研究趋势进行讨论和展望。1 小股人群重识别问题及技术总览在一个视域互不重叠的摄像机网络中，小股人群重识别任务旨在将包含多个相同行人的群组样本（图像或者

6、视频序列）进行正确的关联。考虑到任务的复杂性以及实际情况下的群组成员数量，该任务通常考虑人数较少的目标群组，当前的研究通常关注分布在28 人之间的目标人群。如图1 所示，给定的待查询群组样本是由两个行人组成的群组图像，该任务的目标是在底库图像集中找到所有与之群组身份相同、摄像头不同的群组图像，并按照相似度大小返回检索结果。图1 小股人群重识别任务描述Fig.1 Illustration of group re-identification小股人群重识别任务与密集人群视觉任务相比，其不同点在于由于研究对象的数目不同导致所关注的问题不同。在密集人群的视觉任务中，由于个体的表观特征往往难以获得，这些

7、任务更关注整个高密度人群的属性分析，例如群体人数、群体运动趋势、群体行为等。而小股人群重识别由于较少的人群数量，可以得到较为丰富的个体信息，并在此基础上研究如何进行多目标的关系建模，从而提取到关于群体的特征表达。小股人群重识别任务与行人重识别相比，其独特性在于同一个群组身份呈现群组结构的多样性，即由于群组成员数量的变动和群组成员位置的变动所引发的群组结构变化。其中，关于群组的成员人数，现有研究（Yan 等，2020）一般认为两幅群组图像的共同人数超过60%时，即认为这两幅群组图像属于同一个群组类别。小股人群重识别按照数据类型、标签设置和模型策略的不同可以划分为不同子任务，如图2 所示，但是本质

8、都是在围绕如何针对上述两种变动对群组关系进行建模和描述。图2 小股人群重识别技术总结Fig.2 Technology summary of group re-identification根据群组数据类型的不同，可分为基于静态图像的方法和基于视频序列的方法。基于静态图像的方法包括Zheng 等人（2009）提出的中心矩形环比占用描述符（center rectangular ring ratio-occurrence descriptor，CRRRO）、Cai 等人（2010）提出的协方差描述符（covariance）、MACG（Yan 等，2020）和SOT（second-order Trans

9、former）（Zhang 等，2022b）等。基于视频序列的方法包括Chen 等人（2021）提出的双流注意力网络（two-stream attentive network，TSAN）等。根据群组标签设置的不同，可分为基于有监督的方法、基于弱监督的方法和基于无监督的方法。基于有监督的方法包括Xu等人（2019b）提出的混合注意力模型（hybrid attention model，HAM）、MACG（Yan 等，2020）、SOT（Zhang 等，2022b）、Zhu 等人（2021）提出的群组上下文图神经网络（group context graph neural networks，GCGN

10、N）和 Zhang 等人（2022a）提出的3 维自注意力模型（3D Transformer，3DT）等。基于弱监督的方法包括DotGNN（domaintransferred graph neural network）（Huang等，2019a）和Mei 等人（2020）提出的孪生群组检索方法（siamese verification-identification-based group retrieval，SVIGR）等。基于无监督的方法包括CRRRO（Zheng等，2009）、Covariance（Cai 等，2010）和Lisanti 等人（2017，2019）提出的基于编码特征的残差

11、表示方法（pooling residuals of encoded features，PREF）等。基于模型策略的不同，可分为基于数据增强的方法、基于特征提取的方法和基于度量学习的方法。基于数据增强的方法包括Huang 等人（2019b）构造的成对表征的迁移学习网络（transferred single and couple representation learning network，TSCN）、Dot-GNN（Huang 等，2019a）、DotSCN（Huang 等，2021）和Liu 等人（2021）提出的单特征注意力网络（single feature attention learn

12、ing network，SFALN）。基于特征提取的方法包括CRRRO 和MACG。基于度量学习的方法包括Xiao 等人（2018）提出的利用和集成多粒度信息（leveraging and integrating multi-grain information，LIMI）的方法、Xu 等人（2019b）提出的最小二乘残差距离（least squares residual distance，LSRD），SVIGR（siamese verification-identificationbased group retrieval）（Mei 等，2020）和Mei 等人（2021）提出的基于人与群组

13、相似性匹配的歧义消除方法（person-to-group similarity matching based ambiguity removal，P2GSM-AR）。其中，特征提取又可以进一步划分为基于人工设计的手工特征方法和基于数据驱动的深度学习方法。前者包括CRRRO-BRO（Zheng 等，2009）、Covariance 描述符（Cai 等，2010）、Salamon 等人（2015）提出的基于软生物特征的方法（soft-biometric characteristics，SBC）和PREF（Lisanti等，2017）。后者包括HAM 模型（Xu 等，2019b）、MACG（Yan

14、等，2020）、GCGNN（Zhu 等，2021）、Hu等人（2021）提出的部分相关均值模型（part relational mean model，PRM）、SOT（Zhang 等，2022b）和3DT（3D transformer）模型（Zhang等，2022a）。尽管小股人群重识别的细分子任务众多，但是现阶段仍处于起步阶段，大量的任务仍集中在基于图像和有监督学习的小股人群重识别方法，这也是本综述重点阐述的内容。2 小股人群重识别相关数据集为了支持小股人群重识别的研究，研究人员已经构建了许多群组数据集。本节主要按照数据集的数据类型分别进行介绍。2.1 静态图像数据集2.1.1 真实图像数据

15、集iLIDS-MCTS（the imagery library for intelligent detection systems，multiple camera tracking scenario）数据集（Zheng 等，2009）是最早公开的小股人群重识别数据集之一，该数据集是在机场大厅中的一个多摄像机监控网络在机场繁忙时期拍摄的。该数据集提取了两个互不重叠的摄像头下的群组图像，共包含64 个群组身份和274 幅经过裁剪的群组图像。大多数组有4 幅图像，来自不同的摄像头或来自同一摄像头但在不同时间不同位置。这些群组图像的大小不同。如果需要得知群组成员的相关信息，还需要研究者使用额外的检测算

16、法。CASIA（Institute of Automation，Chinese Academy of Sciences）群组数据集（Cai 等，2010）和OULU群组数据集（Cai 等，2010）同时提出。其中，CASIA群组数据集由两个室外的摄像头采集得到，共收集了44 对（即88 幅）群组图像。OULU 群组数据集由5个室内的摄像头采集得到，共收集了20 对（即40 幅）群组图像。这两个数据集提供了更加完整的相机成像画面而非经过裁剪的。因此，两个数据集的实验结果指出，如果利用头肩检测算法得到多于两个行人的检测结果，则将行人区域定义为包含群组图像的前景区域，其余为背景区域。ETHZGroup（ETH-zurich Group）数据集（Salamon等，2015）是在ETHZ 数据集（Ess等，2007）上进一步发展得到的。该群组数据集共标注了141 个群组身份，213 个群组成员身份以及72 幅群组图像。该数据集着重强调个人和群体在不

展开阅读全文

小股人群重识别研究进展

最新文档