• 综合性科技类中文核心期刊
    • 中国科技论文统计源期刊
    • 中国科学引文数据库来源期刊
    • 中国学术期刊文摘数据库(核心版)来源期刊
    • 中国学术期刊综合评价数据库来源期刊

行人重识别研究综述

王素玉, 肖塞

王素玉, 肖塞. 行人重识别研究综述[J]. 北京工业大学学报, 2022, 48(10): 1100-1112. DOI: 10.11936/bjutxb2021030002
引用本文: 王素玉, 肖塞. 行人重识别研究综述[J]. 北京工业大学学报, 2022, 48(10): 1100-1112. DOI: 10.11936/bjutxb2021030002
WANG Suyu, XIAO Sai. Review of Person Re-identification[J]. Journal of Beijing University of Technology, 2022, 48(10): 1100-1112. DOI: 10.11936/bjutxb2021030002
Citation: WANG Suyu, XIAO Sai. Review of Person Re-identification[J]. Journal of Beijing University of Technology, 2022, 48(10): 1100-1112. DOI: 10.11936/bjutxb2021030002

行人重识别研究综述

基金项目: 

北京市教育委员会科技计划资助项目 KM201710005011

详细信息
    作者简介:

    王素玉(1976—), 女, 副教授, 主要从事图像/视频信号处理、计算机视觉方面的研究, E-mail: suyuwang@bjut.edu.cn

  • 中图分类号: TP391.4

Review of Person Re-identification

  • 摘要:

    行人重识别的目的是在多个不重叠的摄像头之间检索特定的行人. 对目前有代表性的基于深度学习的行人重识别算法进行归纳和总结, 综述不同类型的行人重识别算法的结构和特点. 首先,介绍行人重识别的概念; 其次,根据行人重识别算法的特点, 概述基于监督学习和弱监督学习的行人重识别算法,并对特征表示学习和深度度量学习2种基于监督学习的行人重识别算法进行详细讨论; 然后,介绍这一领域的经典数据集, 对有代表性的算法在这些数据集上的表现进行对比分析; 最后,展望行人重识别领域的发展方向.

    Abstract:

    The goal of person re-identification (ReID) is to retrieve a specific person between multiple non-overlapping cameras. Representative deep-learning-based person ReID methods were reviewed and the architectures and features of different person re-identification methods were discussed in this paper. First, the definition of person ReID was introduced. Second, supervised learning methods and weakly supervised learning methods were reviewed, respectively. In particular, The feature representation learning and metric learning of the supervised learning methods were discussed in detail. Third, the mainstream datasets in different tasks were analyzed, and the state-of-the-art methods were evaluated and compared. Finally, important yet under-developed research directions were briefed.

  • 行人重识别也称行人再识别, 是图像检索任务中的一个子问题[1]. 它的主要目标是确定一个特定的人是否出现在由不同摄像机拍摄到的视频中. 查询线索可以是图像、视频序列,甚至是文本描述[2]. 旨在弥补固定的摄像头的视觉局限, 并可与行人检测/行人跟踪技术相结合, 广泛应用于智能视频监控、智能安保等领域. 随着智慧城市的建设, 安防需求与日俱增, 智能化监控系统迎来重大发展机遇. 作为其中不可或缺的一环, 行人重识别成为学术界、工业界的热点研究方向.

    简单来说, 行人重识别任务可分解为特征提取和特征匹配2个过程. 由于摄像头存在拍摄点位不同[3]、分辨率不同[4]、光照变化[5]、姿态变化[6]、遮挡[7]和异构[8]等问题, 使得行人重识别面临挑战.

    因此, 如何更好地提取更具判别性的特征表示和设计更优秀的度量学习损失函数成为行人重识别任务的关键. 早期行人重识别的研究工作主要集中在基于手工特征[9-10]和距离度量[11]的方法. 由于行人重识别面临跨设备拍摄图像存在较大差异的问题, 传统方法难以取得较好效果. 文献[1]对深度学习时代之前的行人重识别算法进行了全面的综述.

    随着深度学习技术的发展, 基于深度卷积神经网络(convolutional neural networks, CNN)的行人重识别算法取得一系列优秀的成果. 根据使用的数据和训练策略的不同, 行人重识别算法可分为基于监督学习和基于弱监督学习2类方法. 目前, 大部分的工作集中在监督学习方面. 早期的工作将行人重识别看作一个多分类问题, 只利用了全局特征. 后来,又有学者提出使用全局特征和局部特征相结合的方法解决遮挡问题, 提取更加具有判别性的特征表示. 随着生成对抗网络和注意力机制的提出, 行人图像的特征提取方法也得到很大改进, 提高了模型的鲁棒性和泛化能力. 与此同时, 对于特征度量学习算法的改进也在进行,通过设计更好的度量损失函数使行人重识别算法更准确地识别相同的人并区分不同的人.

    最新的基于监督学习的方法在一些常用的基准上已经超过了人类水平,但是研究场景和实际应用之间仍存在很大的差距. 为了更贴合真实场景, 也有一些学者使用基于弱监督学习的方法并取得了较好效果.

    基于弱监督学习方法的行人重识别算法主要分为半监督学习方法和无监督学习方法. 在真实场景中, 行人重识别任务的数据标注成本十分昂贵. 同时, 基于监督学习的方法泛化能力较差. 因此,使用少量标记数据的半监督学习行人重识别和无监督学习行人重识别具有重大的研究意义和价值. 对于无监督学习的方法, 主流的策略是采用标签估计. 对于半监督学习方法,根据数据构成的差异可分为少量的样本有标签和每个样本有少量标签2类.

    以下, 将根据行人重识别算法的特点, 分别进行总结和分析.

    在深度学习框架下, 基于监督学习的行人重识别算法通常包含特征提取、特征度量和排序优化3个组件. 相关的研究主要集中在各个环节的优化设计方面. 特征表示学习的研究集中于更加有效的特征提取网络; 深度度量学习的研究集中于度量损失函数的设计; 排名优化的研究通过对结果序列的优化提高准确率.

    对于行人重识别任务, 特征表示学习的主要任务是如何从行人图像中提取更具判别性的特征表示. 根据特征提取策略的不同, 可将行人重识别算法模型分为分类模型和验证模型.

    分类模型一般是将实例损失[12]作为损失函数. 验证模型每次输入2张图像,使用孪生网络提取特征表示[13]并进行特征融合,然后计算二分类损失,但是这种方法的计算开销较大,也可以将2种模型结合使用以增强图像特征表示的鲁棒性[14].

    根据提取特征的不同, 现有方法主要分为全局特征表示学习、局部特征表示学习和序列特征表示学习. 近年来, 基于辅助特征表示学习和使用注意力机制的方法得到广泛关注, 其中一些方法取得较好效果.

    全局特征表示学习为每个行人图像提取一个全局的特征表示, 如图 1所示. 由于早期的研究都是将行人重识别看作图像分类问题, 因此,早期的方法大多都使用全局特征表示学习方法.

    图  1  表示学习的3种特征
    Figure  1.  Three types of feature representation learning

    文献[12]提出了一个判别性身份嵌入方法, 将行人重识别视为一个多分类问题, 每个行人作为一个单独的类别. 文献[13]提出了一种同时学习全局特征和相似性度量的方法, 计算一对图像的相似度. 为了在全局特征学习中提取细粒度特征进行学习, 文献[15]使用小型卷积核进行特征提取, 提取行人图像中细粒度的特征. 文献[16]提出了一种多尺度深度特征表示学习模型. 该模型能够学习不同尺度下的全局特征表示, 并自适应地进行匹配. 文献[17]设计了一个轻量级网络进行全尺度特征学习,使用深度可分离卷积减少网络的参数量[18-20], 加速网络训练.

    在真实场景中, 摄像头拍摄的行人图像存在遮挡、角度变化、背景变化等问题, 见图 2. 因此,这些噪声区域会对全局特征造成极大的干扰. 同时, 由于行人姿态变化, 在多个摄像头下检测到的图像帧姿态不一致的问题也会使全局特征无法匹配. 目前,主流的趋势都是将全局特征与局部特征相结合使用以期实现更好的效果.

    图  2  不同摄像头拍摄的数据存在较大差异
    Figure  2.  Differences in data taken by different cameras

    通过人体姿态估计或粗略水平分割方法划分行人身体部位, 然后从行人图像中该区域或人体部件提取局部特征,再与行人全局特征相融合,对遮挡、姿态变化具有鲁棒性[21].

    对于局部特征表示学习方法的研究, 图像划分方式主要分为2类:水平分割[21-22]和姿态估计[23].

    文献[21]提出了基于部件的卷积基线(part-based convolutional baseline, PCB)模型. 该模型采用统一的分割策略, 将所有行人图像固定平均分割为6个部分并提取局部特征. 同时,为了解决不同图像同一图像块不能良好对齐的问题, 设计了精细局部池化(refined part pooling, RPP)模块进行对齐, 增强了块内的一致性, 进一步提高了性能.

    文献[23]提出了一个姿态驱动的深度卷积(pose-driven deep convolution, PDC)模型, 通过采用人体姿态估计的方法进行图像分割以解决行人姿态变化的问题. 首先,对行人图像的14个关键点进行检测并定位, 再基于关键点信息进行局部特征提取;然后,用仿射变换使得相同的关键点对齐.

    人体姿态估计方法提供了良好的局部特征,但是行人重识别任务的数据集和人体姿态估计任务的数据集存在较大差异. 因此, 使用人体姿态估计数据集训练的姿态检测器进行关键点检测时, 很容易出现错检, 产生噪声数据, 对识别结果存在很大影响. 虽然水平分割方法实现灵活, 但是当遮挡区域较大或背景噪声较大时, 效果并不理想.

    基于视频的行人重识别也是行人重识别领域的热点研究方向. 通常, 在视频行人重识别数据集中, 每个行人通过多个视频序列表示, 每个视频序列由多帧图像构成. 基于视频序列的方法与基于图像的方法最主要的不同点就是这类方法不仅考虑了图像的内容信息, 还考虑了帧与帧图像之间的运动信息和时序信息, 例如步态特征[24]等,并且基于视频的行人重识别任务更接近真实场景的应用.

    文献[25]提出了在无约束的跟踪序列中时序信息是不可靠的. 如图 3所示, 为了自动地、准确地提取时序特征, 针对基于视频的行人重识别设计了一种基于循环神经网络(recurrent neural network, RNN)的模型[26].

    图  3  基于RNN的针对视频数据的行人重识别系统[26]
    Figure  3.  Person ReID system for video data based on RNN[26]

    文献[27]提出了一种对空间信息和时序信息加权的孪生CNN结构. 文献[28]设计了一种循环特征聚合网络, 聚合视频帧级行人特征表示, 并通过长短期记忆(long short-term memory, LSTM)人工神经网络, 融合时序信息生成特征表示[29]. 该网络将多个视频帧的行人特征和时空信息结合在一起, 增强了视频的特征表示学习. 最终的特征融合了单帧图像的内容特征和帧与帧之间的运动特征,而这个特征用于代替前面单帧方法的图像特征来训练网络.

    文献[30]中提出了一个基于区域的适应性质量估计网络(adaptive region-based quality estimation network, RQEN). 文中指出当单帧图像遇到遮挡等情况的时候, 可以用多帧的图像信息弥补, 直接诱导网络对图像帧进行质量判断, 降低质量差的图像帧的权重. 如图 4所示, 可以看出通过降低被遮挡图像的权重, 得到的特征图拥有更完整的行人信息.

    图  4  不同融合方法的热图[30]
    Figure  4.  Heat maps of different fusion methods[30]

    文献[31]提出了使用时空注意力(spatial-temporal attention, STA)方法, 将每帧图像水平分割为4个局部区域, 得到每帧图像的每个局部区域的二维得分矩阵. 首先,通过最大得分得到更具判别性的特征图;然后,通过使用得分矩阵进行加权融合得到全局特征图;最后,通过使用全局平均池化将2个特征图融合, 得到拥有更鲁棒的视频级特征的特征图.

    文献[32]提出了一个时空图卷积网络(spatial-temporal graph convolutional network, STGCN). 将行人的结构信息, 也就是图像块信息,作为图节点信息. 该网络包含2个图卷积分支: 空间分支用来提取人体的结构信息; 时间分支是从相邻帧中挖掘判别线索. 通过联合优化2个分支, 模型提取了与外观信息互补的鲁棒时空信息.

    文献[33]提出了一个基于图的网络框架多粒度超图(multi-granular hypergraph, MGH)模型, 通过在多个粒度对时空依赖性进行建模, 提高提取视频表征的能力.

    文献[34]提出了一个全局引导互惠学习(global-guided reciprocal learning, GRL)框架, 解决大多数基于序列特征的重识别算法过度关注每帧图像中的显著区域而忽略了细粒度特征的问题.

    辅助特征表示学习通过提取行人图像中的语义信息增强重识别效果或通过生成对抗网络方法来增强特征表示学习.

    文献[35]提出了一个联合学习行人身份信息和属性信息的框架. 文献[36]利用对每张图像全局的自然语言描述, 以及对图像局部描述的短语信息分别进行句子与短语和图像与图像块之间关系的学习,挖掘全局和局部图像- 语言之间的关联, 加强特征表示学习能力, 提高识别准确率.

    随着生成对抗网络(generative adversarial networks, GAN)[37]的提出, 其在行人重识别领域也得到了广泛关注. 在行人重识别任务中时常会面临训练数据不够用、数据存在偏差的问题. 数据不够用的问题主要集中在采集困难、标注成本昂贵和难样本数据量极少等. 数据存在偏差的问题主要是:同一个身份的不同图像, 姿态存在偏差;跨摄像机之间的图像, 风格存在偏差;不同地域之间存在偏差等. 基于生成对抗网络的方法, 可以缓解上述这些问题,比如:生成行人图像, 增加数据量,或者对行人图像进行风格转换, 减少数据偏差.

    文献[38]提出了异常标签正则化(label smoothing regularization for outliers, LSRO)方法,首次将生成方法应用于行人重识别任务. 通过生成对抗网络生成图像, 改进了特征表示学习. 文献[39]提出的Posetransfer方法通过加入从MARS[25]数据集中提取的行人姿态对生成对抗网络进行约束,提高了生成行人图像的质量, 并生成了具有新的姿态的行人图像. 为了解决行人图像数据采集时行人正对、侧对和背对摄像头造成的数据差异, 文献[40]设计了一种姿态归一化生成对抗网络(pose-normalized GAN, PN-GAN),生成额外的不同姿态的行人图像,增强了特征提取模型对姿态变化的鲁棒性.

    为了解决摄像机间图像风格偏差的问题, 文献[41]提出了相机风格自适应方法, 通过CycleGAN[42]增强数据集,但是CycleGAN生成的图像存在图像伪影、噪声以及对不同风格要分别匹配的问题. 文献[43]提出了一种均一化风格生成的方法UnityGAN, 将所有相机风格迁移至相近的区域, 取得了较好效果.

    与降低图像序列中被遮挡图像帧的融合权重的方法不同, 文献[44]使用生成对抗网络补全被遮挡的人体部件, 再进行重识别任务.

    近年来, 注意力机制因为其良好的效果被广泛用于增强特征表示学习. 文献[45]提出了和谐注意力卷积神经网络(harmonious attention CNN, HA-CNN), 联合学习“软”像素注意力和“硬”区域注意力, 并用于学习全局特征和局部特征, 最后将二者相结合, 提高了识别的准确率. 软注意力机制可以通过通道注意力、空间域注意力和混合域模型(将空间域和通道注意力混合)3种方式实现.

    压缩和激励网络(squeeze-and-excitation networks, SENet)[46]是一种典型的通道注意力网络. 针对行人重识别问题, 文献[47]设计了一个完全注意力模块. 完全注意力模块解决了SENet会丢失空间结构特征信息的问题, 并且与SENet一样, 可以用于不同的骨干网络, 提高识别能力. 文献[48]提出了一种属性注意力网络(attribute attention network, AANet). 如图 5所示,AANet重点关注行人局部区域的人体属性信息,将人体属性与行人全局特征相结合, 得到行人属性注意力.

    图  5  AANet提取的属性注意力热图[48]
    Figure  5.  Attribute attention heat map of AANet[48]

    为了更好地利用全局结构信息,文献[49]提出了一个有效关系感知全局注意力(relation-aware global attention, RGA)模块, 可以使网络提取更具判别性的特征信息. 文献[50]提出了一种混合高阶注意力网络(mixed high-order attention network, MHN).空间域和通道注意力是一阶注意力, 提取的特征信息较为粗糙, 高阶注意力可以提取特征图之间细微的差别, 提高模型提取高阶表征的能力, 从而提高识别准确率. 同样, 该模块可以与任何行人重识别网络结合使用.

    在行人重识别任务中, 注意力机制使模型倾向于关注更高相关性、冗余的细节特征信息, 而忽略了低相关性的特征, 导致模型不够鲁棒. 为了解决这个问题, 文献[51]提出了一种多样性正则化/频谱值差分正交正则化机制, 包括特征空间正交正则化和权重正交正则化两部分. 特征空间正交正则化有助于减少直接学习到的特征的相关度. 权重正交正则化能够增加滤波器的多样性以增强学习能力和泛化能力.

    度量学习旨在使用一个通过从数据中学习获得的最优距离度量方程, 度量样本之间的相似性[52]. 深度度量学习是度量学习的一种方法, 目标是学习一个从原始特征到嵌入空间的映射, 使同类别对象在嵌入空间中的距离较近, 不同类别之间的距离较远. 距离计算方程一般使用欧氏距离和余弦距离. 在基于深度学习方法的行人重识别任务中, 损失函数代替了传统度量学习的作用来指导特征表示学习.

    在行人重识别任务中广泛使用的损失函数主要分为:实例损失、验证损失和三元组损失. 同时, 近年提出的在线匹配实例损失和圆损失也取得不错的效果.

    图 6(a)所示, 实例损失是将行人重识别任务当作一个图像分类问题[12],把每个行人当作一个单独的类别. 测试时, 对于输入图像xi和标签yi, 预测概率p(yi|xi)通过SoftMax函数归一化编码, 然后使用交叉熵函数

    图  6  在行人重识别中3种广泛使用的损失函数
    Figure  6.  Three kinds of widely used loss functions in the person ReID
    $$ L_{\mathrm{id}}=-\frac{1}{n} \sum\limits_{i=1}^n \lg \left(p\left(y_i \mid x_i\right)\right) $$ (1)

    计算实例损失. 式中n代表每批训练样本的数量.

    图 6(b)所示, 在行人重识别任务中, 验证损失对一对行人图像计算对比损失[53]或二分类损失[54]. 对比损失的公式为

    $$ L_{\text {val }}=\left(1-\delta_{i j}\right)\left\{\max \left(0, \rho-d_{i j}\right)\right\}^2+\delta_{i j} d_{i j}^2 $$ (2)

    式中:dij表示2个输入样本xixjδij为一个二进制标签标识(如果xixj是同一个类别, 则δij=1, 反之δij=0).

    二分类验证损失区分每个图像对中的正类和负类. 通常差分特征fij=(fi-fj)2, 其中fifj分别为xixj的嵌入特征.

    验证模型将差分特征分为正类和负类, 使用p(δij|fij)代表xixj,被认为是δij的概率, 并使用交叉熵函数计算, 公式为

    $$ \begin{gathered} L_{\mathrm{val}}(i, j)=-\delta_{i j} \lg \left(p\left(\delta_{i j} \mid f_{i j}\right)\right)- \\ \quad\left(1-\delta_{i j}\right) \lg \left(1-p\left(\delta_{i j} \mid f_{i j}\right)\right) \end{gathered} $$ (3)

    通常, 为了提高识别准确率, 身份损失和验证损失会结合使用[52].

    三元组损失将行人重识别模型的训练过程视为一个检索排序问题. 三元组损失的基本思想是:正样本对之间的特征距离与负样本对之间的特征距离的差小于预先定义的阈值[55]. 如图 6(c)所示, 通常一个三元组损失包括一个锚点样本xa, 一个来自同一个类别的正样本xp和一个来自其他类别的负样本xn. 样本之间的距离d使用欧氏距离函数计算. 三元组损失的公式为

    $$ L_{\text {triplet }}\left(x_{\mathrm{a}}, x_{\mathrm{p}}, x_{\mathrm{n}}\right)=\max \left(\rho+d_{\mathrm{ap}}-d_{\mathrm{an}}, 0\right) $$ (4)

    为了解决三元组损失存在正样本之间距离无法控制和简单三元组过多导致判别性差的问题, 基本的思路是选择难样本进行计算三元组损失[55-56].

    基于序列特征的行人重识别算法在计算三元组损失时大多基于序列特征, 序列特征由多帧图像特征融合生成. 文献[57]提出了一个新的集合- 感知三元组损失,将序列特征建模为一个集合, 通过三元组损失优化集合之间的距离.

    为了解决端到端的行人重识别任务只有少量样本存在少量标签分类损失无法训练的问题, 在文献[58]中提出了一种使用记忆存储机制的在线实例匹配损失. 记忆存储库{vk, k=1, 2, …, c}存储实例的特征, 其中c是类号. 在线实例匹配损失的公式为

    $$ {L_{{\rm{oim}}}} = - \frac{1}{n}\sum\limits_{i = 1}^n {\lg } \frac{{\exp \left( {\mathit{\boldsymbol{v}}_i^{\rm{T}}{\mathit{\boldsymbol{f}}_i}/\mathit{\boldsymbol{\tau }}} \right)}}{{\sum\limits_i^c {\exp } \left( {\mathit{\boldsymbol{v}}_l^{\rm{T}}{\mathit{\boldsymbol{f}}_i}/\mathit{\boldsymbol{\tau }}} \right)}} $$ (5)

    式中:vi代表类别yi存储的特征;τ为控制相似空间的温度参数[59]viTfi用来度量在线实例匹配的得分.

    针对三元组损失优化缺乏灵活性和收敛状态不明确的问题, 文献[60]提出了一种圆损失函数. 三元组损失的目标是最大化类内相似度sp和最小化类间相似度sn, 也就是减小正样本之间距离, 增大负样本之间距离, 即减小(sn-sp). 在圆损失中使用2个自适应权重进行调整,其公式为

    $$ L_{\text {cir }}=\lg \left[1+\sum\limits_{j=1}^L \exp \left(\gamma \alpha_{\mathrm{n}}^j s_{\mathrm{n}}^j\right) \sum\limits_{i=1}^K\left(\exp \left(-\gamma \alpha_{\mathrm{p}}^i s_{\mathrm{p}}^i\right)\right)\right] $$ (6)

    排序优化主要对检索到的图像序列进行优化. 一般来说, 在行人重识别任务的测试阶段, 对于每张查询图像, 会对行人图像候选集中所有图像进行相似度排名, 然后选择前10名作为检索结果. 排序优化对提高模型的检索性能起到至关重要的作用. 给定一个初始的查询排序列表, 可以通过自动挖掘候选集之间的相似度[61]或者人工交互[62]优化排名顺序, 使正样本的排名更高.

    重排序的基本思想是利用查询结果之间的相似度对初始排序列表进行优化. 在文献[61]中提出了一种使用k个相互近邻编码(k-reciprocal)的方法挖掘相似度信息的重排序方法, 初始排序列表. 由于其实现简单和效果明显, 被广泛用于当前先进的方法, 但是, 它的计算开销较大, 并不适用于实际应用.

    行人重识别任务的数据集规模越来越大, 数据的标注成本随之升高, 在现实应用中数据难以扩展. 基于弱监督学习方法的行人重识别算法可以很好地缓解这个问题. 弱监督学习方法可分为基于无监督学习和基于半监督学习2类. 目前,先进的基于有监督学习方法在单一数据集上的识别能力已经超越了人类,然而, 并不能很好地泛化到其他数据集,并且基于弱监督学习的方法更贴合实际的应用场景, 得到学术界和工业界的广泛关注.

    无监督学习可以通过未标注的数据解决行人重识别任务. 在无监督学习方法中, 标签估计方法十分流行[63-64].

    文献[63]中提出了动态图匹配(dynamic graph matching, DGM)方法, 采用迭代的方式, 每次迭代生成一个二部图, 估计标签并学习区分矩阵. 如图 7所示, 通过不断迭代, 标签准确率提高, 矩阵区分度更显著.

    图  7  动态图匹配[63]
    Figure  7.  Dynamic graph matching[63]

    对于端到端的无监督学习行人重识别, 文献[64]采用自步学习(self-paced learning)方法, 逐步地挖掘可靠标签. 首先,使用其他有标记的数据集进行预训练, 再对无标签数据集提取特征后使用K-means算法聚类计算中心特征;然后,将每类距离中心特征小于阈值的样本选出来,设置为伪标签, 再使用有伪标签的数据对模型进行训练. 文献[65]提出了一种软多标签学习方法来为未标注数据集生成伪标注, 再进行行人重识别训练.

    文献[66]提出了一个用于异构多任务无监督行人重识别的可迁移联合属性- 身份深度学习(transferable joint attribut e- identity deep learning, TJ-AIDL)模型. 与其他基于无监督的方法为行人生成身份伪标注不同, TJ-AIDL模型增加了语义属性标签,将行人属性特征学习和身份识别的分支网络结合训练.

    文献[67]提出一个基于图像块的无监督学习方法. 相比整张行人图像, 图像块的特征更容易挖掘标签信息,因此,可通过挖掘图像块相似度来学习更具鉴别性的图像块特征.

    大多数无监督学习算法通过测量特征相似度生成伪标签, 而没有考虑不同摄像机之间的分布差异, 导致不同摄像机之间的标签计算精度下降. 为了解决这一问题, 文献[68]提出新的摄像机内相似度伪标记生成方法,将样本相似度计算分解为相机内和相机间的2个阶段.

    半监督学习通过利用一部分较少的标注数据和另一部分未标注数据进行训练. 根据场景的不同可以分为:每个行人存在较少标注和少量行人存在标注.

    针对每个行人存在较少标注的问题, 文献[69]提出了一种逐步一次性学习(exploit the unknown gradually, EUG)方法. 从未标记的视频跟踪片段中逐步选择少量候选样本来扩充已标注的跟踪片段数据集.

    对于只有少量行人存在标注的问题, 文献[70]提出了一种迭代的学习方法, 先使用少量有标注数据训练模型, 再通过多视角聚类方法对无标注数据进行聚类生成伪标签. 之后, 使用有标注数据和带有伪标签的无标注数据训练网络, 更新网络参数. 整个过程迭代交替进行.

    近年来, 基于弱监督方法的行人重识别算法性能得到了显著提高, 但相较基于有监督学习的方法仍有较大差距. 目前,学术界对弱监督行人重识别算法的研究相对较少, 发展还不够完善. 如何通过领域自适应的方法, 将从有标签源数据集上学习到的知识转移到无标签目标数据集上, 实现更高性能的弱监督算法, 将是相关研究的重点所在.

    目前, 在行人重识别领域已经有大量的公共数据集发布,并且存在人数增多、数据规模增大、图像分辨率增大的趋势. 新的基准更具挑战性, 这将促进行人重识别领域的发展.

    在行人重识别任务中数据集分为图像数据集和视频数据集2类. 广泛使用的图像数据集包括: VIPeR[71]、iLIDS[72]、GRID[73]、PRID-2011[74]、CUHK-03[54]、Market-1501[75]、Duke-MTMC[38]、Airport[76]、MSMT-17[77]. 视频数据集包括: PRID-2011[74]、iLIDS-VID[78]、MARS[25]、Duke-Video[69]、Duke-Tracklet[79]、LPW[30]、LS-VID[80]. 详细数据如表 1表 2所示.

    表  1  图像数据集
    Table  1.  Image-based datasets
    数据集 发布时间 ID 数 图像数 相机数
    VIPeR 2007 632 1 264 2
    iLIDS 2009 119 476 2
    GRID 2009 250 1 275 8
    PRID-2011 2011 200 1 134 2
    CUHK-03 2014 1 467 13 164 10
    Market-1501 2015 1 501 32 668 6
    Duke-MTMC 2017 1 404 36 411 8
    Airport 2017 9 651 39 902 6
    MSMT-17 2018 4 101 126 441 15
    下载: 导出CSV 
    | 显示表格
    表  2  视频数据集
    Table  2.  Video-based datasets
    数据集 发布时间 ID数 序列数 相机数
    PRID-2011 2011 200 400 2
    iLIDS-VID 2014 300 600 2
    MARS 2016 1 261 20 715 6
    Duke-Video 2018 1 812 4 832 8
    Duke-Tracklet 2018 1 788 12 647 8
    LPW 2018 2 731 7 694 4
    LS-VID 2019 3 772 14 943 15
    下载: 导出CSV 
    | 显示表格

    考虑到数据规模和挑战难度等因素, 大多数相关工作使用Market-1501、Duke-MTMC和MSMT-17数据集作为测试基准. 其中, MSMT-17数据集数据拥有更复杂的场景和背景且规模庞大, 因而更具挑战性.

    Market-1501数据集是行人重识别领域的经典数据集,在清华大学校园中采集, 夏天拍摄, 在2015年构建并公开. 它包括由6个摄像头(其中5个高清摄像头和1个低清摄像头)拍摄到的1 501个行人、32 668个检测到的行人矩形框. 每个行人至少由2个摄像头捕获到, 并且在一个摄像头中可能具有多张图像. 训练集有751人, 包含12 936张图像, 平均每个人有17.2张训练数据;测试集有750人, 包含19 732张图像, 平均每个人有26.3张测试数据. 3 368张查询图像的行人检测矩形框是人工绘制的, 而测试集中的行人检测矩形框则是使用行人检测器检测得到的. 手工标记的检测框非常完美, 然而在实际的行人重识别系统中使用目标检测算法得到行人标记框;因此,Market-1501的测试集更贴合实际应用. 在CVPR2018会议上, 提出了一个新的更接近真实场景、涵盖了多场景多时段的大型数据集MSMT-17. 该数据集是目前行人重识别任务中较为困难的数据集. 相比以往发布的数据集, MSMT-17包含更多的行人、图像数(检测框)、摄像头数, 见表 1.

    MSMT-17的图像拥有复杂的场景和背景, 由高达15个放置在不同位置的摄像头拍摄. 以往的数据集大多由户外摄像头采集, 而MSMT-17包含12个户外摄像头和3个室内摄像头采集的图像. MSMT-17数据集的图像拥有复杂的光照变化, 采集人员在1个月里选择了具有不同天气条件的4 d. 每天采集3 h的视频, 涵盖了早上、中午、下午3个时间段, 比以前的数据集能更好地模拟真实场景, 但带来了严重的照明变化. MSMT-17数据集使用了更可靠的行人检测算法,与手工标注和传统行人检测器相比, 速度更快,准确度更高且更容易实现. 由于复杂的背景和场景变化、光照变化, 使得MSMT-17更具挑战性. 目前,最先进的行人重识别算法在MSMT-17数据集上仍有很大的进步空间. MARS数据集包含1 261个行人和大约20 000个跟踪片段, 与基于图像的数据集相比, 它提供了丰富的视觉信息.

    行人重识别任务常用的评价指标是累计匹配曲线(cumulative matching characteristics, CMC)和平均准确率(mean average precision, mAP).

    CMC-k表示在Rank-k的检索结果中出现正确匹配的概率(k为人为选取的值, 一般来说k=1, 5, 10). 然而CMC-k仅在候选集中存在1个正确匹配时是准确的, 因为它在评价过程中只考虑第1个匹配. 然而, 在行人重识别任务中, 行人图像由多个相机拍摄得到,因此,累计匹配曲线并不能反映模型在多摄像头网络中的识别能力.

    mAP最初被广泛用于图像检索问题. mAP用多个真值标签来衡量模型的平均检索能力, 可以很好地反映模型对于难样本的识别能力.

    随着嵌入式人工智能思想的提出, 考虑到模型的效率和复杂性, 网络参数大小和每秒浮点运算次数(floating-point operatings per second, FLOPs)也被作为评价指标[17, 81].

    对于图像数据集, 在Market-1501、Duke-MTMC和MSMT-17数据集上的最新进展见表 3. 对于视频数据集,在MARS和Duke-Video数据集上的最新进展见表 4.

    表  3  Market-1501、Duke-MTMC、MSMT-17数据集结果
    Table  3.  Results of Market-1501, Duke-MTMC, and MSMT-17 %
    方法 Market-1501 Duke-MTMC MSMT-17
    Rank-1 mAP Rank-1 mAP Rank-1 mAP
    PersonNet[15] 37.2 18.6
    PDC[23] 84.1 63.4
    PCB+RPP[21] 93.8 81.6 83.3 69.2
    LSRO[38] 83.9 66.1 67.7 47.1
    Posetransfer[39] 87.7 68.9 78.5 56.9
    PN-GAN[40] 89.4 72.6 73.6 53.2
    HA-CNN[45] 91.2 75.7 80.5 63.8
    AANet[48] 93.9 83.4 87.7 74.3
    OSNet[17] 94.8 84.9 88.6 73.5 78.7 52.9
    MHN[50] 95.1 85.0 89.1 77.2
    ABDNet[51] 95.6 88.3 89.0 78.6 82.3 60.8
    Circle Loss[60] 96.1 87.4 76.9 52.1
    RGA-SC[49] 96.1 88.4 80.3 57.5
    FastReID[83] 96.4 90.3 92.4 83.2 85.1 63.3
    UnityStyle[43] 98.5 95.8 95.1 93.6
    下载: 导出CSV 
    | 显示表格
    表  4  MARS、Duke-Video数据集结果
    Table  4.  Results of MARS and Duke-Video %
    方法 MARS Duke-Video
    Rank-1 mAP Rank-1 mAP
    SeeForest[82] 70.60 50.70
    GLTR[80] 87.02 78.47 96.29 93.74
    STA[31] 86.30 80.80 96.20 94.90
    STC[44] 88.50 82.30 95.00 93.50
    STGCN[32] 89.95 83.70 97.29 95.70
    MGH[33] 90.00 85.80
    下载: 导出CSV 
    | 显示表格

    表 3中可以看出, 基于有监督学习方法的行人重识别模型在图像数据集上已经取得较好结果. 在Market-1501数据集上已经超过了人类水平. 其中效果最好的UnityStyle的Rank-1已经达到98.5%.

    PersonNet是最早使用深度学习方法的行人重识别模型, 但早期的深度学习模型提取特征的能力较差. PDC和PCB模型都是采用全局特征与局部特征相结合的方法, 可以看出采用水平分割方法提取局部特征的PCB模型的效果较好. LSRO方法首次将生成对抗网络应用于行人重识别任务中. Posetransfer和PN-GAN采用生成对抗网络解决行人姿态变化的问题, 取得较好效果. UnityStyle采用生成对抗网络解决摄像机间图像风格偏差的问题. HA-CNN、AANet、MHN、ABDNet和RGA-SC使用了注意力机制的行人重识别算法, 从结果可以看出, 普遍取得了较好效果. OSNet设计了一个轻量级网络进行全尺度特征学习, 采用深度可分离卷积加速网络训练, 在减小网络参数量的同时, 也得到了很好的效果. 圆损失通过改进网络的度量方法, 取得较好效果. 其中, FastReID[83]是一个开源的行人重识别算法库, 采用模块化设计, 集成了大量的行人重识别算法, 如图 8所示.

    图  8  FastReID库的流水线[83]
    Figure  8.  Pipeline of FastReID library[83]

    与基于图像数据集的模型相比, 基于视频的行人重识别模型较少. 随着深度学习技术不断进步, 有监督学习在视频数据上的识别准确度不断提高. 其次, 空间和时间建模是提升视频表示特征学习的关键. 在STA网络[31]、STGCN[32]和全局- 局部时间表征(global-local temporal representations, GLTR)[80]网络中都使用了时空聚合策略来提升基于视频行人重识别算法的性能.

    综合图像和视频数据集上的最新进展, 发现在小规模的数据上, 性能已经达到饱和,但是,在大规模数据集(例如MSMT-17和LS-VID)上仍存在很大的改进空间.

    随着智慧城市的发展, 行人重识别得到学术界和工业界的广泛关注. 目前, 行人重识别算法在小规模数据集下的应用取得突破性的进展, 但仍存在以下问题值得进一步研究.

    1) 多域通用. 不同数据集之间存在很大的域间隙,模型的泛化能力较差. 现有的方法大多采用领域适应的方法进行跨数据集训练, 效果不太理想. 另外, 行人重识别任务还存在异构数据的问题. 在实际场景中, 行人图像可能从多种异构模式中获取. 例如: 图像分辨率差异较大; 查询图和图库包含多模态数据(可见光、热力图、深度图、文本描述). 一个好的行人重识别系统应该能够自动处理上述问题. 未来在这个方向的工作能够促进行人重识别算法在现实场景的适用性.

    2) 快速重识别和模型轻量化. 为了在庞大的图库中更快地实现检索, 采用哈希的方法被广泛研究. 另外,设计一个轻量级模型也是研究重点. 目前,主要的策略是模型剪枝和知识蒸馏.

    3) 少量人为标注. 随着数据集规模的增大, 标注成本也随之升高, 因此,使用少量人为标注数据的行人重识别算法也是未来研究的重点. 除了弱监督学习方法, 自动标注的方法也可以是未来的重点.

  • 图  1   表示学习的3种特征

    Figure  1.   Three types of feature representation learning

    图  2   不同摄像头拍摄的数据存在较大差异

    Figure  2.   Differences in data taken by different cameras

    图  3   基于RNN的针对视频数据的行人重识别系统[26]

    Figure  3.   Person ReID system for video data based on RNN[26]

    图  4   不同融合方法的热图[30]

    Figure  4.   Heat maps of different fusion methods[30]

    图  5   AANet提取的属性注意力热图[48]

    Figure  5.   Attribute attention heat map of AANet[48]

    图  6   在行人重识别中3种广泛使用的损失函数

    Figure  6.   Three kinds of widely used loss functions in the person ReID

    图  7   动态图匹配[63]

    Figure  7.   Dynamic graph matching[63]

    图  8   FastReID库的流水线[83]

    Figure  8.   Pipeline of FastReID library[83]

    表  1   图像数据集

    Table  1   Image-based datasets

    数据集 发布时间 ID 数 图像数 相机数
    VIPeR 2007 632 1 264 2
    iLIDS 2009 119 476 2
    GRID 2009 250 1 275 8
    PRID-2011 2011 200 1 134 2
    CUHK-03 2014 1 467 13 164 10
    Market-1501 2015 1 501 32 668 6
    Duke-MTMC 2017 1 404 36 411 8
    Airport 2017 9 651 39 902 6
    MSMT-17 2018 4 101 126 441 15
    下载: 导出CSV

    表  2   视频数据集

    Table  2   Video-based datasets

    数据集 发布时间 ID数 序列数 相机数
    PRID-2011 2011 200 400 2
    iLIDS-VID 2014 300 600 2
    MARS 2016 1 261 20 715 6
    Duke-Video 2018 1 812 4 832 8
    Duke-Tracklet 2018 1 788 12 647 8
    LPW 2018 2 731 7 694 4
    LS-VID 2019 3 772 14 943 15
    下载: 导出CSV

    表  3   Market-1501、Duke-MTMC、MSMT-17数据集结果

    Table  3   Results of Market-1501, Duke-MTMC, and MSMT-17 %

    方法 Market-1501 Duke-MTMC MSMT-17
    Rank-1 mAP Rank-1 mAP Rank-1 mAP
    PersonNet[15] 37.2 18.6
    PDC[23] 84.1 63.4
    PCB+RPP[21] 93.8 81.6 83.3 69.2
    LSRO[38] 83.9 66.1 67.7 47.1
    Posetransfer[39] 87.7 68.9 78.5 56.9
    PN-GAN[40] 89.4 72.6 73.6 53.2
    HA-CNN[45] 91.2 75.7 80.5 63.8
    AANet[48] 93.9 83.4 87.7 74.3
    OSNet[17] 94.8 84.9 88.6 73.5 78.7 52.9
    MHN[50] 95.1 85.0 89.1 77.2
    ABDNet[51] 95.6 88.3 89.0 78.6 82.3 60.8
    Circle Loss[60] 96.1 87.4 76.9 52.1
    RGA-SC[49] 96.1 88.4 80.3 57.5
    FastReID[83] 96.4 90.3 92.4 83.2 85.1 63.3
    UnityStyle[43] 98.5 95.8 95.1 93.6
    下载: 导出CSV

    表  4   MARS、Duke-Video数据集结果

    Table  4   Results of MARS and Duke-Video %

    方法 MARS Duke-Video
    Rank-1 mAP Rank-1 mAP
    SeeForest[82] 70.60 50.70
    GLTR[80] 87.02 78.47 96.29 93.74
    STA[31] 86.30 80.80 96.20 94.90
    STC[44] 88.50 82.30 95.00 93.50
    STGCN[32] 89.95 83.70 97.29 95.70
    MGH[33] 90.00 85.80
    下载: 导出CSV
  • [1]

    ZHENG L, YANG Y, HAUPTMANN A G. Person re-identification: past, present and future[EB/OL]. [2020-09-07]. https://arxiv.org/abs/1610.02984.

    [2]

    YE M, LIANG C, WANG Z, et al. Specific person retrieval via incomplete text description[C]//International Conference on Multimedia Retrieval. New York: ACM, 2015: 547-550.

    [3]

    BAK S, ZAIDENBERG S, BOULAY B, et al. Improving person re-identification by viewpoint cues[C]//2014 11th IEEE International Conference on Advanced Video and Signal Based Surveillance. Piscataway: IEEE, 2014: 175-180.

    [4]

    LI X, ZHENG W S, WANG X, et al. Multi-scale learning for low-resolution person re-identification[C]//2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 3765-3773.

    [5]

    HUANG Y, ZHA Z J, FU X, et al. Illumination-invariant person re-identification[C]//Proceedings of the 27th ACM International Conference on Multimedia. New York: ACM, 2019: 365-373.

    [6]

    CHO Y J, YOON K J. Improving person re-identification via pose-aware multi-shot matching[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2016: 1354-1362.

    [7]

    HUANG H, LI D, ZHANG Z, et al. Adversarially occluded samples for person re-identification[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 5098-5107.

    [8]

    WU A, ZHENG W S, YU H X, et al. RGB-infrared cross-modality person re-identification[C]//2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 5390-5399.

    [9]

    FARENZENA M, BAZZANI L, PERINA A, et al. Person re-identification by symmetry-driven accumulation of local features[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2010: 2360-2367.

    [10]

    BEDAGKAR-GALA A, SHAH S K. A survey of appro-aches and trends in person re-identification[J]. Image and Vision Computing, 2014, 32(4): 270-286. doi: 10.1016/j.imavis.2014.02.001

    [11]

    ZHENG W S, GONG S, XIANG T. Person re-identification by probabilistic relative distance comparison[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2011: 649-656.

    [12]

    ZHENG L, ZHANG H, SUN S, et al. Person re-identification in the wild[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2017: 3346-3355.

    [13]

    AHMED E, JONES M, MARKS T K. An improved deep learning architecture for person re-identification[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2015: 3908-3916.

    [14]

    ZHENG Z, ZHENG L, YANG Y. A discriminatively learned CNN embedding for person re-identification[J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2018, 14(1): 1-20.

    [15]

    WU L, SHEN C, HENGEL A. Personnet: person re-identification with deep convolutional neural networks[EB/OL]. [2020-09-13]. https://arxiv.org/abs/1601.07255.

    [16]

    QIAN X, FU Y, JIANG Y G, et al. Multi-scale deep learning architectures for person re-identification[C]//2017 IEEE International Conference on Computer Vision. Piacataway: IEEE, 2017: 5409-5418.

    [17]

    ZHOU K, YANG Y, CAVALLARO A, et al. Omni-scale feature learning for person re-identification[C]//2019 IEEE/CVF International Conference on Computer Vision. Piacataway: IEEE, 2019: 3701-3711.

    [18]

    CHOLLET F. Xception: deep learning with depthwise separable convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2017: 1800-1807.

    [19]

    HOWARD A G, ZHU M, CHEN B, et al. Mobilenets: efficient convolutional neural networks for mobile vision applications[EB/OL]. [2020-09-10]. https://arxiv.org/abs/1704.04861.

    [20]

    FONG R, VEDALDI A. Net2Vec: quantifying and explainning how concepts are encoded by filters in deep neural networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2018: 8730-8738.

    [21]

    SUN Y, ZHENG L, YANG Y, et al. Beyond part models: person retrieval with refined part pooling (and a strong convolutional baseline)[C]//Proceedings of the European Conference on Computer Vision. Berlin: Springer, 2018: 480-496.

    [22]

    ZHANG X, LUO H, FAN X, et al. AligneDreiD: surpassing human-level performance in person re-identification[EB/OL]. [2020-09-10]. https://arxiv.org/abs/1711.08184.

    [23]

    SU C, LI J, ZHANG S, et al. Pose-driven deep convolutional model for person re-identification[C]//2017 IEEE International Conference on Computer Vision. Piacataway: IEEE, 2017: 3980-3989.

    [24]

    NAMBIAR A, BERNARDINO A, NASCIMENTO J C. Gait-based person re-identification: a survey[J]. ACM Computing Surveys, 2019, 52(2): 1-34.

    [25]

    ZHENG L, BIE Z, SUN Y, et al. MARS: a video benchmark for large-scale person re-identification[C]//Proceedings of European Conference on Computer Vision. Berlin: Springer, 2016: 868-884.

    [26]

    MCLAUGHLIN N, MARTINEZ-DEL-RINCON J, MILLER P. Recurrent convolutional network for video-based person re-identification[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piacataway: IEEE, 2016: 1325-1334.

    [27]

    CHUNG D, TAHBOUB K, DELP E J. A two stream siamese convolutional neural network for person re-identification[C]//2017 IEEE International Conference on Computer Vision (ICCV). Piscataway: IEEE, 2017: 1992-2000.

    [28]

    YAN Y, NI B, SONG Z, et al. Person re-identification via recurrent feature aggregation[C]//Proceedings of European Conference on Computer Vision. Berlin: Springer, 2016: 701-716.

    [29]

    HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. doi: 10.1162/neco.1997.9.8.1735

    [30]

    SONG G, LENG B, LIU Y, et al. Region-based quality estimation network for large-scale person re-identification[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2018: 7347-7354.

    [31]

    FU Y, WANG X, WEI Y, et al. STA: spatial-temporal attention for large-scale video-based person re-identification[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2019: 8287-8294.

    [32]

    YANG J, ZHENG W S, YANG Q, et al. Spatial-temporal graph convolutional network for video-based person re-identification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2020: 3286-3296.

    [33]

    YAN Y, QIN J, CHEN J, et al. Learning multi-granular hypergraphs for video-based person re-identification[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2020: 2896-2905.

    [34]

    LIU X, ZHANG P, YU C, et al. Watching you: global-guided reciprocal learning for video-based person re-identification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 13334-13343.

    [35]

    LIN Y, ZHENG L, ZHENG Z, et al. Improving person re-identification by attribute and identity learning[J]. Pattern Recognition, 2019, 95: 151-161. doi: 10.1016/j.patcog.2019.06.006

    [36]

    CHEN D, LI H, LIU X, et al. Improving deep visual representation for person re-identification by global and local image-language association[C]//Proceedings of European Conference on Computer Vision. Berlin: Springer, 2018: 56-73.

    [37]

    GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Advances in Neural Information Processing Systems, 2014, 3: 2672-2680.

    [38]

    ZHENG Z, ZHENG L, YANG Y. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro[C]//2017 IEEE International Conference on Computer Vision. Piacataway: IEEE, 2017: 3774-3782.

    [39]

    LIU J, NI B, YAN Y, et al. Pose transferrable person re-identification[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2018: 4099-4108.

    [40]

    QIAN X, FU Y, XIANG T, et al. Pose-normalized image generation for person re-identification[C]//Proceedings of the European Conference on Computer Vision. Berlin: Springer, 2018: 650-667.

    [41]

    ZHONG Z, ZHENG L, ZHENG Z, et al. Camera style adaptation for person re-identification[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2018: 5157-5166.

    [42]

    ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//2017 IEEE International Conference on Computer Vision. Piacataway: IEEE, 2017: 2242-2251.

    [43]

    LIU C, CHANG X, SHEN Y D. Unity style transfer for person re-identification[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2020: 6886-6895.

    [44]

    HOU R, MA B, CHANG H, et al. VRSTC: occlusion-free video person re-identification[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2019: 7176-7185.

    [45]

    LI W, ZHU X, GONG S. Harmonious attention network for person re-identification[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2018: 2285-2294.

    [46]

    HU J, SHEN L, SUN G, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023. doi: 10.1109/TPAMI.2019.2913372

    [47]

    WANG C, ZHANG Q, HUANG C, et al. Mancs: a multi-task attentional network with curriculum sampling for person re-identification[C]//Proceedings of the European Conference on Computer Vision. Berlin: Springer, 2018: 365-381.

    [48]

    TAY C P, ROY S, YAP K H. AANET: attribute attention network for person re-identifications[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2019: 7127-7136.

    [49]

    ANG Z, LAN C, ZENG W, et al. Relation-aware global attention for person re-identification[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2020: 3183-3192.

    [50]

    CHEN B, DENG W, HU J. Mixed high-order attention network for person re-identification[C]//2019 IEEE/CVF International Conference on Computer Vision. Piacataway: IEEE, 2019: 371-381.

    [51]

    HEN T, DING S, XIE J, et al. ABD-Net: attentive but diverse person re-identification[C]//2019 IEEE/CVF International Conference on Computer Vision. Piacataway: IEEE, 2019: 8350-8360.

    [52]

    KAYA M, BILGE H S. Deep metric learning: a survey[J]. Symmetry, 2019, 11(9): 1066. doi: 10.3390/sym11091066

    [53]

    VARIOR R R, SHUAI B, LU J, et al. A siamese long short-term memory architecture for human re-identification[C]//Proceedings of European Conference on Computer Vision. Berlin: Springer, 2016: 135-153.

    [54]

    LI W, ZHAO R, XIAO T, et al. Deepreid: deep filter pairing neural network for person re-identification[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2014: 152-159.

    [55]

    HERMANS A, BEYER L, LEIBE B. Indefense of the triplet loss for person re-identification[EB/OL]. [2020-10-20]. https://arxiv.org/abs/1703.07737.

    [56]

    SHI H, YANG Y, ZHU X, et al. Embedding deep metric for person re-identification: a study against large variations[C]//Proceedings of European Conference on Computer Vision. Berlin: Springer, 2016: 732-748.

    [57]

    FANG P, JI P, PETERSSON L, et al. Set augmented triplet loss for video person re-identification[C]//2021 IEEE Winter Conference on Applications of Computer Vision. Piacataway: IEEE, 2021: 464-473.

    [58]

    XIAO T, LI S, WANG B, et al. Joint detection and identification feature learning for person search[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2017: 3376-3385.

    [59]

    YE M, ZHANG X, YUEN P C, et al. Unsupervised embedding learning via invariant and spreading instance feature[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2019: 6203-6212.

    [60]

    SUN Y, CHENG C, ZHANG Y, et al. Circle loss: a unified perspective of pair similarity optimization[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2020: 6397-6406.

    [61]

    ZHONG Z, ZHENG L, CAO D, et al. Re-ranking person re-identification with k-reciprocal encoding[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2017: 3652-3661.

    [62]

    LIU C, LOY C C, GONG S, et al. POP: person re-identification post-rank optimisation[C]//2013 IEEE International Conference on Computer Vision. Piacataway: IEEE, 2013: 441-448.

    [63]

    YE M, MA A J, ZHENG L, et al. Dynamic label graph matching for unsupervised video re-identification[C]//2017 IEEE International Conference on Computer Vision. Piacataway: IEEE, 2017: 5152-5160.

    [64]

    FAN H, ZHENG L, YAN C, et al. Unsupervised person re-identification: clustering and fine-tuning[J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2018, 14(4): 1-18.

    [65]

    YU H X, ZHENG W S, WU A, et al. Unsupervised person re-identification by soft multilabel learning[C]//2019 IEEE /CVF Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2019: 2143-2152.

    [66]

    WANG J, ZHU X, GONG S, et al. Transferable joint attribute-identity deep learning for unsupervised person re-identification[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2018: 2275-2284.

    [67]

    YANG Q, YU H X, WU A, et al. Patch-based discriminative feature learning for unsupervised person re-identification[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2019: 3628-3637.

    [68]

    XUAN S, ZHANG S. Intra-inter camera similarity for unsupervised person re-identification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2021: 11926-11935.

    [69]

    WU Y, LIN Y, DONG X, et al. Exploit the unknown gradually: one-shot video-based person re-identification by stepwise learning[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2018: 5177-5186.

    [70]

    XIN X, WANG J, XIE R, et al. Semi-supervised person re-identification using multi-view clustering[J]. Pattern Recognition, 2019, 88: 285-297. doi: 10.1016/j.patcog.2018.11.025

    [71]

    GRAY D, TAO H. Viewpoint invariant pedestrian recognition with an ensemble of localized features[C]//European Conference on Computer Vision. Berlin: Springer, 2008: 262-275.

    [72]

    ZHENG W S, GONG S, XIANG T. Associating groups of people[C]//Proceedings of the British Machine Vision Conference. London: British Machine Vision Association, 2009: 23.1-23.11.

    [73]

    LOY C C, LIU C, GONG S. Person re-identification by manifold ranking[C]//2013 IEEE International Conference on Image Processing. Piacataway: IEEE, 2013: 3567-3571.

    [74]

    HIRZER M, BELEZNAI C, ROTH P M, et al. Person re-identification by descriptive and discriminative classification[C]//Scandinavian Conference on Image Analysis. Berlin: Springer, 2011: 91-102.

    [75]

    ZHENG L, SHEN L, TIAN L, et al. Scalable person re-identification: a benchmark[C]//2015 IEEE International Conference on Computer Vision. Piacataway: IEEE, 2015: 1116-1124.

    [76]

    KARANAM S, GOU M, WU Z, et al. A systematic evaluation and benchmark for person re-identification: features, metrics, and datasets[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(3): 523-536. doi: 10.1109/TPAMI.2018.2807450

    [77]

    WEI L, ZHANG S, GAO W, et al. Person transfer GAN to bridge domain gap for person re-identification[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2018: 79-88.

    [78]

    WANG T, GONG S, ZHU X, et al. Person re-identification by video ranking[C]//Proceedings of European Conference on Computer Vision. Berlin: Springer, 2014, 8692: 688-703.

    [79]

    LI M, ZHU X, GONG S. Unsupervised person re-identification by deep learning tracklet association[C]//Proceedings of European Conference on Computer Vision. Berlin: Springer, 2018: 772-788.

    [80]

    LI J, WANG J, TIAN Q, et al. Global-local temporal representations for video person re-identification[J]. IEEE Transactions on Image Processing, 2020, 29: 4461-4473.

    [81]

    QUAN R, DONG X, WU Y, et al. Auto-ReID: searching for a part-aware convnet for person re-identification[C]//2019 IEEE/CVF International Conference on Computer Vision. Piacataway: IEEE, 2019: 3749-3758.

    [82]

    ZHOU Z, HUANG Y, WANG W, et al. See the forest for the trees: joint spatial and temporal recurrent neural networks for video-based person re-identification[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Piacataway: IEEE, 2017: 6776-6785.

    [83]

    HE L, LIAO X, LIU W, et al. FastReID: a pytorch toolbox for general instance re-identification[EB/OL]. [2020-10-20]. https://arxiv.org/abs/2006.02631.

  • 期刊类型引用(8)

    1. 邹玮,莫建华,浦嘉成. 面向“一流本科”的多媒体处理技术实践教学设计与探索. 办公自动化. 2024(02): 33-35 . 百度学术
    2. 蔺丽华,燕梦梦,廖晓群. 行人重识别技术在洗煤厂中的应用研究. 煤炭技术. 2024(02): 205-208 . 百度学术
    3. 张杰,缪小然,赵作鹏,胡建峰,闵冰冰,高宇蒙. 局部特征引导标签平滑与优化的井下弱特征人员重识别. 工矿自动化. 2024(02): 83-89 . 百度学术
    4. 孙志伟,吴广群,马永军. 基于区域特征补全和细粒度特征注意力的行人重识别方法. 天津科技大学学报. 2024(05): 63-71 . 百度学术
    5. 刘家林,宣士斌,罗俊. 基于多尺度混合注意力的行人重识别模型. 计算机工程与设计. 2024(11): 3397-3404 . 百度学术
    6. 黄文艺,王博,孙超,卢兵,彭勇礼,张春霞. 面向无人车近距离行人跟踪的自适应双重识别技术. 重庆理工大学学报(自然科学). 2023(06): 110-118 . 百度学术
    7. 王琦绮,简爱兵,赵建川,金佳. 基于行人重识别的传染病流调辅助系统设计. 科技创业月刊. 2023(S1): 20-22 . 百度学术
    8. 许婷婷. 基于Python的行人重识别系统设计与实现. 信息与电脑(理论版). 2022(23): 176-178 . 百度学术

    其他类型引用(29)

图(8)  /  表(4)
计量
  • 文章访问数:  579
  • HTML全文浏览量:  213
  • PDF下载量:  130
  • 被引次数: 37
出版历程
  • 收稿日期:  2021-02-28
  • 修回日期:  2021-05-11
  • 网络出版日期:  2022-10-26
  • 刊出日期:  2022-10-09

目录

/

返回文章
返回