• 综合性科技类中文核心期刊
    • 中国科技论文统计源期刊
    • 中国科学引文数据库来源期刊
    • 中国学术期刊文摘数据库(核心版)来源期刊
    • 中国学术期刊综合评价数据库来源期刊

无人机影像单目标跟踪综述

卓力, 张时雨, 张辉, 李嘉锋

卓力, 张时雨, 张辉, 李嘉锋. 无人机影像单目标跟踪综述[J]. 北京工业大学学报, 2021, 47(10): 1174-1187. DOI: 10.11936/bjutxb2020030017
引用本文: 卓力, 张时雨, 张辉, 李嘉锋. 无人机影像单目标跟踪综述[J]. 北京工业大学学报, 2021, 47(10): 1174-1187. DOI: 10.11936/bjutxb2020030017
ZHUO Li, ZHANG Shiyu, ZHANG Hui, LI Jiafeng. Survey on Techniques of Single Object Tracking in Unmanned Aerial Vehicle Imagery[J]. Journal of Beijing University of Technology, 2021, 47(10): 1174-1187. DOI: 10.11936/bjutxb2020030017
Citation: ZHUO Li, ZHANG Shiyu, ZHANG Hui, LI Jiafeng. Survey on Techniques of Single Object Tracking in Unmanned Aerial Vehicle Imagery[J]. Journal of Beijing University of Technology, 2021, 47(10): 1174-1187. DOI: 10.11936/bjutxb2020030017

无人机影像单目标跟踪综述

基金项目: 

北京市自然科学基金-北京市教育委员会联合资助项目 KZ201810005002

国家自然科学基金资助项目 61602018

详细信息
    作者简介:

    卓力(1971-), 女, 教授, 博士生导师, 主要从事图像/视频的编码与传输、多媒体大数据处理、深度学习方面的研究, E-mail: zhuoli@bjut.edu.cn

  • 中图分类号: U461;TP308

Survey on Techniques of Single Object Tracking in Unmanned Aerial Vehicle Imagery

  • 摘要:

    随着无人机产业的发展,航拍影像数据急剧增多,航拍影像的智能化分析与处理已成为新的研究热点.目标跟踪作为其中的核心技术之一,可为后续影像内容解译及各种实际应用提供基础性的支撑.受到应用场景复杂、目标尺度复杂多变、姿态变化剧烈、相似目标干扰等各种复杂因素的影响,无人机影像目标跟踪面临着诸多的技术挑战.因此,总结了近年来无人机影像单目标跟踪技术的研究进展,包括基于相关滤波的目标跟踪方法、基于深度学习的目标跟踪方法、基于相关滤波与深度学习结合的目标跟踪方法等,介绍了无人机影像公开数据集,以及跟踪性能的评价指标,并对典型的单目标跟踪方法进行了性能评测与分析.最后,对未来无人机影像目标跟踪技术的发展态势进行了总结与展望.

    Abstract:

    With the rapid development of the unmanned aerial vehicle (UAV) industry, the dramatic increase in aerial imagery data has made intelligent analysis and processing of aerial images a new research focus. Object tracking, as one of the core technologies, provides fundamental support for further imagery content understanding and various practical applications. Affected by various factors such as complex application scenarios, frequent changes in target scale, target posture change, and similar target interference, object tracking in UAV imagery faces many technical challenges. The main techniques of single object tracking in UAV imagery in recent years, including object tracking methods based on correlation filter, deep learning, as well as combination of correlation filter and deep learning, were summarized and the public datasets of UAV imagery and evaluation metrics for object tracking performance were discussed. Then, the performance evaluation and analysis of typical single object tracking methods were performed. Finally, the future development tendency of object tracking in UAV imagery was summarized and prospected.

  • 低空无人机作为一种航拍载具,具有成本低、体积小、机动灵活、操纵方便等特点. 近年来,随着相关技术及产业的发展,基于无人机的低空航拍技术得到广泛应用. 其通过机载高分辨率摄像机和数据回传技术可清晰地捕捉地面目标,成像分辨率可达厘米级[1],对航空遥感和卫星遥感形成了有效补充.

    相应地,无人机低空航拍产生的影像数据量也随之急剧增多,仅凭人工判读的方式对海量数据进行解译费时费力且效率低下. 因此,无人机影像的智能化处理逐渐成为人们研究的热点,其中无人机影像单目标跟踪是最具代表的基础性技术之一,广泛应用于飞行器制导与导航、交通监控、行政执法、影视拍摄等多种场景. 它利用高效的图像视频处理及视觉计算方法对航拍影像中的目标进行跟踪,获取其运动轨迹信息,为后续高层次的影像智能化分析与处理任务提供基础.

    由于低空无人机的航拍条件所限,相较于传统的视频监控、人机交互等应用场景,航拍影像中的目标相对较小,所包含的视觉信息十分有限,这给目标跟踪带来了巨大的挑战. 此外,以下因素也将使得无人机航拍影像中的目标跟踪技术面临诸多挑战,包括:

    1) 应用场景复杂,易受到天气、成像设备等因素的影响,导致目标发生光照变化,运动模糊.

    2) 无人机和目标的相对位置易发生较大变化,导致目标的尺度、姿态变化剧烈及部分遮挡和出视野等情况的频繁发生.

    3) 航拍拍摄视角广,使得相似目标增多.

    针对上述问题,学术界和工业界深入开展了无人机影像单目标跟踪技术的研究,针对低空航拍影像的自身特点提出了各种解决方案.

    依据跟踪目标的数目以及时限,可以将目标跟踪分为单目标跟踪和多目标跟踪、长时跟踪和短时跟踪. 本文对单目标跟踪的研究进展进行综述,并通过实验进行分析、总结与展望.

    目标跟踪是计算机视觉领域的基础性问题,一直是人们的研究热点,它是指在起始帧中给定目标的初始边界框,并在后续帧中通过跟踪方法预测目标的边界框. 图 1给出了一个典型的单目标跟踪过程,其中:图 1(a)是视频序列的起始帧,红色边界框是待跟踪的目标;图 1(b)是第t帧的目标跟踪的结果可视化,红色边界框是手工标注的真实值,绿色边界框是目标跟踪算法的预测值. 从实现技术手段上可以将目前的目标跟踪技术分为基于相关滤波的方法、基于深度学习的方法,以及基于相关滤波和深度学习相结合的方法三大类.

    图  1  典型的视觉目标跟踪过程
    Figure  1.  Typical visual object tracking process

    本文以核相关滤波(kernelized correlation filter,KCF)[2]算法为例介绍相关滤波算法的一般形式. 一般地,相关滤波方法将跟踪问题的求解转化为一个线性分类器的求解,给定一组训练样本和标签$\left( {\mathit{\boldsymbol{x}},\mathit{\boldsymbol{y}}} \right) = {\{ ({\mathit{\boldsymbol{x}}_i},{\mathit{\boldsymbol{y}}_i})\} ^m}_{i = 1}$,通过最小化正则误差来获得分类器参数,此线性分类器可由

    $$ \mathit{\boldsymbol{f}}\left( \mathit{\boldsymbol{z}} \right) = {\mathit{\boldsymbol{w}}^{\rm{T}}}\mathit{\boldsymbol{z}} $$ (1)

    定义. 相关滤波利用正则化最小二乘法(regularized least squares,RLS)构造二次损失L(y, f(x))=(y-f(x))2. 研究表明,在许多实际问题中,RLS可以获得与支持向量机(support vector machine,SVM)相当的分类性能[3]. 利用正则化最小二乘法,可以通过最小化

    $$ \mathop {{\rm{min}}}\limits_w \sum\limits_i {{{(f({x_i}) - {y_i})}^2}} + \mathit{\boldsymbol{\lambda }}||\mathit{\boldsymbol{w}}|{|^2} $$ (2)

    得到分类器参数w. 式中λ为防止过拟合的正则化参数. 相关滤波的跟踪过程,即是求解分类器参数w的过程. 一般地,基于相关滤波的目标跟踪算法主要包括如下3个部分.

    1) 初始化模型.

    利用起始帧给定的目标位置和起始帧图像来求解分类器参数w. Rifkin等[3]证明式(2)具有封闭解,并且为了方便后续在频域计算,其封闭解的复数形式可由

    $$ \mathit{\boldsymbol{w}} = {({\mathit{\boldsymbol{X}}^{\rm{H}}}\mathit{\boldsymbol{X}} + \lambda \mathit{\boldsymbol{I}})^{ - 1}}{\mathit{\boldsymbol{X}}^{\rm{H}}}\mathit{\boldsymbol{y}} $$ (3)

    给出. 式中XH表示Hermitian转置. 求解式(3)涉及高维度矩阵的逆运算,实现中通常利用循环矩阵性质[4-5]避开直接进行复杂的矩阵求逆计算. 同时,所有循环矩阵都是通过离散傅里叶变换(discrete Fourier transform,DFT)对角化得到的. 对于任意的生成向量x,可以由

    $$ \mathit{\boldsymbol{X}} = \mathit{\boldsymbol{F}}{\rm{diag}}(\mathit{\boldsymbol{\hat x}}){\mathit{\boldsymbol{F}}^{\rm{H}}}\frac{{ - \mathit{\boldsymbol{b}} \pm \sqrt {{\mathit{\boldsymbol{b}}^2} - 4\mathit{\boldsymbol{ac}}} }}{{2\mathit{\boldsymbol{a}}}} $$ (4)

    得到其循环矩阵X. 式中:F为不依赖于x的常数矩阵;^表示向量的DFT变换. 对于式(3)中的XHX项,可转化为

    $$ {\mathit{\boldsymbol{X}}^{\rm{H}}}\mathit{\boldsymbol{X}} = \mathit{\boldsymbol{F}}{\rm{diag}}({\mathit{\boldsymbol{\hat x}}^*}){\mathit{\boldsymbol{F}}^{\rm{H}}}\mathit{\boldsymbol{F}}{\rm{diag}}(\mathit{\boldsymbol{\hat x}}){\mathit{\boldsymbol{F}}^{\rm{H}}} $$ (5)

    由于对角矩阵是对称的,因此,经过Hermitian转置只留下一个复数共轭${\mathit{\boldsymbol{\hat x}}^*}$. 对角矩阵的运算是对应元素运算的,可定义对应元素相乘的运算为⊙. 式(3)可以求解为

    $$ \mathit{\boldsymbol{\hat w}} = \frac{{\mathit{\boldsymbol{\hat x}} \odot \mathit{\boldsymbol{\hat x}}}}{{\mathit{\boldsymbol{\hat x}}* \odot \mathit{\boldsymbol{\hat x}} + \mathit{\boldsymbol{\lambda }}}} $$ (6)

    为了进一步提升算法的性能,KCF又引入了核函数[6]. 将输入通过φ(x)映射到高维特征空间,其中φ(x)由核函数k(x, x′)=φT(x)φ(x′)定义(k通常为高斯核函数或者多项式核函数). 根据表示定理(representer theorem)[6],式(6)中的解可展开为$\mathit{\boldsymbol{w}} = \sum\limits_i {{\mathit{\boldsymbol{\alpha }}_i}} \varphi ({\mathit{\boldsymbol{x}}_i})$于是,求解w的过程转化为求解α,分类器则转化为

    $$ f\left( \mathit{\boldsymbol{z}} \right) = {\mathit{\boldsymbol{w}}^{\rm{T}}}\mathit{\boldsymbol{z}} = \sum\limits_{i = 1}^n {{\alpha _i}} k(\mathit{\boldsymbol{z}},{\mathit{\boldsymbol{x}}_i}) $$ (7)

    根据文献[4]的推导,通过核函数映射的岭回归解可表示为

    $$ \mathit{\boldsymbol{\alpha }} = {\left( {\mathit{\boldsymbol{K}} + \mathit{\boldsymbol{\lambda I}}} \right)^{ - 1}}\mathit{\boldsymbol{y}} $$ (8)

    式中:K为核函数矩阵;α为系数αi的向量,即对偶空间中的解. 此时,再次利用循环矩阵性质推导式(8),可以得到

    $$ \mathit{\boldsymbol{\hat \alpha }} = \frac{{\mathit{\boldsymbol{\hat y}}}}{{{{\mathit{\boldsymbol{\hat k}}}^{xx}} + \mathit{\boldsymbol{\lambda }}}} $$ (9)

    这里${\mathit{\boldsymbol{\hat k}}^{xx}}$表示K核函数矩阵第1行的离散傅里叶变换,在KCF中也表示为滤波模板${\mathit{\boldsymbol{\hat x}}}$与测试样本${\mathit{\boldsymbol{\hat x}}}$的核相关运算.

    2) 快速定位目标位置.

    对于第t帧,通过滤波模板${\mathit{\boldsymbol{\hat x}}}$测试样本${\mathit{\boldsymbol{\hat z}}}$及滤波器参数${\mathit{\boldsymbol{\hat \alpha }}}$,利用

    $$ \mathit{\boldsymbol{\hat f}}(\mathit{\boldsymbol{z}}) = {{\mathit{\boldsymbol{\hat k}}}^{xz}}\mathit{\boldsymbol{\hat \alpha }} $$ (10)

    求得相关滤波响应图. 然后,将响应图$\mathit{\boldsymbol{\hat f}}(\mathit{\boldsymbol{z}})$通过离散傅里叶逆变换到时域后,找到响应值最大的位置,即是目标的位置.

    3) 更新模型参数.

    获得第t帧的目标位置后,在新的目标位置提取新的滤波模板${{\mathit{\boldsymbol{\hat x}}}^t}$,然后利用式(9)求解新的滤波器参数${{\mathit{\boldsymbol{\hat \alpha }}}^t}$,最后利用插值法以固定学习率η更新滤波模板${\mathit{\boldsymbol{\hat x}}}$以及滤波器参数${\mathit{\boldsymbol{\hat \alpha }}}$,即

    $$ \mathit{\boldsymbol{\hat \alpha }} = (1 - \eta ){{\mathit{\boldsymbol{\hat \alpha }}}^{t - 1}} + \eta {{\mathit{\boldsymbol{\hat \alpha }}}^t} $$ (11)
    $$ \mathit{\boldsymbol{\hat x}} = (1 - \eta ){{\mathit{\boldsymbol{\hat x}}}^{t - 1}} + \eta {{\mathit{\boldsymbol{\hat x}}}^t} $$ (12)

    将相关滤波应用于目标跟踪的开创性工作是Bolme等[7]在2010年提出的最小输出误差平方和(minimum output sum of squared error, MOSSE)算法. 作者采用自适应相关滤波器对目标的外观进行建模,并且利用快速傅里叶变换将卷积计算转换到频域变为相乘,得到响应图后再转换回时域来求解目标位置. 由于使用了快速傅里叶变换,MOSSE处理视频的速度达到了615帧/s. 但该方法的跟踪精度优势并不突出,直至2013年Henriques等[8]在MOSSE的基础上提出了基于核函数的跟踪-检测循环结构(circulant structure of tracking-by-detection with kernels, CSK)算法,将跟踪问题转化为求解线性分类器参数,并利用循环矩阵的性质避开矩阵逆运算推导出封闭解. 计算过程同样是利用了快速傅里叶变换在频域求解,最后还利用核函数将输入映射到高维特征空间,进一步提升算法的性能. 同时,由于循环矩阵的引入,隐式地带来了大量类似滑动窗密集采样[9]的学习样本,所以CSK的运算速度相比MOSSE虽降低到362帧/s,但跟踪精度提升了近50%.

    然而,CSK仅使用了灰度特征,对于无人机影像等复杂场景其性能不够鲁棒. 所以,Dalal等[10]在CSK的基础上引入梯度方向直方图(histograms of oriented gradients, HOG)特征,构建了KCF算法[2],将跟踪结果精度提升了近20%. Danelljan等[11]则是在CSK的基础上引入了目标识别和目标检测中常用的颜色属性特征(color names, CN)[12],提升了跟踪性能. Bertinetto等[13]则提出了Staple跟踪器,针对复杂场景影像中经常出现的目标形变和光照变化情况,设计了2个相关滤波器,分别采用HOG和CN特征,最终通过融合2个滤波器的结果实现目标跟踪.

    目标尺度变化在无人机等复杂场景经常发生,但是上述方法均无法做到尺度自适应. 针对这一问题,Li等[14]提出了尺度自适应的多特征跟踪(scale adaptive with multiple features tracker, SAMF)算法. 该算法采用了多尺度金字塔输入方式,跟踪过程中对每一种尺度的输入都进行相关滤波运算,将响应值最大的作为最终跟踪结果. 研究结果表明,该算法对于不同尺度大小的目标均可以取得良好的跟踪结果. Danelljan等[15]提出的判别尺度空间跟踪(discriminative scale space tracking, DSST)是一种新颖的尺度自适应目标跟踪算法. 与SAMF算法不同的是,DSST算法设计了2个相关滤波器,即二维的位置滤波器和一维的尺度滤波器. 在当前帧提取目标的HOG和灰度特征与位置滤波器进行相关运算得到目标位置,然后以目标位置为中心,根据不同尺度提取HOG和灰度特征,并归一化到同样大小,再与尺度滤波器进行相关运算,找到响应的最大值,更新目标的尺度. 该算法也可以很好地应对目标的尺度变化问题.

    CSK算法引入的循环矩阵会带来负面的边界效应,从而限制了算法的性能,尤其是在无人机等复杂场景下,目标的快速移动和相机扰动容易加剧边界效应. 为此,Danelljan等[16]提出了空间正则化判别相关滤波器(spatially regularized discriminant correlation filter, SRDCF)算法,通过对滤波器在空间上的分布进行正则化约束,有效抑制了边界效应. 但是添加的正则化约束破坏了岭回归的封闭解,所以只能通过计算复杂度较高的高斯-塞德尔方法(Gauss-Seidel method)迭代求解最优的相关滤波器参数,进而算法的鲁棒性有了明显的提升,但是处理速度降至5帧/s.

    背景感知相关滤波器(background-aware correla-tion filter, BACF)算法[17]则是通过扩大输入的图像块来缓解边界效应,但是这样会使得滤波器过多地学习到背景,因此,对循环矩阵产生的样本在空间中利用二值矩阵进行裁剪,进而提高样本的质量以得到更加鲁棒的滤波器. 同样,为弥补BACF的岭回归无封闭解问题,作者利用交替方向乘子法(alternating direction method of multipliers, ADMM)[18]进行迭代求解.

    Huang等[19]在BACF算法的基础上,针对无人机场景提出了一种抑制跟踪过程中响应图畸变的方法,即畸变抑制相关滤波器(aberrance repressed correlation filter, ARCF)算法. 通过对相关滤波检测阶段产生的响应图的变化率进行限制,进而抑制目标遮挡等情况下响应图的畸变,从而提高跟踪结果准确性. 由于BACF没有考虑到时间一致性问题,即当目标出现快速移动、遮挡和外观突变情况时,此时学习到的相关滤波器参数会偏向背景,与前一帧目标正常运动时得到的滤波器参数差异较大. 针对此问题,在BACF的框架基础上, 背景与时间感知相关滤波(background-temporal-aware correlation filtering,BTCF)算法[20]加入了时间感知项$\frac{\omega }{2}\sum\limits_{k = 1}^K | |\mathit{\boldsymbol{h}}_t^k - \mathit{\boldsymbol{h}}_{t - 1}^k|{|^2}$,其中:htkhkt-1分别表示当前帧和前一帧学习到的相关滤波参数;ω是时间正则化因子. 通过改进目标函数,BTCF能够适用于光照变化、目标旋转、遮挡等复杂情况下的视觉目标跟踪.

    由于相关滤波器参数需要在线学习,而无人机等复杂场景下频繁发生的遮挡、形变、出视野等情况会产生低质量的训练样本. 如果此时进行滤波器参数更新则会让滤波器的可靠性随时间衰变,因此,如何有效地更新滤波器参数逐渐成为学者们的研究热点. 增强记忆相关滤波(augmented memory for correlation filter, AMCF)算法[21]针对此问题,设计了记忆存储队列和快速压缩上下文学习方法,使得滤波器能够适应目标新外观的同时记住目标之前的外观,有效地提高了滤波器的判别能力. 训练集蒸馏(training-set distillation,TSD)[22]算法则针对滤波器可靠性降低的问题,首先将跟踪结果可信度高的帧作为关键帧,将跟踪过程划分为多个时隙. 在建立新的时隙后,对之前的样本进行加权融合,生成一个关键样本,并通过能量最小化函数对其进行评分. 当时隙超过一定数量时,则丢弃评分最低的样本. 此方法有效地实现了训练集质量的动态优化,进而提高滤波器的鲁棒性. Wang等[23]针对无人机视频目标跟踪中相关滤波器更新问题,设计了一种基于峰值旁瓣比的快速跟踪稳定性度量方法,并利用此方法自适应地更新滤波器参数和模板,使得相关滤波算法对目标复杂的外观变化更加鲁棒.

    总的来说,早期的基于相关滤波的目标跟踪算法运算速度快,便于移植到无人机机载嵌入式处理平台上进行实时运行,但是跟踪精度较低,难以满足高精度的跟踪需求,而经过优化后的各种基于相关滤波的目标跟踪算法在跟踪精度上有了明显的提升,随之带来的问题是跟踪速度有了明显的下降.

    近年来,随着无人机技术和图形处理器(graphics processing unit, GPU)硬件的蓬勃发展,一些无人机的嵌入式开发平台已经搭载了GPU,例如Nvidia公司的Jetson系列开发平台,这使得无人机机载平台运行深度学习模型进行影像的在线处理成为可能. 鉴于深度学习在目标跟踪、目标分割等机器视觉任务中取得的巨大突破,学者们提出了各种基于深度学习的目标跟踪方法,总的可以分为基于孪生网络(siamese neural network,SNN)的目标跟踪方法、基于分类卷积神经网络(convolutional neural networks, CNN)的目标跟踪方法以及基于多任务学习的目标跟踪方法等. 下面对这些方法进行综述.

    近年来,SNN被广泛应用于视觉目标跟踪. 对于给定的目标区域和搜索区域图像对,SNN利用相同的计算函数将目标区域和搜索区域编码到同一特征空间,然后通过一些运算生成响应图或边框回归系数,进而得到跟踪结果. SNN能够自动学习到一种相似性度量,因此,推广性好,并且大多数算法可以满足实时性处理的需求.

    基于SNN的目标跟踪方法的共同目标是克服预训练CNN的局限性,充分利用端到端的离线学习进行实时目标跟踪. SNN的基本框架如图 2所示,其中:z为从参考帧裁剪的包含有目标的图像块;x为根据上一帧结果对当前帧裁剪的可能包含目标的搜索区域块;φ为主干网路,一般是利用CNN实现特征提取操作,常用的CNN主干网络包括AlexNet[24]、VGGNet[25-26]和ResNet[27]等;⊙代表不同孪生网络的特征运算,得到特定任务的预测值,用于获得最终的跟踪结果.

    图  2  孪生网络基本框架结构
    Figure  2.  Basic diagram structure of siamese neural network

    基于回归网络的通用目标跟踪(generic object tracking using regression networks, GOTURN)[28]算法采用CaffeNet[29]作为CNN主干网络,分别提取前一帧目标区域和当前帧搜索区域的特征,经过一系列全连接层预测当前帧的边界框回归系数,最后利用边界框回归系数和上一帧的预测的边界框得到当前帧的跟踪结果.

    孪生区域候选网络(siamese region proposal network, SiamRPN)[30]则将跟踪问题转化为局部区域的检测问题. 首先,通过孪生网络提取目标特征和局部搜索区域特征;然后,利用区域候选网络(region proposal network, RPN)对每一个候选区域进行前景背景的分类打分和边界框回归;最终,利用余弦窗和尺度惩罚挑选最优的候选区域作为目标的位置和大小. 这种方式可以巧妙地将目标检测网络用于目标跟踪,使得SiamRPN的性能优于大多数基于相关滤波的目标跟踪方法. Zhu等[31]在SiamRPN的基础上提出了一种数据增强的方法,能够改善训练数据中的非语义背景和具有语义的干扰物背景的数据不平衡问题,利用改善后的训练数据对SiamRPN重新进行训练,构建了干扰感知的孪生区域候选网络(distractor-aware SiamRPN, DaSiamRPN),使得算法的跟踪精度有所提升. 任珈民等[32]则针对SNN只使用参考帧而不更新模型参数的不足,基于SiamRPN设计了一个可在线进行训练的SNN模型,并且通过在SNN主干网络中加入挤压和激励(squeeze and excitation, SE)[33]模块来增强对任务有帮助的通道特征,进一步提升网络的特征表征能力,从而提升跟踪性能.

    Zhang等[34]从CNN主干网络的角度出发,对影响SNN跟踪精度的因素进行了系统的研究,并且得出结论:卷积过程中的填充操作会对跟踪结果产生负面影响. 为了消除这一影响,作者提出了自裁残差(cropping-inside residual, CIR)单元,并且利用CIR成功训练了采用ResNet-18等[27]作为主干网络的SiamFC和SiamRPN算法. Li等[35]同样通过实验发现,卷积过程中的填充操作破坏了网络的平移不变性,会导致网络学习到位置偏差. 作者据此提出了SiamRPN++算法. 在训练过程中,不再把正样本块放在图像正中心,而是按照均匀分布的采样方式让目标在中心点附近进行偏移,进而缓解填充操作带来的负面影响.

    孪生全卷积网络(siamese fully convolutional, SiamFC)[36]采用AlexNet作为CNN主干网络进行特征提取,然后将目标区域的特征和搜索区域的特征进行互相关运算,得到响应图. 将响应图的最大值作为目标的位置,根据多尺度输入获取目标的尺度. 由于其采用了全卷积的网络结构,获得了模型复杂度、计算效率与跟踪性能的较好折中. 基于残差注意力的孪生网络(residual attentional siamese network, RASNet)[37]在SiamFC的基础上加入了空间注意力、通道注意力以及残差注意力机制,使得跟踪精度和鲁棒性进一步得到优化.

    总的来说,基于SNN的目标跟踪方法在应对无人机影像中的目标尺度变化、纵横比变化和目标旋转情况时,能取得较为鲁棒的跟踪性能.

    该类方法的基本思想是将视频帧分为背景和目标区域,因此,将目标跟踪转化为分类问题. 多域网络(multi-domain network, MDNet)算法[38]设计了一个包括3层卷积层和3层全连接层的轻型CNN结构,对候选样本进行目标与背景的二元分类. 该方法的核心是引入了多域学习(multi-domain learning)策略,即对每一个新的影像序列,MDNet模型的最后一个全连接层需重新建立. 在离线训练过程中,对于每一个视频序列首先重建最后一个全连接层,然后根据目标位置生成一定数量的正负样本,通过网络进行分类,不断迭代学习网络参数. 在跟踪过程中,固定3个卷积层的参数,在线训练前2个全连接层和新建立的全连接层. 对于起始帧,产生正样本和负样本,并在后续帧中维护一个在线的样本集. 虽然MDNet的跟踪精度高,但由于需要判读大量重复的候选样本且模型须在线更新,使得该方法的运算复杂度高,现有硬件难以实现实时处理.

    Nam等[39]从模型的可靠性问题角度出发,指出现阶段大部分算法的假设是模型一直是可靠的,每一帧都进行参数更新. 然而,当目标受到遮挡或者消失在视场时,模型再进行更新就会导致跟踪的可靠性降低. 为此,作者在MDNet的基础上提出了一种树形结构,用于在跟踪过程中维护多个CNN模型,这样有助于提高目标外观建模的可靠性. 通过对多个CNN的分类分数加权平均得到每个候选区域的分数,进而得到跟踪结果.

    基于检测算法的mobilenet跟踪器(mobilenet-based tracking by detection algorithm, MBMD)[40]将SiamRPN的思想和MDNet相结合,通过RPN产生目标的大量候选区域,然后将候选区域送入验证网络进行分类打分,获得最终的跟踪结果. 当跟踪置信度很低时,通过滑动窗在全图寻找目标.

    该类方法是采用多任务学习策略,通过共享隐含在多个相关任务中的知识来提升各个任务的性能,从而提高学习的效率.

    基于重叠最大化的精确跟踪(accurate tracking by overlap maximization, ATOM)算法[41]将跟踪任务分解为目标分类任务和目标估计任务,2个任务共享ResNet-18主干网络的特征. 对于目标分类任务,作者认为在线学习更加有效,因此,设计了2个卷积层将ResNet-18的Layer3输出的特征映射成为一个二维的响应图,其中响应值最大的位置就是目标的位置. 对于目标估计任务,作者将目标检测中的交并比网络(intersection-over-union network, IoU-Net)[42]改造为适用于目标跟踪任务的结构——指定目标IoU-Net. 在跟踪过程中,首先通过在线学习的2个卷积层获得目标的位置,接着在目标位置上产生一些候选区域,然后用指定目标IoU-Net对候选区域进行IoU分数预测,再利用梯度上升最大化IoU分数精炼候选区域,最终融合IoU较优的候选区域获得跟踪结果.

    Zhang等[43]针对无人机场景下目标易发生遮挡、出视野等情况,在ATOM的基础上嵌入了SE模块[33]以及重定位模块,使得算法在目标丢失后能够再次被定位.

    Wu等[44]针对无人机影像中出视野的情况将目标跟踪任务分解为分类任务和边界框回归任务,利用MDNet对可能的目标样本进行分类,利用SiamRPN++进行候选区域边界框回归. 2个网络并不相互独立,而是通过一个判别策略,根据2个算法的候选区域分类分数决定是扩大搜索区域还是全图寻找目标.

    综上所述,早期的深度学习目标跟踪方法由于多采用分类CNN网络结构,在性能上略逊于相关滤波跟踪方法. 但近几年,随着深度学习的发展和学者们的深入研究,针对目标跟踪任务而设计的网络结构逐渐呈现出多样化. 例如,从早期的GOTURN到性能较好的SiamRPN,再到如今性能领先的SiamRPN++和ATOM,基于深度学习的目标跟踪方法克服了只能使用浅层网络的限制,同时还迁移了目标检测任务中的模型,并针对目标跟踪任务进行了改进. 实验对比结果表明,基于深度学习的目标跟踪方法已超越大部分基于相关滤波的方法,通过海量数据进行端到端离线训练的优势正在逐渐显现. 然而,此类方法一般需要GPU硬件进行加速才可能达到实时处理的要求. 为了满足实际应用需求,通常需要利用网络剪枝、蒸馏等模型压缩方法降低模型的计算复杂度,进而适配到无人机影像处理平台上.

    鉴于深度学习具有强大的特征表达能力和上下文信息提取能力,而相关滤波方法具有简洁、高效的特点,学者们也开始尝试将两者相结合以实现复杂场景中的目标跟踪.

    Danelljan等[45]深入研究了VGGNet-2048[26]中间层卷积特征对相关滤波算法跟踪精度的影响. 实验结果表明,VGGNet-2048的第1个卷积层比较适用于相关滤波算法,并基于SRDCF构建了跟踪器DeepSRDCF,实现了从传统手工特征到单层深度特征的升级,显著提升了跟踪性能. 同一时期,分层卷积特征跟踪器(hierarchical convolutional features tracker, HCF)[46]也将相关滤波与深度卷积特征相结合,但不同的是,HCF利用了CNN的高层语义特征和低层的纹理特征,即VGG-19[25]的conv5-4、conv4-4和conv3-4卷积层特征,并通过双线性插值将3层的特征调整为同一分辨率,然后分别训练3个相关滤波器. 最后,将3个响应图以固定权重1.00、0.50、0.02的线性加权法合并为最终响应图,最大响应点即为目标位置. 但是,由于双线性插值带来的精度损失以及没有针对边界效应进行优化,HCF的跟踪性能远低于DeepSRDCF.

    连续卷积算子跟踪器(continuous convolution operator tracker, C-COT)[47]将DeepSRDCF的单层深度特征扩展为多层深度特征(VGGNet-2048的layer1和layer5). 为了解决不同中间层输出特征图分辨率不同的问题,提出了连续空间域插值转换操作,在训练滤波器之前通过频域隐式插值将特征图插值到连续空域,方便集成不同分辨率的特征图以保持目标定位的高精度. 目标函数通过共轭梯度下降法进行迭代优化,比高斯-塞德尔法速度更快.

    高效卷积算子(efficient convolution operators, ECO)[48]在C-COT的基础上,从3个方面进行了优化:一是提出了一种因子卷积算子,去除了对跟踪过程没有贡献的滤波器,进而解决模型过大的问题;二是提出了一个更为紧凑的生成模型去除大量相似的冗余样本,减少样本数量,简化训练集;三是减少模型更新频率来加快速度,对抗模型漂移. 经过这些优化操作,ECO的处理速度可以达到6帧/s且精度远超C-COT. 李国友等[49]对ECO的模型更新策略进行优化,加入了遮挡检测算法和目标重定位算法,为ECO的相关滤波器提供可靠的参数更新时机,进而提高模型的可靠性.

    关键滤波器感知目标跟踪(keyfilter-aware object tracking, KAOT)算法[50]在BACF的基础上引入了CN特征和VGGNet-2048的深度卷积特征,还针对无人机场景提出了keyfilter的思想,通过周期性选择关键帧生成keyfilter用于学习上下文,进而引导相关滤波器的训练. 这种方法在防止滤波器模板被污染的同时,还将上下文信息传递给所有滤波器,从而获得较好的跟踪性能.

    还有一些研究工作将相关滤波与多种形式的CNN网络进行融合,实现了更为有效的时空特征提取、表达及度量.

    CFNet[51]在SiamFC的基础上,将相关滤波嵌入到CNN中,作为中间的一层用于目标跟踪. 在训练过程中,采用最小二乘法求解相关滤波运算层参数;在跟踪过程中,采用原始的相关滤波方法进行跟踪. 作者还考虑到了边界效应,在相关滤波运算层之后添加了一个裁剪层裁剪出中间区域. Wang等[52]也提出了将相关滤波融入到CNN网络结构中,并命名为判别相关滤波器网络(discriminant correlation filters network, DCFNet). DCFNet在跟踪过程中采用渐进式增量学习方法更新滤波器参数,因此,跟踪过程的DCFNet也可以看作是一种循环神经网络(recurrent neural network,RNN).

    基于上下文感知深度特征压缩和多自编码器的跟踪器(tracker based on context-aware deep feature compression with multiple auto-encoders, TRACA)[53]训练一组无监督自编码器(auto encoder,AE). 在跟踪阶段,通过训练好的上下文感知器挑选合适的自编码器对目标的深度特征进行编码,并将编码后的特征应用于相关滤波,对目标进行跟踪.

    Choi等[54]提出了一种注意力相关滤波网络(attentional correlation filter network, ACFNV)用于进行目标跟踪. 该网络由2个主要部分组成:相关滤波器组和注意力网络. 根据跟踪目标的动态特性,由注意力网络自适应选择最优滤波器子集对目标进行跟踪,可以获得更优的跟踪性能.

    综上所述,由于CNN的模型参数是通过海量数据进行端到端离线训练获得,在训练过程中,学者们还利用图像的平移、旋转、缩放、随机遮挡、噪声扰动以及改变色差等方式增强数据,使得深度特征相比于传统手工特征能够更好地应对无人机场景下可能同时出现的目标旋转、遮挡和光照变化等复杂情况. 所以,上述方法将相关滤波中的传统手工特征替换为深度卷积特征后都获得了不同程度的性能提升. 然而,深度特征相比于传统手工特征具有更高的特征维度且存在一定冗余,上述方法在使用深度特征的过程中,多数使用特征降维或利用某些策略挑选合适的深度特征用于相关滤波以减少模型参数,提升算法的运算速度和鲁棒性.

    数据集主要用于对算法的性能进行评估和验证. 本节首先介绍几种目前最常用的无人机影像目标跟踪公共数据集,然后介绍跟踪性能评价指标.

    规范、丰富、有标注的真实场景数据是开展视觉计算研究的关键要素. 近年来,学者们陆续发布了多个针对无人机影像目标跟踪的数据集,代表性的数据集见表 1.

    表  1  几种常用的无人机影像目标跟踪数据集
    Table  1.  Several public UAV imagery object
    数据集 序列
    总帧
    数/103
    属性
    分辨率/
    像素
    UAVDT 50 37.1 8 1080×540
    UAV123 123 110.0 12 1280×720
    DTB70 70 15.9 11 1280×720
    VisDrone2018 167 139.3 12 3840×2160
    VisDrone2019 192 221.9 12 3840×2160
    下载: 导出CSV 
    | 显示表格

    UAVDT数据集[55]是面向多种视觉计算任务的数据集,包括目标检测、多目标跟踪和单目标跟踪. 对于单目标跟踪任务,UAVDT提供了17个不同场景的50个视频序列,每个视频进行了8个属性的标注,分别是背景杂乱(background clutter,BC)、相机旋转(camera rotation,CR)、目标旋转(object rotation OR)、小目标(small object,SO)、光照变化(illumination variation,Ⅳ)、运动模糊(object blur,OB)、尺度变化(scale variation,SV)和遮挡(large occlusion,LO). 视频序列中的目标种类有车辆、行人等,并且每帧数据都精准地标注了目标的矩形外边框.

    UAV123数据集是Mueller等[56]在2016年发布的单目标视觉跟踪数据集. 它包含长时跟踪和短时跟踪2个子任务,其中长时跟踪有20个视频序列,短时跟踪则是将长时跟踪分割成子序列后再添加其他序列组成的123个视频序列. 每个视频拥有12个视频属性,分别为纵横比变化、背景杂乱、相机扰动、快速移动、全部遮挡、光照变化、低分辨率、出视野、部分遮挡、相似目标、尺度变化和视角变化. 视频序列中的目标种类有轿车、卡车、行人、船只等,并且每帧都有目标标注.

    DTB70数据集[57]同样也是单目标视觉跟踪数据集. 数据集包含70个视频序列,总帧数约16000,适合于短时跟踪任务. 每个序列有11个视频属性标注,分别为相机扰动、尺度变化、遮挡、出视野、相似目标、纵横比变化、背景扰动、目标变形、平面内旋转、平面外旋转和运动模糊. 视频序列中的目标种类有行人、车辆和动物等地面目标.

    VisDrone2018数据集是Zhu等[58]提出的用于无人机视觉挑战赛的数据集,共有4个任务,分别为图像目标检测、视频目标检测、多目标跟踪和单目标跟踪. 对于单目标视觉跟踪任务,VisDrone2018提供了167个视频序列,包含139276个完全注释的帧,分为4个子集,即训练集(86个序列,共69941帧)、验证集(11个序列,共7046帧)、测试挑战集(35个序列,共29367帧)和测试开发集(35个序列,共32922帧). 测试挑战集是指在VisDrone2018单目标跟踪挑战赛中提交的算法需要验证的数据集.

    VisDrone2019[59]是2019年提出的数据集,其中单目标跟踪任务是在VisDrone2018测试挑战数据集基础上添加了25个新视频序列,共82644帧,用于VisDrone2019单目标跟踪挑战赛.

    VisDrone两个数据集中每个视频均具有12个属性,其属性定义与UAV123数据集相同. 视频中目标的种类为行人、车辆和动物.

    无人机影像目标跟踪数据集普遍采用OTB2013[60]中的评价准则. 在评估算法时对每一个序列使用一次通过评估(one-pass evaluation,OPE)方法,即从起始帧初始化跟踪算法开始直至最后一帧,中间如果丢失目标,不会重新初始化跟踪算法. 跟踪结果的评价通常采用精准度曲线图(precision plot)和成功曲线图(success plot).

    首先计算第t帧的跟踪结果中心点坐标(xpt, ypt)和真实值中心点坐标(xgt, ygt)的欧氏距离dt,并称之为定位误差(location error). 然后,给定任意定位误差阈值Tlocation_error,则精准度就是dtTlocation_error的所有帧数占视频序列总帧数的百分比. 一般情况下,取Tlocation_error为20个像素点时的精准度对跟踪算法进行排序.

    首先计算第t帧的跟踪结果边界框Bpt和真实值边界框Bgt的重叠分数(overlap score)St,重叠分数的定义为

    $$ {S^t} = \frac{{|B_p^t \cap B_g^t|}}{{|B_p^t \cup B_g^t|}} $$ (13)

    式中:∩和∪分别为2个边界框的交集和并集;|·|为区域中的像素数. 给定重叠分数阈值0≤Toverlap_score≤1,则成功曲线图表示StToverlap_score的所有帧数占视频序列总帧数的百分比. 一般情况下,使用成功曲线图的曲线下面积(area under curve,AUC)对跟踪算法进行排序.

    本文选取UAVDT数据集[55]中的单目标跟踪任务数据集对目前比较典型的25个目标跟踪算法进行了评估,这些算法分别为ATOM[41]、ARCF-HC [19]、ADNet[61]、C-COT[47]、CF2[46]、CFNet[51]、CN[11]、ECO[48]、GOTURN[28]、KCF[2]、MDNet[38]、SiamDW[34]、SiamFC[36]、SiamRPN++[35]、Staple[13]、SRDCF[16]、CREST[62]、FCNT[63]、HDT[64]、MCPF[65]、PTAV[66]、SINT[67]、SRDCFdecon[68]、staple_CA[69]和STCT[70]. 本文用于评估算法的实验平台为Ubuntu 16.04,拥有Intel Xeon(R) E5-2602 v4 CPU,以及16GB内存和Nvidia RTX 2080Ti GPU.

    采用各个跟踪算法得到的跟踪成功曲线图和精准度曲线图如图 3所示,表 2给出了各个跟踪算法在UAVDT数据集不同属性下的AUC得分统计结果. 可以看到,目前性能最优的前4名跟踪算法分别为SiamRPN++、ATOM、SiamDW和MDNet,均为基于深度学习的方法. 另外,SiamRPN++和ATOM均采用了多任务学习策略,可以取得目前最优的跟踪性能.

    图  3  不同跟踪算法在UAVDT数据集上的性能曲线
    Figure  3.  Performance curves of different tracking algorithms on UAVDT dataset
    表  2  几种典型跟踪算法在UAVDT数据集不同视频属性下的AUC分数
    Table  2.  AUC scores of several typical tracking algorithms under different video attributes on UAVDT dataset
    算法名称 BC CR OR SO OB SV LO 是否实时跟踪
    GPU CPU
    ATOM 51.3 56.6 55.5 54.6 57.3 53.2 61.2 55.6
    ARCF-HC 39.4 43.0 39.9 46.8 45.7 44.4 43.8 38.7
    ADNet 37.0 39.9 36.8 43.2 45.8 42.8 40.9 35.8
    C-COT 34.0 39.0 34.1 44.2 41.6 37.2 37.9 33.5
    CF2 29.2 34.1 29.7 35.6 38.7 35.8 29.0 28.3
    CFNet 36.0 39.7 36.9 43.5 45.1 43.5 40.9 33.3
    CN 26.3 29.0 26.5 31.3 34.6 31.8 26.5 25.3
    CREST 33.6 38.7 35.4 38.3 40.5 37.7 36.5 35.1
    ECO 38.9 42.2 39.5 46.1 47.3 43.7 43.1 36.0
    FCNT 20.6 21.8 23.6 21.9 25.5 24.2 24.6 22.3
    GOTURN 38.9 42.2 39.5 46.1 47.3 43.7 43.7 36.0
    HDT 25.1 27.3 24.8 29.8 31.3 30.3 25.0 25.4
    KCF 23.5 26.7 24.4 25.1 31.1 29.7 25.4 22.8
    MCPF 31.0 36.3 33.0 39.7 42.2 42.0 35.9 30.1
    MDNet 39.7 43.0 42.7 44.4 48.5 47.0 46.2 38.1
    PTAV 31.2 35.2 30.9 38.0 38.1 36.7 33.3 32.9
    SiamDW 44.2 44.6 44.8 42.1 45.6 41.2 47.7 43.2
    SiamFC 38.6 40.9 38.4 43.9 47.4 45.3 42.4 35.9
    SiamRPN++ 53.7 56.1 58.3 55.9 63.4 62.3 61.6 52.0
    SINT 38.9 26.7 24.4 25.1 31.1 29.7 25.4 22.8
    SRDCF 35.3 39.0 36.5 42.2 45.1 41.7 40.2 32.7
    SRDCFdecon 36.0 39.0 36.6 43.1 45.5 42.9 38.0 31.5
    Staple 31.3 33.5 33.0 37.0 41.3 40.1 35.8 30.8
    Staple-CA 32.9 35.2 34.6 38.0 43.1 40.6 36.7 32.5
    STCT 33.3 36.0 34.3 38.3 40.8 37.0 37.3 31.7
    下载: 导出CSV 
    | 显示表格

    具体来讲,对于基于深度学习的方法,由于SiamRPN++将跟踪问题拆解成边界框分类和回归问题,并充分利用深层CNN作为主干网络对候选区域进行多级回归预测,这使得SiamRPN++在包含6个属性的多个视频序列上均取得了第1名. 同样地,ATOM也将跟踪任务拆解为目标判别和位置估计2个子任务,同时对CNN的中间层特征进行融合,以增强网络的特征表达能力. 这使得ATOM在包含2个属性的多个视频序列上取得了第1名.

    在基于相关滤波的目标跟踪算法中,ARCF-HC可以获得最优的跟踪性能. 该算法针对无人机场景,对相关滤波检测阶段产生的响应图变化率进行限制,进而缓解模型的学习背景,使其在众多基于相关滤波的跟踪方法中脱颖而出,获得第5名.

    对于基于深度学习和相关滤波相结合的目标跟踪方法来说,性能最好的ECO算法在总体评估上排名第6. 该方法通过抑制相关滤波边界效应,采用卷积特征的连续空间域插值及在线模型更新等策略可以获得较高的跟踪精度.

    然而,同样是基于深度学习的SINT性能却差强人意,这是由于早期基于深度学习的方法往往采用自建的轻型CNN网络,无法利用大型的目标检测数据集对网络进行高效的端到端离线预训练,造成模型的泛化能力较差.可以看到,仅使用灰度特征和HOG特征的KCF算法的跟踪性能甚至要优于SINT.FCNT采用了在线训练的深度学习方法,其性能与MDNet相比相差甚远,这是更新策略以及在线产生样本的差异导致的.

    考虑到不同算法的实现依赖于CPU或者GPU,所以本文对所有算法分别在各自依赖的硬件环境下进行实时性测试,并且取每秒处理帧数大于25,即认为达到了实时性要求. 所有算法的运行效率评估结果见表 2. 可以看到,在基于深度学习的方法中,需要在线训练的模型在本实验GPU硬件环境下均难以进行实时运算,而大多数离线训练的模型则可以在GPU支持下达到实时. 基于相关滤波的方法虽不能通过GPU进行加速运算,但是在CPU环境下大部分可以实时运算,而其中的小部分则是因为使用迭代求解无法达到实时. 基于深度学习和相关滤波相结合的一类方法则由于模型规模大及特征维度高,仅有TRACA、CFNet和DCFNet能达到实时. 需要说明的是,上述实验算法均针对具体的计算平台进行了专门的计算优化与加速. 如今,一些分类CNN网络在分类准确率和模型复杂度之间得到了非常好的平衡,例如MobileNetV1[71]、MobileNetV2[72]以及ShuffleNetV2[73]等,其中性能最好的ShuffleNetV2(0.5×)模型参数仅为1.4MB,并且在Qualcomm公司的Snapdragon 810 ARM上可以每秒处理57张224×224像素大小的图像. 这为一些性能优异的跟踪算法在无人机机载嵌入式平台上的实时实现提供了可行的优化方向.

    如前文所述,在无人机航拍影像中,由于拍摄高度的原因会导致目标的尺寸相对较小,所以目标所包含的视觉信息十分有限,无疑给无人机航拍影像的目标跟踪带来了巨大的挑战. 未来对于无人机影像目标跟踪的研究可从以下几个方面展开:

    1) 多尺度特征融合. 目标的特征提取与表达是视觉跟踪的核心问题,CNN在此方面已经表现了突出的优势. CNN的不同卷积层特征包含了不同层次的纹理和抽象的语义信息,因此,如何有效地对各层特征进行融合,以及各层特征对目标跟踪精度有着什么样的影响,都是值得深入研究的问题.

    2) 场景上下文信息的有效挖掘和利用. 无人机影像中的目标尺寸小,包含的视觉信息有限,而场景中的背景信息丰富. 通过利用这些场景的先验知识,可以降低背景对目标的干扰,进而提升跟踪的可靠性. 因此,如何充分挖掘无人机航拍影像中的各种时空上下文信息是另一个值得深入研究的问题.

    3) 多源多模态信息融合. 无人机影像采集时易受到复杂天气因素的影响,此时仅利用无人机影像中的视觉信息无法获得理想的跟踪精度和可靠性,需要利用无人机平台上的多种传感器获得多源、多模态信息,如GPS、高度计、陀螺仪等,通过融合这些信息来提升影像目标跟踪的速度和精度.

    4) 在线学习策略. 相关滤波以及一些基于在线学习的深度学习方法获得的跟踪性能大不相同,这是由于采用了不同的在线学习策略. 在无人机场景下,目标遮挡、出视野等情况频繁发生,如果每帧都更新算法的参数,则会在上述情况发生时学习到背景,进而降低跟踪的可靠性. 所以,如何利用在线学习策略、设计相应的更新机制是值得深入探讨的问题.

    5) 计算高效的模型. 航拍视频处理(尤其是飞行器的视觉导航)平台对目标跟踪处理的实时性有着很高的要求. 基于深度学习的目标跟踪方法虽然可以获得最优的跟踪精度,但是计算复杂度高,严重限制了实际应用的场合. 如何降低跟踪算法的计算复杂度,使其能运行于低功耗、低算力的机载处理平台,还亟需进行深入的优化研究.

  • 图  1   典型的视觉目标跟踪过程

    Figure  1.   Typical visual object tracking process

    图  2   孪生网络基本框架结构

    Figure  2.   Basic diagram structure of siamese neural network

    图  3   不同跟踪算法在UAVDT数据集上的性能曲线

    Figure  3.   Performance curves of different tracking algorithms on UAVDT dataset

    表  1   几种常用的无人机影像目标跟踪数据集

    Table  1   Several public UAV imagery object

    数据集 序列
    总帧
    数/103
    属性
    分辨率/
    像素
    UAVDT 50 37.1 8 1080×540
    UAV123 123 110.0 12 1280×720
    DTB70 70 15.9 11 1280×720
    VisDrone2018 167 139.3 12 3840×2160
    VisDrone2019 192 221.9 12 3840×2160
    下载: 导出CSV

    表  2   几种典型跟踪算法在UAVDT数据集不同视频属性下的AUC分数

    Table  2   AUC scores of several typical tracking algorithms under different video attributes on UAVDT dataset

    算法名称 BC CR OR SO OB SV LO 是否实时跟踪
    GPU CPU
    ATOM 51.3 56.6 55.5 54.6 57.3 53.2 61.2 55.6
    ARCF-HC 39.4 43.0 39.9 46.8 45.7 44.4 43.8 38.7
    ADNet 37.0 39.9 36.8 43.2 45.8 42.8 40.9 35.8
    C-COT 34.0 39.0 34.1 44.2 41.6 37.2 37.9 33.5
    CF2 29.2 34.1 29.7 35.6 38.7 35.8 29.0 28.3
    CFNet 36.0 39.7 36.9 43.5 45.1 43.5 40.9 33.3
    CN 26.3 29.0 26.5 31.3 34.6 31.8 26.5 25.3
    CREST 33.6 38.7 35.4 38.3 40.5 37.7 36.5 35.1
    ECO 38.9 42.2 39.5 46.1 47.3 43.7 43.1 36.0
    FCNT 20.6 21.8 23.6 21.9 25.5 24.2 24.6 22.3
    GOTURN 38.9 42.2 39.5 46.1 47.3 43.7 43.7 36.0
    HDT 25.1 27.3 24.8 29.8 31.3 30.3 25.0 25.4
    KCF 23.5 26.7 24.4 25.1 31.1 29.7 25.4 22.8
    MCPF 31.0 36.3 33.0 39.7 42.2 42.0 35.9 30.1
    MDNet 39.7 43.0 42.7 44.4 48.5 47.0 46.2 38.1
    PTAV 31.2 35.2 30.9 38.0 38.1 36.7 33.3 32.9
    SiamDW 44.2 44.6 44.8 42.1 45.6 41.2 47.7 43.2
    SiamFC 38.6 40.9 38.4 43.9 47.4 45.3 42.4 35.9
    SiamRPN++ 53.7 56.1 58.3 55.9 63.4 62.3 61.6 52.0
    SINT 38.9 26.7 24.4 25.1 31.1 29.7 25.4 22.8
    SRDCF 35.3 39.0 36.5 42.2 45.1 41.7 40.2 32.7
    SRDCFdecon 36.0 39.0 36.6 43.1 45.5 42.9 38.0 31.5
    Staple 31.3 33.5 33.0 37.0 41.3 40.1 35.8 30.8
    Staple-CA 32.9 35.2 34.6 38.0 43.1 40.6 36.7 32.5
    STCT 33.3 36.0 34.3 38.3 40.8 37.0 37.3 31.7
    下载: 导出CSV
  • [1] 胡健波, 张健. 无人机遥感在生态学中的应用进展[J]. 生态学报, 2018, 38(1): 20-30. https://www.cnki.com.cn/Article/CJFDTOTAL-STXB201801003.htm

    HU J B, ZHANG J. Unmanned aerial vehicle remote sensing in ecology: advances and prospects[J]. Acta Ecologica Sinica, 2018, 38(1): 20-30. (in Chinese) https://www.cnki.com.cn/Article/CJFDTOTAL-STXB201801003.htm

    [2]

    HENRIQUES J F, CASEIRO R, MARTINS P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596. doi: 10.1109/TPAMI.2014.2345390

    [3]

    RIFKIN R, YEO G, POGGIO T. Regularized least-squares classification[J]. Nato Science Series Sub Series Ⅲ: Computer and Systems Sciences, 2003, 190: 131-154

    [4]

    GRAY R M. Toeplitz and circulant matrices: a review[J]. Foundations and Trends in Communications and Information Theory, 2006, 2(3): 155-239. http://uploads.tombertalan.com/12fall2012/13spring2013/520apc520/hw/hw1/toeplitzMatrixTheory.pdf

    [5]

    DAVIS P J. Circulant matrices[M]. Providence, USA: American Mathematical Society, 2013: 1-250.

    [6]

    SCHÖLKOPF B, SMOLA A J, BACH F. Learning with kernels: support vector machines, regularization, optimization, and beyond[M]. Cambridge: MIT Press, 2002: 405-406.

    [7]

    BOLME D S, BEVERIDGE J R, DRAPER B A, et al. Visual object tracking using adaptive correlation filters[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2010: 2544-2550.

    [8]

    HENRIQUES J F, CASEIRO R, MARTINS P, et al. Exploiting the circulant structure of tracking-by-detection with kernels[C]//12th European Conference on Computer Vision. Berlin: Springer, 2012: 702-715.

    [9]

    YADAV R, SENTHAMILARASU V, KUTTY K, et al. A review on day-time pedestrian detection[J/OL]. SAE Technical Paper 2015-01-0311, 2015[2019-04-14]. https://doi.org/10.4271/2015-01-0311.

    [10]

    DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2005: 886-893.

    [11]

    DANELLJAN M, KHAN F S, FELSBERG M, et al. Adaptive color attributes for real-time visual tracking[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2014: 1090-1097.

    [12]

    VAN DE WEIJER J, SCHMID C, VERBEEK J, et al. Learning color names for real-world applications[J]. IEEE Transactions on Image Processing, 2009, 18(7): 1512-1523. doi: 10.1109/TIP.2009.2019809

    [13]

    BERTINETTO L, VALMADRE J, GOLODETZ S, et al. Staple: complementary learners for real-time tracking[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1401-1409.

    [14]

    LI Y, ZHU J. A scale adaptive kernel correlation filter tracker with feature integration[C]//The 13th European Conference on Computer Vision Workshops. Berlin: Springer, 2015: 254-265.

    [15]

    DANELLJAN M, HÄGER G, KHAN F S, et al. Discriminative scale space tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(8): 1561-1575. doi: 10.1109/TPAMI.2016.2609928

    [16]

    DANELLJAN M, HÄGER G, KHAN F S, et al. Learning spatially regularized correlation filters for visual tracking[C]//2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 4310-4318.

    [17]

    GALOOGAHI H K, FAGG A, LUCEY S. Learning background-aware correlation filters for visual tracking[C]//2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 1144-1152.

    [18]

    BOYD S, PARIKH N, CHU E, et al. Distributed optimization and statistical learning via the alternating direction method of multipliers[J]. Foundations and Trends in Machine Learning, 2011, 3(1): 1-122. http://home.ustc.edu.cn/~liweiyu/documents/ADMM_20180530.pdf

    [19]

    HUANG Z, FU C, LI Y, et al. Learning aberrance repressed correlation filters for real-time uav tracking[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE, 2019: 2891-2900.

    [20] 朱建章, 王栋, 卢湖川. 背景与时间感知的相关滤波实时视觉跟踪[J]. 中国图象图形学报, 2019, 24(4): 536-549. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGTB201904005.htm

    ZHU J Z, WANG D, LU H C. Learning background-temporal-aware correlation filter for real-time visual tracking[J]. Journal of Image and Graphics, 2019, 24(4): 536-549. (in Chinese) https://www.cnki.com.cn/Article/CJFDTOTAL-ZGTB201904005.htm

    [21]

    LI Y, FU C, DING F, et al. Augmented memory for correlation filters in real-time UAV tracking[EB/OL]. [2019-10-27]. https://arxiv.org/pdf/1909.10989.

    [22]

    LI F, FU C, LIN F, et al. Training-set distillation for real-time uav object tracking[EB/OL]. [2020-03-12]. https://arxiv.org/pdf/2003.05326.

    [23]

    WANG Y, DING L, LAGANIERE R. Real-time UAV tracking based on PSR stability[C]//Proceedings of the IEEE International Conference on Computer Vision Workshops. Piscataway: IEEE, 2019: 144-152.

    [24]

    DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2009: 248-255.

    [25]

    SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]//3rd International Conference on Learning Representations. [S. l. ]: International Conference on Learning Representations, 2015: 1-14.

    [26]

    CHATFIELD K, SIMONYAN K, VEDALDI A, et al. Return of the devil in the details: Delving deep into convolutional nets[EB/OL]. [2018-12-05]. https://arxiv.org/pdf/1405.3531.

    [27]

    HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.

    [28]

    HELD D, THRUN S, SAVARESE S. Learning to track at 100 FPS with deep regression networks[C]//The 14th European Conference on Computer Vision. Berlin: Springer, 2016: 749-765.

    [29]

    JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM International Conference on Multimedia. New York: ACM, 2014: 675-678.

    [30]

    LI B, YAN J, WU W, et al. High performance visual tracking with siamese region proposal network[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 8971-8980.

    [31]

    ZHU Z, WANG Q, LI B, et al. Distractor-aware siamese networks for visual object tracking[C]//The 15th European Conference on Computer Vision. Berlin: Springer, 2018: 103-119.

    [32] 任珈民, 宫宁生, 韩镇阳. 一种改进的基于孪生卷积神经网络的目标跟踪算法[J]. 小型微型计算机系统, 2019, 40(12): 2686-2690. https://www.cnki.com.cn/Article/CJFDTOTAL-XXWX201912038.htm

    REN J M, GONG N S, HAN Z Y. Improved target tracking algorithm based on siamese convolution neural network[J]. Journal of Chinese Computer Systems, 2019, 40(12): 2686-2690. (in Chinese) https://www.cnki.com.cn/Article/CJFDTOTAL-XXWX201912038.htm

    [33]

    HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 7132-7141.

    [34]

    ZHANG Z, PENG H. Deeper and wider siamese networks for real-time visual tracking[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 4586-4595.

    [35]

    LI B, WU W, WANG Q, et al. Siamrpn++: evolution of siamese visual tracking with very deep networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 4277-4286.

    [36]

    BERTINETTO L, VALMADRE J, HENRIQUES J F, et al. Fully-convolutional siamese networks for object tracking[C]//The 14th European Conference on Computer Vision Workshops. Berlin: Springer, 2016: 850-865.

    [37]

    WANG Q, TENG Z, XING J, et al. Learning attentions: residual attentional siamese network for high performance online visual tracking[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 4854-4863.

    [38]

    NAM H, HAN B. Learning multi-domain convolutional neural networks for visual tracking[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 4293-4302.

    [39]

    NAM H, BAEK M, HAN B. Modeling and propagating cnns in a tree structure for visual tracking[EB/OL]. [2018-12-06]. https://arxiv.org/pdf/1608.07242.

    [40]

    ZHANG Y, WANG D, WANG L, et al. Learning regression and verification networks for long-term visual tracking[EB/OL]. [2019-01-06]. https://arxiv.org/pdf/1809.04320.

    [41]

    DANELLJAN M, BHAT G, KHAN F S, et al. Atom: accurate tracking by overlap maximization[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 4655-4664.

    [42]

    JIANG B, LUO R, MAO J, et al. Acquisition of localization confidence for accurate object detection[C]//The 15th European Conference on Computer Vision. Berlin: Springer, 2018: 816-832.

    [43]

    ZHANG W, WANG H, HUANG Z, et al. Accuracy and long-term tracking via overlap maximization integrated with motion continuity[C]//2019 IEEE/CVF International Conference on Computer Vision Workshop. Piscataway: IEEE, 2019: 109-117.

    [44]

    WU H, YANG X, YANG Y, et al. Flow guided short-term trackers with cascade detection for long-term tracking[C]//2019 IEEE/CVF International Conference on Computer Vision Workshop. Piscataway: IEEE, 2019: 170-178.

    [45]

    DANELLJAN M, HÄGER G, KHAN F S, et al. Convolutional features for correlation filter based visual tracking[C]//2015 IEEE International Conference on Computer Vision Workshop. Piscataway: IEEE, 2015: 621-629.

    [46]

    MA C, HUANG J, YANG X, et al. Hierarchical convolutional features for visual tracking[C]//2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 3074-3082.

    [47]

    DANELLJAN M, ROBINSON A, SHAHBAZ K F, et al. Beyond correlation filters: learning continuous convolution operators for visual tracking[C]//The 14th European Conference on Computer Vision. Berlin: Springer, 2016: 472-488.

    [48]

    DANELLJAN M, BHAT G, KHAN F S, et al. Eco: efficient convolution operators for tracking[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 6931-6939.

    [49] 李国友, 张凤煦, 纪执安. 采用高效卷积算子的长期目标追踪算法[J]. 小型微型计算机系统, 2019, 40(9): 1951-1955. https://www.cnki.com.cn/Article/CJFDTOTAL-XXWX201909026.htm

    LI G Y, ZHANG F X, JI Z A. Long-term tracking based on efficient convolution operator[J]. Journal of Chinese Computer Systems, 2019, 40(9): 1951-1955. (in Chinese) https://www.cnki.com.cn/Article/CJFDTOTAL-XXWX201909026.htm

    [50]

    LI Y, FU C, HUANG Z, et al. Keyfilter-aware real-time uav object tracking[EB/OL]. [2020-03-16]. https://arxiv.org/pdf/2003.05218.

    [51]

    VALMADRE J, BERTINETTO L, HENRIQUES J, et al. End-to-end representation learning for correlation filter based tracking[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 5000-5008.

    [52]

    WANG Q, GAO J, XING J, et al. Dcfnet: discriminant correlation filters network for visual tracking[EB/OL]. [2018-03-24]. https://arxiv.org/pdf/1704.04057.

    [53]

    CHOI J, CHANG H J, FISCHER T, et al. Context-aware deep feature compression for high-speed visual tracking[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 479-488.

    [54]

    CHOI J, CHANG H J, YUN S, et al. Attentional correlation filter network for adaptive visual tracking[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4828-4837.

    [55]

    DU D, QI Y, YU H, et al. The unmanned aerial vehicle benchmark: object detection and tracking[C]//The 15th European Conference on Computer Vision. Berlin: Springer, 2018: 375-391.

    [56]

    MUELLER M, SMITH N, GHANEM B. A benchmark and simulator for uav tracking[C]//The 14th European Conference on Computer Vision. Berlin: Springer, 2016: 445-461.

    [57]

    LI S, YEUNG D Y. Visual object tracking for unmanned aerial vehicles: a benchmark and new motion models[C]//Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2017: 4140-4146.

    [58]

    ZHU P, WEN L, BIAN X, et al. Vision meets drones: a challenge[EB/OL]. [2018-05-18]. https://arxiv.org/pdf/1804.07437.

    [59]

    ZHU P, WEN L, DU D, et al. Vision meets drones: past, present and future[EB/OL]. [2020-06-22]. https://arxiv.org/pdf/2001.06303.

    [60]

    WU Y, LIM J, YANG M. Online object tracking: a benchmark[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2013: 2411-2418.

    [61]

    YUN S, CHOI J, YOO Y, et al. Action-decision networks for visual tracking with deep reinforcement learning[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 1349-1358.

    [62]

    SONG Y, MA C, GONG L, et al. Crest: convolutional residual learning for visual tracking[C]//2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2574-2583.

    [63]

    WANG L, OUYANG W, WANG X, et al. Visual tracking with fully convolutional networks[C]//2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 3119-3127.

    [64]

    QI Y, ZHANG S, QIN L, et al. Hedged deep tracking[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 4303-4311.

    [65]

    ZHANG T, XU C, YANG M. Learning multi-task correlation particle filters for visual tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(2): 365-378.

    [66]

    FAN H, LING H. Parallel tracking and verifying: a framework for real-time and high accuracy visual tracking[C]//2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 5487-5495.

    [67]

    TAO R, GAVVES E, SMEULDERS A W M. Siamese instance search for tracking[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1420-1429.

    [68]

    DANELLJAN M, HÄGER G, KHAN F S, et al. Adaptive decontamination of the training set: a unified formulation for discriminative visual tracking[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1430-1438.

    [69]

    MUELLER M, SMITH N, GHANEM B. Context-aware correlation filter tracking[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 1387-1395.

    [70]

    WANG L, OUYANG W, WANG X, et al. STCT: sequentially training convolutional networks for visual tracking[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1373-1381.

    [71]

    HOWARD A G, ZHU M, CHEN B, et al. Mobilenets: efficient convolutional neural networks for mobile vision applications[EB/OL]. [2019-05-22]. https://arxiv.org/pdf/1704.04861.

    [72]

    SANDLER M, HOWARD A, ZHU M, et al. MobileNetV2: inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 4510-4520.

    [73]

    MA N, ZHANG X, ZHENG H T, et al. Shufflenet v2: practical guidelines for efficient cnn architecture design[C]//The 15th European Conference on Computer Vision. Berlin: Springer, 2018: 122-138.

  • 期刊类型引用(3)

    1. 程哲,杨翼,胡茑庆. 基于FSDP图像和DCNN的无人机起落架关键件结构损伤智能检测方法. 中国科学:技术科学. 2023(08): 1372-1384 . 百度学术
    2. 刘密歌. 频率分辨率的研究. 电子测量技术. 2020(06): 165-168 . 百度学术
    3. 颜丙生,杨明超,赵俊杰,汤宝平,刘自然. 0Cr17Ni4Cu4Nb不锈钢早期损伤非线性驻波法检测. 振动与冲击. 2019(13): 151-157 . 百度学术

    其他类型引用(4)

图(3)  /  表(2)
计量
  • 文章访问数:  374
  • HTML全文浏览量:  103
  • PDF下载量:  76
  • 被引次数: 7
出版历程
  • 收稿日期:  2020-03-22
  • 网络出版日期:  2022-08-03
  • 发布日期:  2021-10-09
  • 刊出日期:  2021-10-09

目录

/

返回文章
返回