• 综合性科技类中文核心期刊
    • 中国科技论文统计源期刊
    • 中国科学引文数据库来源期刊
    • 中国学术期刊文摘数据库(核心版)来源期刊
    • 中国学术期刊综合评价数据库来源期刊

基于时空上下文模型的RGB-D序列目标跟踪方法

孔德慧, 荣子豪, 贾思宇, 王少帆, 尹宝才

孔德慧, 荣子豪, 贾思宇, 王少帆, 尹宝才. 基于时空上下文模型的RGB-D序列目标跟踪方法[J]. 北京工业大学学报, 2021, 47(3): 224-230. DOI: 10.11936/bjutxb2020100005
引用本文: 孔德慧, 荣子豪, 贾思宇, 王少帆, 尹宝才. 基于时空上下文模型的RGB-D序列目标跟踪方法[J]. 北京工业大学学报, 2021, 47(3): 224-230. DOI: 10.11936/bjutxb2020100005
KONG Dehui, RONG Zihao, JIA Siyu, WANG Shaofan, YIN Baocai. Object Tracking in RGB-D Sequences Using a Spatio-Temporal Context Model[J]. Journal of Beijing University of Technology, 2021, 47(3): 224-230. DOI: 10.11936/bjutxb2020100005
Citation: KONG Dehui, RONG Zihao, JIA Siyu, WANG Shaofan, YIN Baocai. Object Tracking in RGB-D Sequences Using a Spatio-Temporal Context Model[J]. Journal of Beijing University of Technology, 2021, 47(3): 224-230. DOI: 10.11936/bjutxb2020100005

基于时空上下文模型的RGB-D序列目标跟踪方法

基金项目: 

国家自然科学基金面上资助项目 61772049

北京市自然科学基金资助项目 4202003

详细信息
    作者简介:

    孔德慧(1968-), 女, 教授, 主要从事计算机图形学、模式识别、人工智能方面的研究, E-mail: kdh@bjut.edu.cn

  • 中图分类号: U461;TP308

Object Tracking in RGB-D Sequences Using a Spatio-Temporal Context Model

  • 摘要:

    为了实现更为精确的视频目标跟踪,提出一种以时空上下文模型为基础的RGB-D序列目标跟踪算法.通过引入更新模板的深度信息,该模型精准地区分了输入序列的目标区域与背景区域,实现了深度权值和颜色权值的融合;基于目标序列的深度及目标动量计算,该模型有效地实现了尺度更新与遮挡处理.通过在RGB-D图像序列数据集上的详细实验评估,该时空上下文模型相对于其他先进的同类方法表现出更好的性能.因此,该方法实现了更为精确可靠的视频目标跟踪.

    Abstract:

    To improve the precision of object tracking in videos, this work presented an RGB-D tracking method using a spatial-temporal context (STC) model. By introducing depth data, STC can clearly distinguish target from background in the context, and perform effective fusion of the depth weights and color weights. At the same time, based on the depth information and the target momentum, the proposed method is capable of adjusting scale and handling occlusions. As a result, the proposed tracker is able to produce precise prediction of target locations even when the target object is under severe occlusion. Comprehensive evaluations on challenging datasets demonstrate that the proposed tracker gives favorable performance over several state-of-the-art counterparts. Consequently, the proposed method in this work is capable of achieving more precise and reliable object tracking in videos.

  • 面向RGB图像序列的目标跟踪方法在计算机视觉领域的诸多问题上应用广泛. 然而,考虑到现实应用环境中的很多影响因素,例如目标对象被遮挡、外观形变、光照条件多变等,面向RGB图像序列的目标跟踪仍然存在精度低、鲁棒性差的问题. 近年来,伴随深度传感器技术的进步,许多高效捕获场景深度信息的设备(如微软Kinect相机)可使人们用较低的成本高效、准确地获得场景的深度信息. 相应地,面向RGB-D图像序列的目标跟踪技术也随之发展.

    目标跟踪技术大体可分为生成式目标跟踪和判别式目标跟踪. 生成式目标跟踪算法通过学习一种表观模型来表达跟踪目标,并在图像范围内搜索最好的匹配结果. 此类的经典算法包括基于均值漂移(mean-shift)的跟踪算法[1]和分块跟踪算法[2][3-6]. 而判别式方法将目标跟踪问题归为二分类问题,通过局部搜索,并判断图像块是目标还是背景,实现目标定位. 这其中囊括了基于online-boosting的跟踪算法[7]和基于在线多实例的跟踪算法等[7-11]. 目前,生成式和判别式算法逐渐混合,自适应学习模板匹配算法也逐渐兴起.

    2014年,文献[12]在时空上下文(spatio-temporal context,STC)学习算法基础上提出了加权的时空上下文(weighted spatio-temporal context, WSTC)学习算法. 该算法借助前后帧的光流估计,通过在时空上下文间进行搜索实现上下文信息的分级,达到了上下文信息中其他物体和目标的分离,提升了算法辨别目标和背景的能力.

    最近几年,深度信息在计算机视觉领域的物体检测、物体分割等方面广泛应用,但是在基于深度信息的视频跟踪领域中,目前成熟的算法还很少[13],且基于深度图的跟踪算法[14-15]刚开始兴起. 如何更好地利用深度信息这一新的数据,并和RGB信息融合,成为摆在人们面前的问题.

    2015年Chen等[16]提出了在RGB图中加入深度信息,形成三维空间上下文信息,从而实现在三维空间的快速上下文学习跟踪算法. 本文也采取基于上下文信息搜索的做法,在原有基于RGB信息的跟踪算法的基础上,通过获取深度图上下文和目标的信息并加入深度权重,实现了目标和背景的分离,并因此在背景变换、杂波发生、物体交叉、连续遮挡的情况下,仍可保证目标的准确跟踪.

    本文的主要贡献如下:

    1) 实现了一个基于自适应深度信息模板的上下文先验模型(context prior model)的跟踪算法.

    2) 实现了一个基于深度时域变化估算的遮挡检测及处理算法.

    3) 实现了一个基于深度信息的尺度更新算法.

    在STC算法中,通过计算彩色图的时空上下文,采用自适应学习的方法将上下文信息转换为概率置信图,再搜索概率置信图得到目标位置,并进行尺度更新.

    一般来说,跟踪方法需要计算出一个用以估计目标物体可能位置的置信图

    $$ m(x) = P(x|o) $$ (1)

    式中:m(·)为目标位置置信图,可表达为条件概率分布P(x|o);x∈ $ \mathbb{R}$2代表目标方位;o代表目标在场景中是否存在. 在最近的已处理帧中, 目标的位置x*已定. 据此,局部上下文特征Xc定义为

    $$ {X^{\rm{c}}} = \{ c(z) = (I(z),z)|z \in {\mathit{\Omega }_{\rm{c}}}({x^*})\} $$

    式中:I(z)为位置z处的图像灰度;Ωc(x*)是位置x*的近邻域,为目标物体大小的2倍. 通过边缘化联合概率P(x, c(z)|o),物体位置的可能性函数(1)可转化为

    $$ \begin{array}{*{20}{c}} {m(x) = P(x\mid o) = \sum\limits_{c(z) \in {X^{\rm{c}}}} P (x,c(z)\mid o) = }\\ {\sum\limits_{c(z) \in {X^{\rm{c}}}} P (x\mid c(z),o)P(c(z)\mid o)} \end{array} $$ (2)

    式中:P(x|c(z), o)描述目标物体位置和它上下文的空间关系;P(c(z)|o)为上下文的先验概率. 按此计算求得概率置信图,进而得到目标物体的位置. 然而,仅仅依靠低层次的彩色上下文特征,不足以将目标和背景完全区分,因而在处理复杂的遮挡和背景杂乱等情况时效果并不理想.

    本文通过在上下文模型构建中引入深度信息,实现了基于自适应深度信息模板的上下文先验模型; 在原有STC跟踪算法流程的基础上,添加了基于深度信息的尺度更新算法及遮挡检测、处理机制. 通过将目标跟踪状态分为未被严重遮挡和被严重遮挡2种情况,采用不同的方法分别处理,以实现更好的适应能力. 本目标跟踪方法的总体流程如图 1所示.

    图  1  时空上下文模型的算法流程
    Figure  1.  Flowchart of spatio-temporal context model

    本跟踪算法的核心是自适应的深度信息模板和上下文模型,其中深度信息模板又是计算上下文模型的关键. 对于深度信息模板,依照第1帧给定的目标检测框的方位和尺寸,求出目标检测框范围内的深度区间[d1d2],从而推算出跟踪目标所处深度范围. 在D1=[d1, d2]范围内,建立深度信息直方图,直方数为n. 分别计算每个直方元组中元素个数,并寻找出元素最多者(其元素个数计为tk),并求出其相对元素总数t的占比,记为

    $$ {\rm{rate}} = \frac{{{t_k}}}{t} $$ (3)

    如果rate≥c3(c3是超参数,实验中取0.5),则保存范围为[d1d2]=[d1d2],作为目标的初始深度模板. 如果rate<c3,则需要对该范围进行一定程度的放缩,即

    $$ {D_1} = [d_1^{\prime \prime },d_2^{\prime \prime }] = [d_1^\prime - c{k^\prime },d_2^\prime - c{k^\prime }] $$ (4)

    式中c是常数,k′从1开始渐增并重复以上直方图统计,直到rate≥c3,算法停止.

    而在之后的跟踪过程中,本方法在每帧跟踪计算结束后,根据当前跟踪目标检测框内的深度情况,对深度信息模板进行更新. 在获取当前帧后,计算目标检测框内深度均值avgt,再计算前后2帧均值深度差

    $$ {\rm{dv}}{{\rm{g}}_{t - 1}} = {\rm{av}}{{\rm{g}}_t} - {\rm{av}}{{\rm{g}}_{t - 1}} $$ (5)

    则更新后的深度信息模板有

    $$ {D_t} = {D_t} + \frac{1}{n}\sum\limits_{k = t - 1}^{t - 1} {{\rm{dv}}{{\rm{g}}_k}} $$ (6)

    通过式(6)可以得到每帧更新后的深度信息模板;而在跟踪计算中,由于并不清楚当前帧目标实际情况,因而采用上一帧Dt-1=[d1t-1d2t-1]的先验深度模板信息.

    在式(2)中,上下文先验概率与上下文的表观模型有关. 在原STC当中,上下文先验概率被简单表示为

    $$ P(c(z)\mid o) = I(z){w_\sigma }\left( {z - {x^*}} \right) $$ (7)

    式中:I(·)是上下文的图像灰度值;wσ(·)是高斯权重函数. 而在本文当中,为了利用深度信息实现对目标和背景的区分,将式(7)改写为

    $$ P(c(z)\mid o) = {c_1}I(z){w_\sigma }\left( {z - {x^*}} \right) + {c_2}{\mathit{\boldsymbol{W}}_{{\rm{d}}z[1]z[2]}} $$ (8)

    式中深度权重矩阵Wd各分量定义为

    $$ \begin{array}{*{20}{c}} {{W_{{\rm{d}}ij}} = \alpha \left( {\frac{\lambda }{{\min \left( {\left\| {{A_{ij}} - d_1^{t - 1}} \right\|,\left\| {{A_{ij}} - d_2^{t - 1}} \right\|} \right)}} + } \right.}\\ {\left. {\frac{{1 - \lambda }}{{\left\| {{A_{ij}} - {{{\mathop{\rm avg}\nolimits} }_{t - 1}}} \right\|}}} \right)} \end{array} $$ (9)

    式中:Aij为当前上下文中位置(i, j)的深度值;λ为系数;α为归一化参数. 通过融合深度和彩色权重,本方法进一步完善了上下文表观模型,使得目标和背景的区分更加明显,进而在背景复杂、剧烈变化或者背景和目标物体出现相似纹理特征时依然可以实现区分.

    在定义了上述置信图涉及的诸组成概率分布后,之后跟踪流程同STC算法一样.

    时空上下文Htstc的更新方式为

    $$ H_{t + 1}^{{\rm{stc}}} = (1 - \rho )H_t^{{\rm{stc}}} + \rho h_t^{{\rm{sc}}} $$ (10)

    式中:ρ为更新率;Htsc为第t帧的空间上下文. 通过采用快速傅里叶变换(fast Fourier transform, FFT), 第t+1帧的置信图mt+1(x)的计算式可表示为

    $$ {m_{t + 1}}(x) = {F^{ - 1}}\left( {F\left( {H_{t + 1}^{{\rm{stc}}}} \right) \odot F(P(c(z)\mid o))} \right) $$ (11)

    式中:F为傅里叶变换;F-1为傅里叶逆变换;⊙为Hadamard积.

    本节讨论并分析目标物体在当前帧位置确定以后目标检测框尺度的变化. 这里假设目标物体未被严重遮挡;而当物体可能被严重遮挡导致计算不可信时,则采取1.3节中介绍的遮挡检测和处理的方法.

    在处理第1帧时,可以得到目标物体实际的尺度S1,以及根据式(4)得到D1=(h′,w′). 定义比值变量

    $$ {d_1} = \frac{{{S_1}}}{{D_1^\prime }} $$ (12)

    在之后的跟踪计算中,第t帧的计算有

    $$ \left\{ {\begin{array}{*{20}{l}} {{S_t} = (1 - \lambda ){S^\prime }_t + \lambda \bar S_{t - 1}^n}\\ {{S^\prime }_t = {D^\prime }_t * {d_t}}\\ {{d_t} = (1 - \lambda ){d^\prime }_t + \lambda \bar d_{t - 1}^n}\\ {{d^\prime }_t = \frac{{{S_{t - 1}}}}{{{D^\prime }_t}}}\\ {\bar S_{t - 1}^n = \frac{1}{n}\sum\limits_{k = 1}^n {{S_{t - k}}} }\\ {\bar d_{t - 1}^n = \frac{1}{n}\sum\limits_{k = 1}^n {{d_{t - k}}} } \end{array}} \right. $$ (13)

    式中:St为第t帧计算所得目标尺度;D′t为第t帧模糊尺度(模糊尺度是在上下文计算中,依据深度信息模板划分出的目标大概的尺度).

    为处理目标被遮挡的问题,本方法在STC算法中获取RGB上下文信息,使得整个算法对于局部遮挡有了一定的容错性. 但是若出现明显的大幅遮挡、交叉遮挡甚至长时间连续遮挡,包括STC算法在内,绝大多数基于RGB信息的跟踪算法都会预测错误.

    在深度图信息引入之前,大多数的跟踪算法并不会直接判断遮挡,而是采取自适应的方法来处理遮挡的情况. 在引入深度信息之后,在深度图上对于遮挡的检测甚至处理成为了可能. 快速上下文跟踪算法通过保存连续多帧深度信息并依据深度变化的连续性来断定遮挡是否发生[16]. 若目标在某帧出现遮挡,则将最近的深度连续的位置用作新的目标中心. 若出现长时间连续遮挡,且目标存在移动动量,则这种找寻方法有不稳定性.

    考虑到STC原始算法对于遮挡有一定的容错性,所以在目标没有被大幅遮挡时,由算法自适应解决即可. 本方法通过计算遮挡率()来评估遮挡. 遮挡率定义为

    $$ \partial = \frac{{n_t^\prime }}{{{n_t}}} $$ (14)

    式中:n′t是复合深度信息模板中目标检测框内像素的个数;nt是目标检测框像素总个数. 当小于常数σ时,不使用遮挡处理算法,因为计算得到的当前目标物体的位置和尺度可信. 而当σ时,目标位置跟踪计算所得值的不可信度大增,需要进行遮挡处理. 由于物体的移动轨迹和运动状态具有连续性,因而可以根据连续多帧间目标物体移动的动量来预测第t帧内被遮挡目标的位置.

    定义第t帧的动量Mtt

    $$ {\rm{M}}{{\rm{t}}_t} = x_{t + 1}^* - x_t^* $$ (15)

    则可大概推测当前第t帧被遮挡目标的位置为

    $$ \begin{array}{*{20}{c}} {x_t^* = x_{t - 1}^* + \frac{{\left( {{\rm{M}}{{\rm{t}}_{t - 2}} + {\rm{M}}{{\rm{t}}_{t - 3}}} \right)}}{2} = }\\ {x_{t - 1}^* + \frac{{\left( {x_{t - 1}^* - x_{t - 2}^* + x_{t - 2}^* - x_{t - 3}^*} \right)}}{2} = }\\ {x_{t - 1}^* + \frac{{\left( {x_{t - 1}^* - x_{t - 3}^*} \right)}}{2}} \end{array} $$ (16)

    同时由于被遮挡目标的尺寸变化无法准确预测,当前帧的目标尺寸继承上一帧的尺寸,且保持之前的尺度变化参数和深度模板更新变化量,即

    $$ \left\{ {\begin{array}{*{20}{l}} {{S_t} = {S_{t - 1}}}\\ {{d_t} = {d_{t - 1}}}\\ {{\rm{dv}}{{\rm{g}}_{t - 1}} = {\rm{dv}}{{\rm{g}}_{t - 2}}} \end{array}} \right. $$ (17)

    经过式(16)的处理后,跟踪目标的长时连续遮挡、短时交叉遮挡问题均可得到解决;而当 < σ后,则可以继续执行跟踪算法流程. 图 2展示了本算法遮挡检测和处理的实验结果,图(a)反映了目标被遮挡的遮挡率在视频序列上的变化过程,相应主观跟踪效果如图(b)所示.

    图  2  遮挡检测及处理效果
    Figure  2.  Illustration of occlusion detection and handling

    本文基于Princeton RGB-D数据集的22组RGB-D数据进行跟踪算法的性能评估,这些数据涵盖遮挡(heavy occlusion)、交叉遮挡(cross shade)、背景杂波(background clutter)、尺度变化(scale variation)、剧烈形变(drastic deformation)等情况,总计4335帧. 此外,对该数据集中不含标注的数据进行了人工标注. 对于目标被遮挡的情况,本文以目标实际所在位置和尺度为准. 本文以STC算法为基准进行了对比,且与最近发表的基于RGB信息的跟踪算法[9, 7]进行了对比. 实验所用硬件配置为Intel core i7-4790 CPU及8G RAM.

    实验结果的量化评价采用当前跟踪算法测试常用的2个标准:中心位置误差(center location error, CLE)和跟踪成功率(success rate, SR);评价结果依赖于每帧标注信息. CLE度量跟踪结果的目标中心点与实际目标中心点距离. SR首先定义每帧的得分score,且

    $$ \begin{array}{c} {\rm{score = }}\\ \left\{\begin{array}{ll} \frac{\operatorname{area}\left(\mathrm{ROI}_{\mathrm{T}_{i}} \cap \mathrm{ROI}_{\mathrm{G}_{i}}\right)}{\mathrm{area}\left(\mathrm{ROI}_{\mathrm{T}_{i}} \cup \mathrm{ROI}_{\mathrm{G}_{i}}\right)}, & \text { 其他情况 } \\ 1, & \text { 若 } \mathrm{ROI}_{\mathrm{T}_{i}} \text { 与 } \mathrm{ROI}_{\mathrm{G}_{i}} \text { 完全重叠 } \\ 0, & \text { 若 } \mathrm{ROI}_{\mathrm{T}_{i}} \text { 与 } \mathrm{ROI}_{\mathrm{G}_{i}} \text { 不重叠 } \end{array}\right. \end{array} $$ (18)

    式中:ROITi是第i帧目标跟踪框;ROIGi是第i帧实际目标框. 当ROITi与ROIGi完全重合时,score为1;完全不重合时,score为0;部分重合时,score为0~1. 在所有实验中,重叠比例(overlap ratio)阈值为Rt=0.5. 若score>Rt,则该帧跟踪成功,否则跟踪失败. SR最终定义为整个视频序列上跟踪的成功率.

    实验的量化结果见表 1. 本方法在绝大多数的情况下效果比其他方法好,特别在长时遮挡的数据上有显著提升. 在22组数据的SR对比中,本方法有2组比其他方法差,并且在本方法实验结果好的组中,有13组超过了0.50,有6组超过了0.85,有1组达到了1.00;平均SR比其他对比方法高出1倍. 而在CLE的对比中,本方法有19组比其他方法好;其中误差20.0以内的有10组,10.0以内的有3组,且其中有1组误差接近1.0. 平均CLE比其他对比方法低. 对于跟踪速度,本算法比其他算法稍慢些,但在可接受范围内. 部分主观的跟踪效果见图 3;此3组都是从Princeton数据集中选出;从上往下分别是“new_ex_occ3”“two_people_1.1”“walking_occ1”;其中红色目标检测框是本文方法所得,蓝色是STC,绿色是CT,黄色是CSK.

    表  1  不同序列目标跟踪量化评估结果
    Table  1.  Quantitative results of target tracking for different sequences
    视频序列 不利因素 SR CLE
    STC CT CSK 本方法 STC CT CSK 本方法
    bear_change occlusion、cross shade、scale 0.081 0.255 0.257 0.375 127.550 69.759 114.483 35.099
    bear_front occlusion、cross shade、scale 0.121 0.135 0.146 0.470 164.986 116.268 126.006 23.548
    cafe_occ1 occlusion、cross shade、
    background clutter
    0.036 0.036 0.071 0.389 304.206 340.815 274.330 144.049
    cc_occ1 occlusion、cross shade、scale 0.075 0.081 0.075 0.625 235.884 180.785 168.368 28.372
    cf_difficult occlusion、shade、scale、
    background clutter、deformation
    0.140 0.198 0.182 0.405 145.611 107.347 144.951 19.448
    cf_no_occ background clutter 0.606 0.788 0.561 0.906 9.949 18.799 75.830 12.860
    cf_occ2 occlusion、cross shade、
    background clutter、scale、
    deformation
    0.156 0.222 0.200 0.244 194.230 232.306 173.732 210.015
    cf_occ3 occlusion、cross shade、
    background clutter
    0.348 0.696 0.348 0.706 148.736 19.237 162.308 15.675
    face_occ2 occlusion、scale 0.196 0.111 0.791 0.883 232.479 111.269 18.786 14.351
    face_occ5 occlusion 0.494 0.500 0.945 0.888 69.514 68.826 4.483 7.574
    new_ex_occ1 occlusion、cross shade、
    background clutter、deformation
    0.020 0.069 0.196 0.793 320.627 319.694 359.357 29.620
    new_ex_occ3 occlusion、cross shade、
    background clutter
    0.245 0.245 0.265 0.750 259.989 252.557 249.746 18.326
    new_ex_occ4 occlusion、cross shade、
    background clutter、scale
    0.490 0.529 0.510 0.627 94.990 98.683 85.338 16.565
    new_ex_occ5_long occlusion、cross shade、
    background clutter、scale、
    deformation
    0.151 0.188 0.198 0.482 209.094 122.691 159.786 36.231
    new_ex_occ6 occlusion、cross shade、
    background clutter
    0.458 0.438 0.479 0.125 163.385 170.387 150.225 132.720
    new_ex_occ7.1 occlusion、cross shade、
    background clutter、scale
    0.121 0.431 0.448 0.655 201.023 172.448 151.611 20.409
    studentcenter2.1 occlusion、cross shade、
    background clutter、scale
    0.229 0.265 0.035 0.378 169.677 257.876 296.190 78.217
    two_people_1.1 occlusion、cross shade、
    background clutter、deformation
    0.027 0.207 0.230 0.619 313.145 186.969 160.501 20.406
    two_people_1.2 occlusion 0.334 0.051 0.202 1.000 70.977 205.839 102.485 1.146
    two_people_1.3 occlusion 0.693 0.059 0.114 0.209 26.246 178.224 242.460 19.422
    walking_occ1 occlusion、cross shade、
    deformation
    0.662 0.338 0.353 0.985 81.739 209.548 210.859 7.140
    zcup_move_1 scale 0.830 0.827 0.824 0.851 7.662 13.207 13.662 31.916
    平均值 0.296 0.303 0.338 0.607 161.441 156.979 156.613 41.960
    帧率 28.169 19.481 226.614 13.184
    下载: 导出CSV 
    | 显示表格
    图  3  在3个Princeton序列上的主观跟踪效果
    Figure  3.  Qualitatitve results of target tracking for three sequences in Princeton dataset

    1) 通过对快速上下文STC算法进行改进,引入深度信息,利用实时更新的深度信息模板,从而更好地区分目标和背景.

    2) 引入尺度更新算法和遮挡处理算法,使跟踪器在出现大幅遮挡、交叉遮挡、长时间遮挡的情况下表现出明显的性能提升.

    但是,本文方法在保证较高的精确性和鲁棒性的情况下,处理速度略微降低. 未来工作中,可以在兼顾时间性能的情况下,利用上下文中RGB轮廓和深度轮廓融合进一步提升跟踪精确度和鲁棒性.

  • 图  1   时空上下文模型的算法流程

    Figure  1.   Flowchart of spatio-temporal context model

    图  2   遮挡检测及处理效果

    Figure  2.   Illustration of occlusion detection and handling

    图  3   在3个Princeton序列上的主观跟踪效果

    Figure  3.   Qualitatitve results of target tracking for three sequences in Princeton dataset

    表  1   不同序列目标跟踪量化评估结果

    Table  1   Quantitative results of target tracking for different sequences

    视频序列 不利因素 SR CLE
    STC CT CSK 本方法 STC CT CSK 本方法
    bear_change occlusion、cross shade、scale 0.081 0.255 0.257 0.375 127.550 69.759 114.483 35.099
    bear_front occlusion、cross shade、scale 0.121 0.135 0.146 0.470 164.986 116.268 126.006 23.548
    cafe_occ1 occlusion、cross shade、
    background clutter
    0.036 0.036 0.071 0.389 304.206 340.815 274.330 144.049
    cc_occ1 occlusion、cross shade、scale 0.075 0.081 0.075 0.625 235.884 180.785 168.368 28.372
    cf_difficult occlusion、shade、scale、
    background clutter、deformation
    0.140 0.198 0.182 0.405 145.611 107.347 144.951 19.448
    cf_no_occ background clutter 0.606 0.788 0.561 0.906 9.949 18.799 75.830 12.860
    cf_occ2 occlusion、cross shade、
    background clutter、scale、
    deformation
    0.156 0.222 0.200 0.244 194.230 232.306 173.732 210.015
    cf_occ3 occlusion、cross shade、
    background clutter
    0.348 0.696 0.348 0.706 148.736 19.237 162.308 15.675
    face_occ2 occlusion、scale 0.196 0.111 0.791 0.883 232.479 111.269 18.786 14.351
    face_occ5 occlusion 0.494 0.500 0.945 0.888 69.514 68.826 4.483 7.574
    new_ex_occ1 occlusion、cross shade、
    background clutter、deformation
    0.020 0.069 0.196 0.793 320.627 319.694 359.357 29.620
    new_ex_occ3 occlusion、cross shade、
    background clutter
    0.245 0.245 0.265 0.750 259.989 252.557 249.746 18.326
    new_ex_occ4 occlusion、cross shade、
    background clutter、scale
    0.490 0.529 0.510 0.627 94.990 98.683 85.338 16.565
    new_ex_occ5_long occlusion、cross shade、
    background clutter、scale、
    deformation
    0.151 0.188 0.198 0.482 209.094 122.691 159.786 36.231
    new_ex_occ6 occlusion、cross shade、
    background clutter
    0.458 0.438 0.479 0.125 163.385 170.387 150.225 132.720
    new_ex_occ7.1 occlusion、cross shade、
    background clutter、scale
    0.121 0.431 0.448 0.655 201.023 172.448 151.611 20.409
    studentcenter2.1 occlusion、cross shade、
    background clutter、scale
    0.229 0.265 0.035 0.378 169.677 257.876 296.190 78.217
    two_people_1.1 occlusion、cross shade、
    background clutter、deformation
    0.027 0.207 0.230 0.619 313.145 186.969 160.501 20.406
    two_people_1.2 occlusion 0.334 0.051 0.202 1.000 70.977 205.839 102.485 1.146
    two_people_1.3 occlusion 0.693 0.059 0.114 0.209 26.246 178.224 242.460 19.422
    walking_occ1 occlusion、cross shade、
    deformation
    0.662 0.338 0.353 0.985 81.739 209.548 210.859 7.140
    zcup_move_1 scale 0.830 0.827 0.824 0.851 7.662 13.207 13.662 31.916
    平均值 0.296 0.303 0.338 0.607 161.441 156.979 156.613 41.960
    帧率 28.169 19.481 226.614 13.184
    下载: 导出CSV
  • [1]

    COLLINS R T. Mean-shift blob tracking through scale space[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2003: 234-240.

    [2]

    ADAM A, RIVLIN E, SHIMSHONI I, et al. Robust fragments-based tracking using the integral histogram[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2006: 798-805.

    [3]

    COLLINS R T, LIU Y, LEORDEANU M, et al. Online selection of discriminative tracking features[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(10): 1631-1643. doi: 10.1109/TPAMI.2005.205

    [4]

    ROSS D A, LIM J, LIN R, et al. Incremental learning for robust visual tracking[J]. International Journal of Computer Vision, 2008, 77(1): 125-141.

    [5]

    KWON J, LEE K M. Visual tracking decomposition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2010: 1269-1276.

    [6]

    KWON J, LEE K M. Tracking by sampling trackers[C]//International Conference on Computer Vision. Piscataway: IEEE, 2011: 1195-1202.

    [7]

    ZHANG K, ZHANG L, YANG M, et al. Real-time compressive tracking[C]//European Conference on Computer Vision. Zurich: ECVA, 2012: 864-877.

    [8]

    BABENKO B, YANG M, BELONGIE S, et al. Robust object tracking with online multiple instance learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1619-1632. doi: 10.1109/TPAMI.2010.226

    [9]

    HENRIQUES J F, CASEIRO R, MARTINS P, et al. Exploiting the circulant structure of tracking-by-detection with kernels[C]//European Conference on Computer Vision. Zurich: ECVA, 2012: 702-715.

    [10]

    KALAL Z, MATAS J, MIKOLAJCZYK K, et al. P-N learning: bootstrapping binary classifiers by structural constraints[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2010: 49-56.

    [11]

    HARE S, SAFFARI A, TORR P H, et al. Struck: structured output tracking with kernels[C]//International Conference on Computer Vision. Piscataway: IEEE, 2011: 263-270.

    [12]

    XU J, LU Y, LIU J, et al. Robust tracking via weighted spatio-temporal context learning[C]//International Conference on Image Processing. Piscataway: IEEE, 2014: 413-416.

    [13]

    SONG S, XIAO J. Tracking revisited using RGBD camera: unified benchmark and baselines[C]//International Conference on Computer Vision. Piscataway: IEEE, 2013: 233-240.

    [14]

    ALAMSYAH D, FANANY M I. Particle filter for 3D fingertips tracking from color and depth images with occlusion handling[C]//International Conference on Advanced Computer Science and Information Systems. Piscataway: IEEE, 2013: 445-449.

    [15]

    ZHANG K, ZHANG L, LIU Q, et al. Fast visual tracking via dense spatio-temporal context learning[C]//European Conference on Computer Vision. Zurich: ECVA, 2014: 127-141.

    [16]

    CHEN Z, LUO L, WEN M, et al. Fast tracking via context depth model learning[C]//International Conference on Image Processing. Piscataway: IEEE, 2015: 4215-4218.

  • 期刊类型引用(1)

    1. 张博. 基于决策树分类的视觉目标精准跟踪算法. 探测与控制学报. 2022(06): 87-92 . 百度学术

    其他类型引用(1)

图(3)  /  表(1)
计量
  • 文章访问数:  238
  • HTML全文浏览量:  8
  • PDF下载量:  72
  • 被引次数: 2
出版历程
  • 收稿日期:  2020-10-14
  • 网络出版日期:  2022-08-03
  • 发布日期:  2021-03-09
  • 刊出日期:  2021-03-09

目录

/

返回文章
返回