Saliency Detection Based on Depth Selective Difference and Background Prior
-
摘要:
为了解决基于二维图像的显著性检测方法中出现的光噪声、前景背景相似、多目标遮挡等问题,有效地突出显著区域并抑制背景区域,基于颜色、深度信息提出一种基于深度选择性差异及背景先验的显著性检测模型.首先,根据深度图质量进行颜色以及深度特征所占比例的调节;其次,依据深度图的内在特性,计算图像的基于深度选择性差异的显著性;然后,基于所获取的边界背景集合和基于深度先验的背景集合,计算图像的基于背景先验的显著性;最后,对前期得到的2个显著图进行融合及调整,并对显著图进行优化,得到最终的显著性检测结果.实验结果表明,该模型能较好地反映颜色以及深度信息对显著性检测的影响,计算结果更符合人类视觉.
Abstract:Depth information plays an important role in the human visual system. Based on color and depth features, a saliency detection model was proposed in this paper based on depth selective difference and prior background prior. First, the proportion of color and depth features was adjusted according to the quality of depth map. Second, the saliency map based on depth selectivity difference was calculated according to the intrinsic characteristics of depth map.Then, based on the acquired boundary background set and depth prior background set, a saliency detection method was presented based on prior background prior. Finally, the two saliency maps obtained in the previous period were fused and adjusted, and the saliency maps were optimized to obtain the final saliency detection result. Experiments on two publicly available datasets show that the proposed method performs better than that of other state-of-the-art approaches.
-
视觉显著性检测也被称为视觉注意,是指在视觉处理的早期阶段,利用图像中的显著区域迅速抓住观众注意力的主观感知[1].显著性检测在计算机视觉领域有着广泛应用,包括目标检测、图像检索、图像压缩和图像重定向等.显著性检测方法可以分为自底向上(数据驱动)和自顶而下(任务驱动)2种[2],本文主要研究自底向上的显著性检测模型.
显著性检测的目的在于有效地突出显著区域并且抑制背景区域.目前,图像显著性检测的方法大多是基于颜色、形状、方向、纹理和曲率等特征对比计算显著性[3-9].若显著目标未表现出以上可区分的视觉特征时,上述方法则很难检测到显著目标.
三维视觉信息为显著性检测提供了非常有用的深度线索[10],利用深度信息可以识别出与背景具有相似视觉特征的显著物体.基于深度信息的显著性检测模型可分为以下几种:将深度图作为第4通道[11-14],采用已有2D显著性模型改进显著图;利用深度图构建3D布局[15],以此获取显著图;根据深度图特性,计算其前景和背景之间的深度差异[16-17],获取显著图.此外,可以结合多种偏好对基于深度对比的计算结果进行优化[10, 12]. Niu等[16]提出了基于全局视差对比和立体摄影领域知识的显著性检测模型. Ju等[10, 17]提出了基于深度感知的显著性检测方法,采用各向异性中心环绕差(anisotropic center-surround difference, ACSD)测量显著性.
另外,与现有的大多数显著性检测方法主要基于目标与背景区域之间具有较高的特征反差进行显著性检测不同,背景先验是从另一个角度进行显著性检测,即通过寻找并剔除图像中的背景区域,从而获得精确的显著性检测结果[7, 13, 18-21].背景先验主要是基于边界优先(boundary prior)和连通性优先(connectivity prior)提出来的.基于背景先验的显著性检测模型可分为以下几种:将图像的边界作为初始背景[7],以此为依据计算图像的显著性;基于图像区域与图像边界的连通性[12, 19]获取图像的显著图;指定部分区域作为初始背景[13, 18],通过衡量区域与初始背景的差异计算该区域的显著值;此外,可以对图像边界的背景区域进行修正,在获得位于图像边界的真正背景之后,再进行显著性检测[20-21]. Yang等[7]利用边界优先知识,基于图像的4个边界分别进行流形排序得到4幅显著图,并将这4幅显著图进行融合获得图像的初始显著图;Peng等[13]简单地选择图像的4个角区域作为伪背景(pseudo-background),通过衡量其他区域与伪背景之间的差异,获得该区域的显著值. Zhu等[19]依据图像的边界连通性计算图像的显著性. Wang等[21]认为目标有可能占据图像的一个边界,通过移除图像的4个边界中最独特的一个边界,获得边界背景区域.
通过分析发现,传统的基于深度对比计算显著性的方法,大都是采用二维图像中颜色特征对比的思路计算像素点与其他像素点间的深度差异,以此计算该像素点显著值,并未深入分析深度图所具有的内在特性.传统的基于背景先验的显著性检测方法,仅依据图像区域与边界的连通性进行背景区域检测,虽然可以检测到位于图像边界的背景区域,但是当显著目标接触图像边界时,该显著目标的显著值则会降低,甚至会被误检为背景区域.
为了解决上述问题,本文提出一种基于深度选择性差异及背景先验的显著性检测模型.该模型首先深入分析深度图的内在特性,计算图像的基于深度选择性差异的显著值;然后,分别获取边界背景集合和基于深度先验的背景集合,并基于所获取的背景集合构建图模型,从而计算图像的基于背景先验的显著值;最后,将两者融合及调整,并对显著图进行优化得到最终的显著性检测结果.
1. 基于深度选择性差异及背景先验的显著性检测模型
本文提出的基于深度选择性差异及背景先验的显著性检测模型包括:预处理、基于深度选择性差异的显著性计算、基于背景先验的显著性计算、显著性融合及调整、显著图的优化,模型的流程如图 1所示.
1.1 预处理
为提高计算效率,本文采用简单线性迭代聚类(simple linear iterative clustering, SLIC)[9]方法将输入的彩色图像分成若干超像素区域.每个超像素区域能够很好地代表图像的局部结构, 选取超像素区域内所有像素点特征值的平均值作为该超像素区域的特征值.
超像素区域的数量对于检测结果的性能有很大影响,因为太大的超像素区域会丢失图像的细节信息,而过小的超像素区域又容易受到噪声和误差的影响,同时也会增加计算时间.本文将每幅图像的超像素区域数量设定为图像对角线上的像素数[10],这就可根据图像尺寸自适应确定超像素区域的数量.
同时,深度图质量的好坏对基于深度特征的显著性检测方法的检测效果有较大的影响.质量好的深度图可以为显著性检测提供精确的深度信息.反之,质量较差的深度图则会导致错误的检测结果.本文采用Cong等[22]提出的深度图质量评估方法,获得深度图像的质量评估,并依据深度图像的质量评估,对颜色特征和深度特征在最终检测特征中所占比例进行动态调整,定义最终的图像检测特征为
$$ {I_i} = (1 - \lambda ){c_i} + \lambda {d_i} $$ (1) 式中:Ii为图像中像素点pi的特征值;λ为深度图像质量的评估结果;ci和di分别为像素点pi的颜色特征以及深度特征.
1.2 基于深度选择性差异的显著性计算
在图像中,与周围物体对比度大的区域更容易吸引人们的注意力.同时,空间关系在视觉注意中也起到非常重要的作用,相邻区域的高对比度更容易使一个区域引起视觉注意[1]. Cheng等[1]结合空间关系和区域级对比度提出一种区域对比度(region contrast, RC)方法.本文借鉴RC方法进行基于深度选择性差异的显著性计算,定义任意超像素区域Ri基于深度选择性差异的显著值Sd (Ri)为
$$ {S_{\rm{d}}}\left( {{R_i}} \right) = \sum\limits_{{R_k} \in {C_L}\left( {{R_i}} \right)} {{W_{{\rm{dis}}}}} \left( {{R_i},{R_k}} \right)D\left( {{R_i},{R_k}} \right) $$ (2) 式中:CL(Ri)为区域Ri的邻域,L为邻域半径;D(Ri, Rk)为超像素区域Ri、Rk之间的深度对比度;Wdis(Ri, Rk)为超像素区域Ri、Rk之间的空间距离权值.
与基于颜色对比的方法类似,本文通过计算区域中像素之间的差异均值得到两区域间的对比度
$$ D\left( {{R_i},{R_k}} \right) = \frac{{\sum\limits_{p \in {R_i},q \in {R_k}} {{D_{{\rm{dis}}}}} (p,q)}}{{{n_i}{n_k}}} $$ (3) 式中:Ddis(p, q)为像素点p、q之间的深度差异值;ni、nk分别为超像素区域Ri、Rk中像素点的个数.
在二维图像中,不能确定目标和背景在颜色值上的关系,只能通过像素点之间颜色对比的绝对差异来确定其显著值.而对于深度图特性,目标一定是在部分背景的前面,因此,在进行深度对比时,可以根据深度值大小选择性地比较,从而确定其显著值.据此计算像素点间的深度选择性差异为
$$ {D_{{\rm{dis }}}}(p,q) = \left\{ {\begin{array}{*{20}{l}} {{d_p} - {d_q},}&{{d_p} - {d_q} > 0}\\ {0,}&{{d_p} - {d_q} \le 0} \end{array}} \right. $$ (4) 式中dp、dq分别为像素点p、q的深度值.
超像素区域之间的距离权值同样可依据区域中每个像素点之间的空间距离得到,此处定义像素点p、q之间的空间距离为
$$ {W_{{\rm{dis }}}}(p,q) = \exp \left( { - {D_{\rm{s}}}(p,q)/{\sigma ^2}} \right) $$ (5) 式中:图像坐标归一化到[0, 1];Ds(p, q)为像素p、q的空间距离;参数σ2为用于控制空间距离权值的强度.
综上所述,基于深度选择性差异的显著性计算公式可以转化为
$$ {S_{\rm{d}}}\left( {{R_i}} \right) = \sum\limits_{{R_k} \in {C_L}\left( {{R_i}} \right)} {\frac{{\sum\limits_{p \in {R_i},q \in {R_k}} {{D_{{\rm{dis}}}}} (p,q){W_{{\rm{dis}}}}(p,q)}}{{{n_i}{n_k}}}} $$ (6) 由式(6)可知,图像中每个像素点都与其所在区域邻域内所有像素点进行了对比,设图像中有N个像素点,当L取图像对角线长度时,计算整幅图像的显著值,其算法复杂度为O(N2),很明显,此时计算是高度冗余的.虽然划分了图像区域,但依然是根据像素点之间的对比来计算显著值.
通过观察发现,在深度图像中,同一区域内像素点的深度值具有连续性.本文选取区域内平均深度值进行区域对比,定义两区域间的深度对比值为区域间平均深度值的对比,两区域间空间距离为区域之间质心处的距离.简化后,区域Ri的基于深度选择性差异的显著值Sd (Ri)为
$$ \begin{array}{*{20}{c}} {{S_{\rm{d}}}\left( {{R_i}} \right) = \sum\limits_{{R_k} \in {C_L}\left( {{R_i}} \right)} {\exp } \left( { - {D_{\rm{s}}}\left( {{\rm{ce}}{{\rm{n}}_i},{\rm{ce}}{{\rm{n}}_j}} \right)/{\sigma ^2}} \right) \cdot }\\ {{D_{{\rm{dis}}}}\left( {{d_{{\rm{Avg}}}}\left( {{R_k}} \right),{d_{{\rm{Avg}}}}\left( {{R_k}} \right)} \right)} \end{array} $$ (7) 式中:dAvg(Ri)、dAvg(Rk)分别为超像素区域Ri、Rk的平均深度;ceni、cenk分别为超像素区域Ri、Rk的质心.
区域Ri的质心坐标ceni=[bix, biy]和区域Ri的平均深度值dAvg(Ri)定义如下:
$$ \begin{array}{*{20}{c}} {b_i^x = \frac{{\sum\limits_{p \in {R_i}} {{p^x}} }}{{{n_i}}}}\\ {b_i^y = \frac{{\sum\limits_{p \in {R_i}} {{p^y}} }}{{{n_i}}}}\\ {{d_{{\rm{Avg}}}}\left( {{R_i}} \right) = \frac{{\sum\limits_{p \in {R_i}} {{d_p}} }}{{{n_i}}}} \end{array} $$ (8) 式中:p为区域Ri中的像素点;[px, py]为像素点p的空间坐标;dp为像素点p的深度值;ni为区域Ri中像素点个数.
此时,设图像被分割为M个超像素区域,计算整幅图像的显著值时,其算法复杂度为O(M2),而M≪N,大大提高了计算效率.
图 2展示了基于深度选择性差异的显著性检测结果,发现当L取对角线长度1/3时,得到的显著图更符合期望.
1.3 基于背景先验的显著性计算
Zhu等[19]提出通过判断图像区域与图像边界的连通性,可计算出该区域属于背景的概率,并指出:背景区域的边界连通性数值较大,前景区域的边界连通性数值较小.因此,对于给定区域,如果其边界连通性数值越大,则其属于背景区域的可能性越大.
通过分析发现,Zhu等[19]提出的鲁棒性背景检测显著优化(saliency optimization from robust background detection,SORBD)方法[19], 单纯依据图像区域与图像边界的连通性进行背景区域检测,虽然可以有效地检测到位于图像边界的背景区域,但是当显著目标接触图像边界时,该显著目标的显著值则会降低,甚至会将其误检测为背景区域.
为了解决上述问题,本文对SORBD方法[19]进行了以下改进:
1) 由于SORBD方法[19]认为图像边界处的所有超像素区域均属于背景,所以当显著目标接触图像边界时,其显著值会降低,甚至会被误检为背景区域.因此,本文将生成更精确的边界背景集合B1,从而可有效地消除显著目标接触图像边界时的误检.
2) 通过观察发现,当位于图像内部且属于背景的超像素区域与位于图像边界的超像素区域有较大的特征差异时,SORBD方法[19]会将其误检测为目标.因此,本文将基于深度选择性差异获得的显著值生成基于深度先验的背景集合B2,从而可以获得部分位于图像内部的背景区域.
基于以上改进,本文给出了一种基于背景先验的显著性检测方法.该方法包含以下步骤:
1) 选取位于图像四角上的超像素区域作为4个基准背景,并将每个基准背景所包含像素的平均颜色特征值作为该基准背景的特征.
2) 通过衡量位于图像边界的每个超像素区域与4个基准背景之间的颜色特征差异,对位于边界的所有超像素区域进行是否属于背景的筛选操作,并依据区域紧凑性,对筛选结果进行进一步的筛选,从而获得更精确的边界背景集合B1.
3) 根据图像中每个超像素区域的基于深度选择性差异的显著值,获取基于深度先验的背景集合B2,从而获得部分位于图像内部的背景区域.
4) 依据图像的超像素区域集合、边界背景集合和基于深度先验的背景集合构建图模型.
5) 依据构建的图模型及边界连通性原理,计算图像中每个超像素区域基于背景先验的显著值.
1.3.1 获取边界背景集合B1
SORBD方法[19]将图像的4个边界区域作为边界背景集合,当目标接触图像边界时,若直接选取图像边界范围的超像素区域作为边界背景集合,则会将该目标加入到边界背景集合中,给显著性检测带来负面影响.为获取更精确的边界背景集合,本文通过2次筛选,剔除图像边界上的前景噪声,以此减少显著目标接触边界时所产生的影响.
本文首先将图像边界处的所有超像素区域构成初始边界背景集合,再对该集合进行2次筛选,得到更精确的边界背景集合B1,主要流程如图 3所示.
1) 特征差异筛选
通常情况下,目标不会位于图像的4个角区域,因此,本文选择图像的4个角区域作为4个基准背景.在第一次特征差异筛选时,计算初始的边界背景集合中的每个超像素区域与4个基准背景之间的颜色特征差异,从而判断该超像素区域是目标还是背景.
通过观察发现,位于图像边界的超像素区域与4个基准背景之间的颜色特征差异存在以下情况:
a) 如果该超像素区域属于目标,那么它与4个基准背景的特征差异应该都很大,则这4个特征差异值的波动较小,且其均值较大.
b) 如果该超像素区域属于背景,会有2种情况:一是该超像素区域与4个基准背景的特征差异有大有小,则这4个特征差异值的波动较大,且其均值可能大也可能小;二是该超像素区域与4个基准背景的特征差异都很小,则这4个特征差异值的波动较小,且其均值也较小.
如图 4(a)(b)中红色虚线标注的区域所示,当目标接触图像边界时,位于图像边界的目标超像素区域与图像的4个基准背景的特征差异都很大;如图 4(c)所示,当图像中有天空和草地时,初始边界背景集合中的背景超像素区域与其中2个基准背景的特征差异较大,而与另外2个基准背景的特征差异较小;如图 4(d)所示,当图像的4个基准背景具有相似特征时,初始边界背景集合中的背景超像素区域与4个基准背景的特征差异都较小.
基于以上分析,本文将超像素区域与4个基准背景间的颜色特征差异值的大小以及波动性通过均值、方差来体现,定义位于图像边界的超像素区域与4个基准背景比较的目标筛选条件为:
a) 与4个基准背景相比,特征差异的均值大于阈值μ.
b) 与4个基准背景相比,特征差异的方差小于阈值ν.
通过对初始边界背景集合中的每个超像素区域进行筛选,找到同时满足上述2个条件的超像素区域,即得到初选的边界目标超像素区域集合,初始边界背景集合中的其他超像素区域则为与4个基准背景相似的一般边界背景集合.
2) 紧凑性筛选
经特征差异筛选后得到初选边界目标超像素区域集合,可能包含真正的边界目标超像素区域,也可能包含一些属于特殊背景的超像素区域,如图 4(b)中黄色虚线标注的区域所示.因此,本文根据超像素区域的紧凑性,对初选的边界目标超像素区域集合进一步筛选,获得更精确的边界背景集合B1.
通过观察发现,一般情况下,目标区域的紧凑性较高,背景区域的紧凑性较差,因此,本文利用紧凑性对初选的边界目标超像素区域集合进行筛选,从而筛选出特殊背景.紧凑性的目标筛选过程为:
1) 针对不同的边界设定不同的紧凑性阈值.针对图像的每个边界,根据位于该边界的所有超像素区域的紧凑性,采用最大类间方差法[23]自适应获得该边界的紧凑性阈值.
2) 对初选边界目标超像素区域集合中超像素区域进行紧凑性筛选.计算初选边界目标超像素区域集合中每个超像素区域的紧凑性[3],如果该超像素区域的紧凑性大于其所在边界的紧凑性阈值,则认为其是目标区域;反之,则认为其是特殊背景区域.
经过紧凑性筛选操作,可以得到最终的边界目标超像素区域集合和与4个基准背景差异大的特殊边界背景集合.合并经过特征差异筛选得到的与4个基准背景相似的一般边界背景集合和经过紧凑性筛选得到的与4个基准背景差异大的特殊边界背景集合,从而得到最终的边界背景集合B1.
1.3.2 获取基于深度先验的背景集合B2
通过观察发现,图像中属于背景的超像素区域并非全部位于图像边界,也不可能全部与图像边界的超像素区域具有相似的颜色特征.并且,当位于图像内部的背景区域被显著目标阻隔时,该背景区域与图像边界的连通性会降低.因此,仅依据边界背景集合来计算显著性,位于图像内部的背景区域可能会被错误地检测为前景区域,如图 5(b)中红色虚线标注的区域所示.
通过分析发现,位于图像内部的背景区域与目标区域一般不会位于同一深度范围内,因此,当位于图像内部的背景区域与图像边界上的背景区域特征差异大、与目标区域具有相似视觉特征时,利用深度信息可以将该背景区域与目标区域区分开.据此,本文将基于深度选择性差异获得的显著值生成基于深度先验的背景集合B2,用于获得部分位于图像内部的背景区域.
在1.2节的基础上,对图像中所有超像素区域的基于深度选择性差异的显著值进行自适应阈值[23]分割,当某超像素区域的显著值低于阈值时,就将其加入到基于深度先验的背景集合中,从而得到基于深度先验的背景集合B2.
1.3.3 构建图模型
首先,将图像中的所有超像素区域构成图模型的顶点集合V,相邻超像素区域之间的联系视作图模型的边集合E,每条边所连接的2个超像素区域间的特征差作为该边的对应权值,从而得到图模型的权值集合W.因此,图像对应的初始图模型为G={V, E, W}.
基于所构建的边界背景集合B1及深度先验的背景集合B2,本文将初始图模型中位于同一顶点集合内的2个顶点之间也放置一条边,以缩短这些集合内的超像素区域之间的距离.经过以上操作,当目标接触边界或者背景区域分散时,该图模型仍然有效.
综上所述,最终构建的图模型中边集合E={E1, E2, E3},对应边上的权值如下:
$$ \begin{array}{*{20}{c}} {{E_1} = \left\{ {\left( {{R_i},{R_j}} \right)|{R_i},{R_j} \in V,{\alpha _{ij}} = 1} \right\}}\\ {{E_2} = \left\{ {\left( {{R_i},{R_j}} \right)|{R_i},{R_j} \in {B_1}} \right\}}\\ {{E_3} = \left\{ {\left( {{R_i},{R_j}} \right)|{R_i},{R_j} \in {B_2}} \right\}} \end{array} $$ (9) $$ W\left( {{R_i},{R_j}} \right) = \sqrt {(1 - \lambda ){{\left( {{c_i} - {c_j}} \right)}^2} + \lambda {{\left( {{d_i} - {d_j}} \right)}^2}} $$ (10) 式中:αij=1表示超像素区域Ri、Rj是相邻的;E1表示如果2个超像素区域是相邻的,则这2个超像素区域之间有边;E2表示位于边界背景集合B1内的任意2个超像素区域之间有边;E3表示基于深度先验的背景集合B2内的任意2个超像素区域之间有边;λ为深度图像质量的评估结果;ci和cj分别为超像素区域Ri、Rj的颜色特征;di和dj分别为超像素区域Ri、Rj的深度特征;W(Ri, Rj)为超像素区域Ri、Rj之间的特征差.
1.3.4 计算边界连通性
参照Zhu等[19]提出的基于无向图计算边界连通性的方法,本文采用该方法计算图像中每个超像素区域的边界连通性.
首先,定义任意2个超像素区域R和Q之间的最短路径代价为它们之间最短路径所经过的所有边的权重之和
$$ {w_{{\rm{geo}}}}(R,Q) = \mathop {\min }\limits_{{R_1} = R,{R_2}, \cdots ,{R_n} = Q} \sum\limits_{i = 1}^{n - 1} W \left( {{R_i},{R_{i + 1}}} \right) $$ (11) 其次,定义超像素区域R的跨区域面积为
$$ {\rm Area}\left( R \right) = \sum\limits_{i = 1}^N {\exp } \left( { - \frac{{w_{{\rm{geo}}}^2\left( {R,{R_i}} \right)}}{{2\sigma _1^2}}} \right) = \sum\limits_{i = 1}^N A \left( {R,{R_i}} \right) $$ (12) 式中:参数σ1用于控制跨区域面积的强度;N为图像中超像素区域的个数.
超像素区域R所属区域位于图像边界的长度为
$$ {{\rm Len}_{{\rm{bnd}}}}(R) = \sum\limits_{i = 1}^N A \left( {R,{R_i}} \right)\delta \left( {{R_i} \in {B_1}} \right) $$ (13) 式中,当超像素区域Ri属于图像的边界背景集合B1时,δ(Ri∈B1)=1,否则δ(Ri∈B1)=0.
最后,计算超像素区域R的边界连通性
$$ {\rm BndCon}(R) = \frac{{{{\rm Len}_{\rm bnd }}(R)}}{{\sqrt {{\rm Area}(R)} }} $$ (14) 1.3.5 基于背景先验的显著性计算
超像素区域R属于背景区域的概率为
$$ {P_{\rm{b}}}(R) = 1 - \exp \left( { - \frac{{{{({\rm{BndCon}} (R))}^2}}}{{2\sigma _{\rm{b}}^2}}} \right) $$ (15) 式中参数σb用于控制背景概率的强度. Pb(R)的取值越接近于1,则超像素区域R属于背景的可能性越大.
根据超像素区域R属于背景区域的概率,计算该超像素区域R基于背景先验的显著值为
$$ {S_{\rm{b}}}(R) = 1 - {P_{\rm{b}}}(R) = \exp \left( { - \frac{{{{({\rm{BndCon}} (R))}^2}}}{{2\sigma _{\rm{b}}^2}}} \right) $$ (16) 当显著目标接触图像边界时,分别基于初始的边界背景集合与4个基准背景相似的一般边界背景集合和最终的边界背景集合B1计算图像的显著性,得到的显著图如图 6所示.
从图 6可看出,初始边界背景集合经特征差异筛选和紧凑性筛选后,可获得更精确的边界背景集合,基于更精确的边界背景集合进行图像显著性检测时,位于图像边界的目标区域也会获得较高的显著值,且能有效抑制边界上特殊背景区域的显著值.
加入基于深度先验的背景集合前后,得到的显著图分别如图 5(b)(c)所示,发现通过加入基于深度先验的背景集合,可以大大降低位于图像内部的背景区域的显著值.
1.4 显著性融合及调整
通过观察发现,基于深度选择性差异的显著性检测和基于背景先验的显著性检测存在以下问题:
1) 显著目标通常被背景区域围绕,而背景区域又延伸在深度图像的整个取值范围内,导致基于深度选择性差异的显著性检测可能会将一些背景区域误检为目标区域.如图 7(b)所示,图像下方的地面区域与图像中其他区域相比具有较大的深度差异,因此,在基于深度选择性差异的显著性检测中,该部分区域显著值偏高,从而被误检为显著区域.
2) 由于特征差异的影响及边界连通性的局限性,基于背景先验的显著性检测可能会对图像中的目标区域存在部分漏检,同时会将一些背景区域误检为目标区域.如图 7(c)所示,显著目标的右侧存在较多漏检,而在图像其他区域,又存在一些误检.
针对上述分析,本文采用全局加强法[24],将基于深度选择性差异获取的显著图Sd和基于背景先验获取的显著图Sb进行融合,以消除基于深度选择性差异的显著性检测造成的地面区域的误检,以及基于背景先验的显著性检测造成的部分目标的漏检,融合公式为
$$ {S_{\rm{c}}} = \left( {{A_1} \cdot {S_{\rm{d}}} + {A_2} \cdot {S_{\rm{b}}}} \right)/\left( {{A_1} + {A_2}} \right) $$ (17) 式中A1、A2分别为Sd、Sb中大于显著值阈值T的像素点的显著值的均值.
融合后的显著图中,可能会存在一些误检.如图 7(d)所示,观察到一些背景区域,如图像下方的地面区域,每一行内的显著值变化都不大.针对该特性,可以对融合后的显著图进行调整,通过显著值的行内对比消除显著图中的误检,抑制大片背景区域的显著性.
融合后的显著图进行调整的具体做法如下:
1) 将融合后的显著图中每行的显著值进行从大到小的排序,在每行中选择30%的具有较小显著值的像素点作为该行的背景.
2) 依次计算每行的背景中像素点的显著值的均值,将其作为该行背景的显著值.
3) 依次遍历每行中所有像素点的显著值,将其显著值减去所在行的行背景的显著值,若差值小于阈值,则认为该像素点属于背景,并将其显著值设为0;否则,保留该像素点的显著值.
对于图像中的行r,其行背景的显著值定义为
$$ {S_{{{\rm{b}}_ - }r}} = \frac{{\sum\limits_{p \in {r^\alpha }} {{S_{\rm{d}}}} (p)}}{{{n_r} \cdot \alpha }} $$ (18) 式中:α为行内背景采样点取值因子;nr为行r内像素点个数;rα为行r内具有较小显著值的nr·α个像素点所组成的行背景.
融合后的显著图经过调整之后的显著值为
$$ \begin{array}{*{20}{c}} {S\left( {{R_i}} \right) = \frac{{\sum\limits_{p \in {R_i}} S (p)}}{{{n_i}}}}\\ {S(p) = \left\{ {\begin{array}{*{20}{l}} {{S_{\rm{c}}}(p),}&{{S_{\rm{c}}}(p) - {S_{{\rm{b\_}}r}}(p) > \theta }\\ {0,}&{{S_{\rm{c}}}(p) - {S_{{\rm{b\_}}r}}(p) \le \theta } \end{array}} \right.} \end{array} $$ (19) 式中:ni为超像素区域Ri中像素点个数;S(p)为融合后的显著图经调整后像素点p的显著值;Sb_r(p)为像素点p所在行的行背景的显著值;θ为是否对像素点进行调整的阈值.
显著图的融合以及融合并调整后的显著图分别如图 7所示.
1.5 显著图的优化
为了得到更精确的显著性检测结果,对上述显著性融合及调整后的显著图进行优化.在显著值的优化中,将根据超像素区域的边界连通性得到的背景先验和由初始显著图得到的前景先验整合到优化目标函数中,同时还加入保证相邻超像素区域的显著性值平滑过渡的平滑约束项,最后通过最小化目标函数获得优化后的显著图.
设第i个超像素区域优化后的显著值为Si,则目标函数定义为[19]
$$ \sum\limits_{i = 1}^N {w_i^{{\rm{bg}}}} S_i^2 + \sum\limits_{i = 1}^N {w_i^{{\rm{fg}}}} {\left( {{S_i} - 1} \right)^2} + \sum\limits_{i,j} {{w_{ij}}} {\left( {{S_i} - {S_j}} \right)^2} $$ (20) 式(20)中的3项分别定义了不同约束下的代价,第1项为背景元素的代价值,背景元素权重wibg是根据超像素区域的边界连通性计算得到的背景概率Pb(Ri);第2项为前景元素的代价值,前景元素权重wifg是超像素区域的显著性融合及调整后的显著性值S(Ri);第3项是一个平滑操作,平滑约束项的作用是缩小超像素区域的显著性值差别,消除背景区域与前景区域之间的微小噪声.平滑权重为
$$ {w_{ij}} = \exp \left( { - \frac{{d_{\rm labd}^2\left( {{R_i},{R_j}} \right)}}{{2{\delta ^2}}}} \right) + {\rm{cont}} $$ (21) $$ {d_{{\rm{labd}}}}\left( {{R_i},{R_j}} \right) = \sqrt {(1 - \lambda ){{\left( {{c_i} - {c_j}} \right)}^2} + \lambda {{\left( {{d_i} - {d_j}} \right)}^2}} $$ (22) 式中:dlabd(Ri, Rj)表示超像素区域Ri和Rj间的特征差异;λ表示深度图像质量的评估结果;ci和cj分别表示超像素区域Ri、Rj的颜色特征;di和dj分别表示超像素区域Ri、Rj的深度特征;参数δ用于控制特征差异的影响;参数cont是一个常量,其作用是消除前景区域和背景区域中的小噪声区域.
2. 实验结果与分析
为了评估本文提出的显著性检测方法的检测效果,本文在Intel Core i5-4590 3.30 GHz CPU和Win7 64位操作系统下,采用MATLAB R2015b编程实现本文提出的显著性检测方法,并在2个公开数据集上对实验结果进行统计分析.采用的数据集是NJU-DS400[10]和NLPR RGBD[13],其中,NJU-DS400包含400幅图像,场景相对简单;NLPR RGBD数据集包含1 000幅图像,场景相对比较复杂.
2.1 参数设置
实验中,在基于深度选择性差异的显著性计算过程中,控制空间距离权值强度的参数σ2取0.4;基于背景先验的显著性计算过程中,阈值μ为图像边界的所有超像素区域与4个基准背景之间颜色特征差异的均值,阈值ν为该特征差异波动性的均值,控制跨区域面积强度的参数σ1取7,控制背景概率强度的参数σb取1;显著性融合及调整过程中,行内背景采样点取值因子α取0.3,用于衡量是否对像素点进行调整的阈值θ取0.17;在显著图优化过程中,控制特征差异影响的参数δ取7,常量cont取0.1.
2.2 与现有其他方法的对比
本文在NJU-DS400和NLPR RGBD数据集上,从定量和定性分析两方面,将本文提出的基于深度选择性差异及背景先验的显著性检测方法与几个比较权威的显著性检测方法进行比较,其中RC方法[1]和主成分分析(principal component analysis,PCA)方法[25]为面向二维图像的显著性检测方法,ACSD方法[10]和立体显著(stereopsis for saliency,SS)分析方法[16]是基于深度信息的显著性检测方法. SORBD方法[19]虽然为面向二维图像的显著性检测方法,但其重点是基于背景先验的显著性检测方法.本文方法采用MATLAB编程实现,其他方法除SS方法外,均由作者源代码实现.
2.2.1 定量分析
正确率-召回率(precision-recall,Pr-Re)曲线是显著图评估的常用指标.本文使用Cheng等[1]的评估代码获取不同方法对应的Pr-Re曲线,从而对不同显著性检测方法的检测效果进行对比.通过对这几种显著性检测方法的检测结果进行评估,得到对应的Pr-Re曲线,如图 8所示.
F-measure是召回率和准确率的一个调和平均数,是对召回率和准确率的综合,Fβ(Avg)是[0, 255]范围内所有阈值下F-measure的平均值,Fβ(Max)是[0, 255]范围内所有阈值下F-measure的最大值.平均绝对误差MAE可用来衡量显著性检测结果与人工标注的GroundTruth图之间的逼近程度.本文使用Cheng等[1]的评估代码对这几种显著性检测方法的检测结果进行评估,得到对应的Fβ(Avg)、Fβ(Max)、MAE值分别如表 1、2所示.
表 1 不同的显著性检测方法在NJU-DS400数据集上的评估结果Table 1. Evaluation results of different saliency detection methods on NJU-DS400 dataset方法 PCA RC SS ACSD SORBD 本文方法 Fβ(Avg) 0.428 2 0.557 1 0.363 6 0.561 0 0.600 3 0.701 6 Fβ(Max) 0.606 1 0.676 6 0.496 5 0.759 6 0.681 7 0.770 9 MAE 0.197 2 0.204 1 0.234 2 0.176 9 0.158 3 0.115 1 表 2 不同的显著性检测方法在NLPR RGBD数据集上的评估结果Table 2. Evaluation results of different saliency detection methods on NLPR RGBD dataset方法 PCA RC SS ACSD SORBD 本文方法 Fβ(Avg) 0.462 1 0.515 9 0.239 6 0.452 9 0.575 4 0.618 0 Fβ(Max) 0.603 2 0.635 4 0.306 8 0.656 5 0.654 2 0.675 6 MAE 0.141 1 0.176 5 0.195 0 0.176 3 0.119 5 0.106 1 从图 8可以看出,通过本文提出的算法计算得到的显著图Pr、Re值明显高于PCA、RC、SS、SORBD方法,略高于ACSD方法.并且,从表 1、2可以看出,本文提出的算法效果明显优于其他几种方法.
2.2.2 定性分析
为了更加直观地对比本文提出的显著性检测方法与其他几种检测方法的检测效果,图 9、10分别列举了以上几种显著性检测方法在NJU-DS400、NLPR RGBD数据集上的部分检测结果.
从图 9、10可以看出,由于背景、纹理、光照等干扰因素的存在,仅采用颜色信息的显著性检测方法很难提取完整的显著目标,同时,对于背景复杂的图像,仅基于二维图像特征的显著性检测方法不能获得满意的检测效果.如图 9中的第1、第2行和图 10中的第3行所示,RC、PCA和SORBD方法均未能有效地提取出显著目标,将目标附近的复杂背景误检为显著目标.
由于深度信息不受纹理和光照的影响,加入深度信息的显著性检测方法能获得相对较好的检测结果.如图 9(e)(f)所示,ACSD和SS方法能较准确地定位出目标的大致位置,但由于深度信息自身的特点,导致接近地面的目标区域存在漏检,未能有效检测出完整的目标区域.
通过实验结果可以看出,本文提出的显著性检测方法在纹理、背景复杂的图像中也能有效地检测出显著性区域,参照人工标注的GT图,本文的检测方法保留了显著性对象的大量细节,边缘锐利,轮廓清晰,检测结果优于其他显著性检测方法.
2.3 本文算法分阶段的效果对比
为了验证本文提出的基于深度选择性差异及背景先验的显著性检测方法在各个阶段的显著性检测效果,本节将该方法分为5个阶段,分别在NJU-DS400、NLPR RGBD两个数据集上进行定性分析和定量分析,其中,DSD、BPS、DSD+BPS、DSD+BPS+RSD、DSD+BPS+RSD+SCF分别代表基于深度选择性差异的显著性检测效果、基于背景先验的显著性检测效果、显著性融合之后的显著性检测效果、显著性融合及调整之后的显著性检测效果、显著性优化之后的显著性检测效果.
2.3.1 定量分析
采用Cheng等[1]的评估代码计算基于深度选择性差异及背景先验的显著性检测方法在不同阶段的Pr-Re曲线、Fβ(Avg)、Fβ(Max)、MAE值,从而对该方法各阶段的检测效果进行评估.在NJU-DS400、NLPR RGBD两个数据集上计算得到的Pr-Re曲线,分别如图 11(a)(b)所示,计算得到的Fβ(Avg)、Fβ(Max)、MAE值分别如表 3、4所示.
表 3 不同阶段在NJU-DS400数据集上的评估结果Table 3. Evaluation results of saliency detection results at different stages on NJU-DS400 dataset方法 DSD BPS DSD+BPS DSD+BPS+RSD DSD+BPS+RSD+SCF Fβ(Avg) 0.499 1 0.642 5 0.585 5 0.649 9 0.701 6 Fβ(Max) 0.636 1 0.695 9 0.717 5 0.722 1 0.770 9 MAE 0.221 5 0.158 5 0.192 3 0.125 9 0.115 1 表 4 不同阶段在NLPR RGBD数据集上的评估结果Table 4. Evaluation results of saliency detection results at different stages on NLPR RGBD dataset方法 DSD BPS DSD+BPS DSD+BPS+RSD DSD+BPS+RSD+SCF Fβ(Avg) 0.356 1 0.522 1 0.458 6 0.551 1 0.618 0 Fβ(Max) 0.476 7 0.612 0 0.606 2 0.639 6 0.675 6 MAE 0.273 9 0.168 3 0.224 6 0.122 0 0.106 1 通过观察发现,将融合后的显著图进行调整后(从DSD+BPS到DSD+BPS+RSD),Pr-Re曲线的右侧降低,原因是显著图调整后,前景和背景之间的分界较明显,取某些阈值时,正确率、召回率均较低.
但是通过实验发现,融合后的显著图加入调整操作,对最终的显著性检测效果影响很大.在NJU-DS400和NLPR RGBD两个数据集上分别计算加入调整措施、未加入调整措施时的显著性检测效果,如图 12所示,发现加入调整措施的检测效果明显优于未加入调整措施的检测效果.
2.3.2 定性分析
为了更加直观地展示本文提出的基于深度选择性差异及背景先验的显著性检测方法在各个阶段的检测结果,图 13、14分别呈现了该方法的各个阶段在NJU-DS400、NLPR RGBD数据集上的检测效果.
3. 结论
1) 传统的显著性检测方法大多数是基于颜色、纹理、亮度等二维特征.当显著目标没有表现出以上可区分的视觉特征时,上述方法则很难检测到显著目标.本文在深入分析图像中深度信息所具有的特点及背景区域的分布特征基础上,提出了一种基于深度选择性差异及背景先验的显著性检测方法.
2) 该方法首先基于深度图的内在特性,计算图像的基于深度选择性差异的显著性值;然后,分别获取边界背景集合和基于深度先验的背景集合,依据边界连通性计算图像的基于背景先验的显著性值;最后,将两者融合及调整,并进行优化得到最终的显著性检测结果.实验结果表明该显著性检测方法总体效果良好,能有效地检测出图像中的显著目标,准确率较高,达到了提高显著性检测效果的目的.
-
表 1 不同的显著性检测方法在NJU-DS400数据集上的评估结果
Table 1 Evaluation results of different saliency detection methods on NJU-DS400 dataset
方法 PCA RC SS ACSD SORBD 本文方法 Fβ(Avg) 0.428 2 0.557 1 0.363 6 0.561 0 0.600 3 0.701 6 Fβ(Max) 0.606 1 0.676 6 0.496 5 0.759 6 0.681 7 0.770 9 MAE 0.197 2 0.204 1 0.234 2 0.176 9 0.158 3 0.115 1 表 2 不同的显著性检测方法在NLPR RGBD数据集上的评估结果
Table 2 Evaluation results of different saliency detection methods on NLPR RGBD dataset
方法 PCA RC SS ACSD SORBD 本文方法 Fβ(Avg) 0.462 1 0.515 9 0.239 6 0.452 9 0.575 4 0.618 0 Fβ(Max) 0.603 2 0.635 4 0.306 8 0.656 5 0.654 2 0.675 6 MAE 0.141 1 0.176 5 0.195 0 0.176 3 0.119 5 0.106 1 表 3 不同阶段在NJU-DS400数据集上的评估结果
Table 3 Evaluation results of saliency detection results at different stages on NJU-DS400 dataset
方法 DSD BPS DSD+BPS DSD+BPS+RSD DSD+BPS+RSD+SCF Fβ(Avg) 0.499 1 0.642 5 0.585 5 0.649 9 0.701 6 Fβ(Max) 0.636 1 0.695 9 0.717 5 0.722 1 0.770 9 MAE 0.221 5 0.158 5 0.192 3 0.125 9 0.115 1 表 4 不同阶段在NLPR RGBD数据集上的评估结果
Table 4 Evaluation results of saliency detection results at different stages on NLPR RGBD dataset
方法 DSD BPS DSD+BPS DSD+BPS+RSD DSD+BPS+RSD+SCF Fβ(Avg) 0.356 1 0.522 1 0.458 6 0.551 1 0.618 0 Fβ(Max) 0.476 7 0.612 0 0.606 2 0.639 6 0.675 6 MAE 0.273 9 0.168 3 0.224 6 0.122 0 0.106 1 -
[1] CHENG M M, ZHANG G X, MITRA N J, et al. Global contrast based salient region detection[C]//Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2011: 409-416. https: //mmcheng.net/salobj/
[2] ITTI L, KOCH C, NIEBUR E. A model for saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Image Processing, 2002, 20(11):1254-1259. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=ccf9901cbf11daa9b1aaa3928f527cbf
[3] ZHOU L, YANG Z, YUAN Q, et al. Salient region detection via integrating diffusion-based compactness and local contrast[J]. IEEE Transactions on Image Processing, 2015, 24(11):3308-3320. doi: 10.1109/TIP.2015.2438546
[4] HOU X, ZHANG L. Saliency detection: a spectral residual approach[C]//Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition. Piscatway: IEEE, 2007: 1-8.
[5] SUN J, LU H, LIU X. Saliency region detection based on Markov absorption probabilities[J]. IEEE Transactions on Image Processing, 2015, 24(5):1639-1649. doi: 10.1109/TIP.2015.2403241
[6] ACHANTA R, HEMAMI S, ESTRADA F. Frequency-tuned salient region detection[C]//Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscatway: IEEE, 2009: 1597-1604. https: //ivrlwww.epfl.ch/supplementary_material/RK_CVPR09/
[7] YANG C, ZHANG L, LU H, et al. Saliency detection via graph-based manifold ranking[C]//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Piscatway: IEEE, 2013: 3166-3173. https: //www.cnblogs.com/lart/p/10466290.html
[8] WEI X, TAO Z, ZHANG C, et al. Structured saliency fusion based on Dempster-Shafer theory[J]. IEEE Signal Processing Letters, 2015, 22(9):1345-1349. doi: 10.1109/LSP.2015.2399621
[9] ACHANTA R, SHAJI A, SMITH K. Slic superpixels compared to state-of-the-art superpixel methods[J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2012, 34(11):2274-2282. doi: 10.1109/TPAMI.2012.120
[10] JU R, GE L, GENG W, et al. Depth saliency based on anisotropic center-surround difference[C]//Proceedings of IEEE International Conference on Image Processing. Piscatway: IEEE, 2015: 1115-1119. https: //www.researchgate.net/publication/282375096_Depth_saliency_based_on_anisotropic_center-surround_difference
[11] LANG C, NGUYEN T, KATTI H, et al. Depth matters: influence of depth cues on visual saliency[C]//European Conference on Computer Vision. Berlin: Springer-Verlag, 2012: 101-115. https: //www.researchgate.net/publication/233988885_Depth_Matters_Influence_of_Depth_Cues_on_Visual_Saliency
[12] REN J, GONG X, YU L, et al. Exploiting global priors for RGB-D saliency detection[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscatway: IEEE, 2015: 25-32. https: //www.cv-foundation.org/openaccess/content_cvpr_workshops_2015/W14/papers/Ren_Exploiting_Global_Priors_2015_CVPR_paper.pdf
[13] PENG H, LI B, XIONG W, et al. RGBD salient object detection: a benchmark and algorithms[C]//European Conference on Computer Vision. Berlin: Springer-Verlag, 2014: 92-109. https: //www.researchgate.net/publication/284781665_RGBD_Salient_Object_Detection_A_Benchmark_and_Algorithms
[14] DESINGH K, KRISHNA K, RAJAN D, et al. Depth really matters: improving visual salient region detection with depth[C]//British Machine Vision Conference. Berlin: Springer-Verlag, 2013: 98.1-98.11. https: //cdn.iiit.ac.in/cdn/cvit.iiit.ac.in/images/ConferencePapers/2013/Karthik2013Depth.pdf
[15] CIPTADI A, HERMANS T, REHG J. An in depth view of saliency[C]//British Machine Vision Conference. Berlin: Springer-Verlag, 2013: 112.1-112.11. https: //www.cc.gatech.edu/cpl/projects/depth_saliency/
[16] NIU Y, GENG Y, LI X, et al. Leveraging stereopsis for saliency analysis[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscatway: IEEE, 2012: 454-461. http://web.cecs.pdx.edu/~fliu/papers/cvpr2012.pdf
[17] JU R, LIU Y, REN T, et al. Depth-aware salient object detection using anisotropic center-surround difference[C]//IEEE International Conference on Image Processing. Piscatway: IEEE, 2015: 1115-1119. https: //www.sciencedirect.com/science/article/abs/pii/S0923596515001058
[18] ZHANG Q, LIN J, LI W, et al. Salient object detection via compactness and objectness cues[J]. Visual Computer, 2017(1):1-17. doi: 10.1007%2Fs00371-017-1354-0
[19] ZHU W, LIANG S, WEI Y, et al. Saliency optimization from robust background detection[C]//Proceedings of 2014 the IEEE Conference on Computer Vision and Pattern Recognition. Piscatway: IEEE, 2014: 2814-2821. https: //wenku.baidu.com/view/87eb8ae0f12d2af90342e601.html
[20] WANG J, LU H, LI X. Saliency detection via background and foreground seed selection[J]. Neurocomputing, 2015, 152(C):359-368. http://d.old.wanfangdata.com.cn/NSTLQK/NSTL_QKJJ0234324329/
[21] WANG Q, ZHENG W, PIRAMUTHU R. GraB: visual saliency via novel graph model and background priors[C]//Proceedings of 2016 the IEEE Conference on Computer Vision and Pattern Recognition. Piscatway: IEEE, 2016: 535-543. https: //www.cv-foundation.org/openaccess/content_cvpr_2016/app/S03-36.pdf
[22] CONG R, LEI J, ZHANG C. Saliency detection for stereoscopic images based on depth confidence analysis and multiple cues fusion[J]. IEEE Signal Processing Letters, 2016, 23(6):819-823. doi: 10.1109/LSP.2016.2557347
[23] OSTU N, NOBUYUKI O. A threshold selection method from gray-level histograms[J]. IEEE Transactions on Systems Man and Cybernetics, 1979, 9(1):62-66. doi: 10.1109/TSMC.1979.4310076
[24] 高秀丽, 陈华华.融合深度信息的视觉注意模型研究[J].杭州电子科技大学学报, 2013, 33(2):9-12. doi: 10.3969/j.issn.1001-9146.2013.02-003 GAO X L, CHEN H H. Research on visual attention model based on fusion of depth information[J]. Journal of Hangzhou University of Electronic Technology, 2013, 33(2):9-12. (in Chinese) doi: 10.3969/j.issn.1001-9146.2013.02-003
[25] MARGOLIN R, TAL A, ZELNIK M. What makes a patch distinct?[C]//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Piscatway: IEEE, 2013: 1139-1146. http://cgm.technion.ac.il/Computer-Graphics-Multimedia/Software/DstnctSal/