• 综合性科技类中文核心期刊
    • 中国科技论文统计源期刊
    • 中国科学引文数据库来源期刊
    • 中国学术期刊文摘数据库(核心版)来源期刊
    • 中国学术期刊综合评价数据库来源期刊

基于多元特征异构集成深度学习的图像识别模型及其应用

汤健, 田昊, 夏恒, 王子轩, 徐喆, 韩红桂

汤健, 田昊, 夏恒, 王子轩, 徐喆, 韩红桂. 基于多元特征异构集成深度学习的图像识别模型及其应用[J]. 北京工业大学学报, 2024, 50(1): 27-37. DOI: 10.11936/bjutxb2022030011
引用本文: 汤健, 田昊, 夏恒, 王子轩, 徐喆, 韩红桂. 基于多元特征异构集成深度学习的图像识别模型及其应用[J]. 北京工业大学学报, 2024, 50(1): 27-37. DOI: 10.11936/bjutxb2022030011
TANG Jian, TIAN Hao, XIA Heng, WANG Zixuan, XU Zhe, HAN Honggui. Image Recognition Model Based on Multivariate Feature Heterogeneous Ensemble Deep Learning With Its Application[J]. Journal of Beijing University of Technology, 2024, 50(1): 27-37. DOI: 10.11936/bjutxb2022030011
Citation: TANG Jian, TIAN Hao, XIA Heng, WANG Zixuan, XU Zhe, HAN Honggui. Image Recognition Model Based on Multivariate Feature Heterogeneous Ensemble Deep Learning With Its Application[J]. Journal of Beijing University of Technology, 2024, 50(1): 27-37. DOI: 10.11936/bjutxb2022030011

基于多元特征异构集成深度学习的图像识别模型及其应用

基金项目: 

国家重点研发计划资助项目 2018YFC1900800-5

详细信息
    作者简介:

    汤健(1974—),男,教授,博士生导师,主要从事小样本数据建模、固废处理智能控制方面的研究,E-mail: freeflytang@bjut.edu.cn

  • 中图分类号: U461;TP308

Image Recognition Model Based on Multivariate Feature Heterogeneous Ensemble Deep Learning With Its Application

  • 摘要:

    随着城市矿产资源循环利用技术的不断发展, 废旧手机回收已成为当前研究热点。受限于计算资源和数据资源的相对缺乏, 目前基于线下智能回收装备的废旧手机识别精度难以达到实际应用。针对上述问题, 提出一种基于多元特征异构集成深度学习的图像识别模型。首先, 利用字符级文本检测算法(character region awareness for text detection, CRAFT)提取手机背部字符区域, 再利用ImageNet预训练的VGG19模型作为图像特征嵌入模型, 利用迁移学习理念提取待回收手机的局部字符特征和全局图像特征; 然后, 利用局部特征构建神经网络模式光学字符识别(optical character recognition, OCR)模型, 利用全局和局部特征构建非神经网络模式深度森林分类(deep forest classification, DFC)模型; 最后, 将异构OCR和DFC识别模型输出的结果与向量组合后输入Softmax进行集成, 基于权重向量得分最大准则获取最终识别结果。基于废旧手机回收装备的真实图像验证了所提方法的有效性。

    Abstract:

    With the continuous development of recycling technology for urban mineral resources, recycling of used mobile phones has become a hotspot for current research. Restricted by the relative lack of computing resources and data resources, the accuracy of used mobile phone recognition based on current off-line intelligent recycling equipment is difficult to meet the practical application. Therefore, an image identification method based on multivariate feature heterogeneous ensemble deep learning method was proposed. First, the character region on the back of the mobile phone was extracted by using character region awareness for text detection (CRAFT) algorithm, the VGG19 model pre-trained by ImageNet was used as the image feature embedding model, and the local character feature and global image feature were extracted by using the transfer learning mechanism. Then, the optical character recognition (OCR) character recognition model based on neural network (NN) mode was constructed by using the local feature, and the improved deep forest classification (DFC) model based on non-NN model was constructed by using the global and local features. Finally, the outputs of heterogeneous OCR and the DFC model were integrated and fed into the Softmax to ensemble, and the final recognition result was obtained based on the criterion of maximum category weight vector. The effectiveness of the proposed method was verified based on real images of used mobile phone from recycling equipment.

  • 随着科技的发展和5G的迅速普及,智能手机的更迭速度不断加快[1]。据Strategy Analytics预测,2021年全球智能手机的出货量将同比反弹6.5%,总量达13.8亿部[2]。更换速度的加快是导致手机出货量不断提高的主要原因,这也导致个人闲置手机的累计量逐年增多。废旧手机作为一种典型的城市矿产资源[3],利用无人化、智能化的回收装备对其进行回收,能够节省大量人工成本和提升居民交投意愿[4]。废旧手机的外观大多具有唯一性,根据图像对其品牌等特征进行识别的方法具有成本低、实用性强等特点[1]。如何采用相关数据集构建分类模型对废旧手机进行智能化识别已成为当下提高智能化回收装备回收效率的研究重点[5]

    传统图像识别方法模型较为简单,无须基于大规模数据训练。文献[6]改进小波阈值去噪方法及Otsu阈值设置方法,提高传统Canny算子的边缘检测性能,实现了生产线手机膜的缺陷检测。文献[7]提出了基于形态学的红外图像边缘检测算法,改进了仅使用单一方向和固定方向权重的边缘检测算法,采用多方向结构元素提取图像边缘,通过自适应加权得到最终结果。上述传统图像算法虽然广泛应用于工业目标检测,但该类算法精度较低,难以应对回收装备所拍摄废旧手机图像训练样本稀缺场景。

    目前,以卷积神经网络为基础的图像识别技术已在目标检测、人脸识别等领域广泛应用[8]。文献[9]将卷积注意力机制引入残差网络提出一种基于注意力特征融合的无人机多目标跟踪算法。文献[10]将方向梯度直方图(histogram of oriented gradient, HOG)特征和注意力模型作为孪生结构构建目标跟踪模型。文献[11]将自监督预训练和监督微调用于医疗图像分类,在图像标记稀缺的情况下提高了模型的分类精度。通常,以卷积神经网络和大型自监督模型构建的图像分类模型通常需要海量数据集进行预训练。但是,本文所述废旧手机识别问题的数据集仅来源于回收装备样机实拍图片,废旧手机存在不同程度的磨损并且图片样本的数据量较少,难以构建行之有效的神经网络分类模型;并且,因考虑设备制造成本等因素导致拍摄图像清晰度较低,以及用户交投时的不规范操作等因素导致废旧手机图像存在完整度较差、部分区域具有镜像等问题。如何在样本量少且样本质量不高的前提下完成对手机品牌的分类已成为当前待解决的主要问题。

    深度森林分类(deep forest classification,DFC)模型已被证实在小样本分类问题中具有良好表现[12-13],如:文献[14]将DFC模型应用于卫星姿态控制系统的执行机构与传感器故障诊断;文献[15]基于GrabCut预处理算法和DFC模型构建了衣物识别模型;文献[16]提出基于DFC的多级特征融合的合成孔径雷达(synthetic aperture radar, SAR)目标识别,表明该方法相比传统模型和深度神经网络模型具有更高的识别率。

    基于上述研究现状,文献[4]提出“基于并行差分进化-梯度特征深度森林的废旧手机识别模型”,利用废旧手机背部图像构建手机品牌识别模型,准确率达到80.12%;但该识别方法仅考虑手机全局纹理特征,并未对字符等重要局部特征进行融合和识别处理,其精度仍有待进一步提升。显然,目前废旧手机识别存在的难点包括:如何借助其他领域知识解决训练样本稀少、如何同时融合局部字符特征和全局图像特征、如何融入专家知识以克服废旧手机磨损和交投不规范等因素造成的图片清晰度与完整度差、如何有效提取深度特征等问题。

    综上,面向废旧手机识别,本文提出一种基于多元特征异构集成深度学习的图像识别模型。首先,利用字符级文本检测算法(character region awareness for text detection,CRAFT)提取手机背部字符区域;接着,使用ImageNet预训练的VGG19模型[17]对手机背部图像和其字符特征区域进行特征提取,使用高维卷积特征代替单一维度特征;基于局部字符特征构建光学字符识别(optical character recognition,OCR)模型,基于全局图像特征和局部字符特征构建改进DFC模型;最后,将不同模型分类结果线性拼接,通过Softmax函数得出最终分类结果。基于废旧手机回收装备实拍的图像数据集,验证了该算法在废旧手机识别中的有效性。

    为了保证回收装备在训练样本少且图像精度不高的前提下完成废旧手机品牌识别,提出了一种基于多元特征异构集成深度学习的图像识别方法,其结构如图 1所示。

    图  1  基于多元特征异构集成深度学习的图像识别模型结构
    Figure  1.  Structure of multivariate feature heterogeneous ensemble deep learning method for image recognition

    不同模型的功能如下。

    1) 图像预处理模块:输入为Ximgoriginal,输出为数据增强预处理结果Ximg和CRAFT字符级目标检测算法的字符预处理结果Xdigit

    2) 多元特征提取模块:使用基于ImageNet预训练的VGG19网络获取局部字符特征与全局图像特征在高维空间的表示,其输入为XimgXdigit,输出为Ximg1 024和[Xdigit1, 512, Xdigit2, 512, ⋯, Xdigitm, 512]。

    3) 异构集成模型识别模块包括OCR字符识别、DFC废旧手机识别和输出加权子模型共三部分,其中,OCR子模块输入为[Xdigit1, 512, Xdigit2, 512, ⋯, Xdigitm, 512],输出为[$ \hat{y}_1$]OCR;DFC子模块输入为[Xdigit1, 512, Xdigit2, 512, ⋯, Xdigitm, 512, Ximg1 024],输出为[$\hat{y}_1, \hat{y}_2, \cdots, \hat{y}_n $]DF;输出加权子模块将分类子模块输出结果进行加权,获得[$ \hat{y}_1^{\mathrm{OCR}}, \hat{y}_1^{\mathrm{DF}}, \hat{y}_2^{\mathrm{DF}}, \cdots, \hat{y}_n^{\mathrm{DF}}$],得分最高的标签即为最终输出$\hat{y}_{\text {predict }} $。

    在废旧手机回收流程中,用户的不规范操作会导致采集图像不完整、手机表面反光、手机图像镜像等问题,这使得直接使用回收装备获取的图片构建的识别模型效果不佳。数据增强通过随机改变训练样本以降低识别模型对某些属性的依赖,进而提高模型的泛化能力,方法包括几何变换、颜色空间变换、内核过滤器、混合图像、随机擦除、基于生成对抗网络的增强和神经风格转移等[18]。由于几何变换可解决训练样本的位置偏差问题,而本文所述废旧手机在回收流程中会因用户摆放位置不同而使手机图像产生位置偏差。因此,本文所用数据增强以几何变换为主,包括旋转、翻折、镜像、平移和加入高斯噪声等。

    此外,手机背部字符是识别其品牌的重要依据,但用户使用过程中会造成字符的磨损、遮挡等问题,仅将其背部字符作为分类依据会导致识别模型具有很大的局限性。因此笔者提取手机背部图像中的字符特征作为分类依据之一。采用CRAFT字符级图像定位算法确定手机字符位置并分割,将字符特征与整体图片线性拼接,作为后续模型的输入,进而解决难以依据手机图像构建分类模型、单字符特征构建模型的局限性。

    研究表明,YOLO3[19-20]、Fast-RCNN[21]等目标检测算法在人脸检测、车牌检测等领域获得广泛应用,但该类算法检测的目标长宽比较为固定,且大多不会出现形变、磨损等问题。在手机回收问题中,摆放位置的差异会导致字符发生旋转和形变,同时废旧手机的部分字符存在磨损现象,因此直接标定字符所在位置进行训练的效果较差。此外,对手机图像数据集中单个字符进行人工标注的工作量难以估计,且已知目标检测数据集鲜有字符级别的标注。CRAFT算法本质是通过字符之间紧密程度预测文本所在区域。本文所用CRAFT模型的训练过程如图 2所示。

    图  2  CRAFT定位裁剪模块结构
    Figure  2.  Structure of CRAFT positioning and cropping module

    已标注数据集包含单个字符的高斯热度图,CRAFT算法对其进行有监督训练。对于手机背部图像数据集,首先,标记手机图像中的文本框区域,将其经过透视变换拉伸到比较正的文本框;接着,利用分水岭算法得到单个字符的位置框,生成对应的高斯热度图;最后,变换后重新贴回原图对应的标签图的相应位置。

    分水岭算法的分割结果评分公式为

    $$ S_{\text {conf }}(w)=\frac{l(w)-\min \left(l(w), \left|l(w)-l^{\mathrm{c}}(w)\right|\right)}{l(w)} $$ (1)

    式中:l(w)表示手机图像文本框长度;lc(w)为分水岭算法分割字符串长度结果。

    进一步,计算分水岭算法的置信度

    $$ S_{\mathrm{c}}(p)=\left\{\begin{array}{ll} S_{\mathrm{conf}}(w), & p \in R(w) \\ 1, & \text { 其他 } \end{array}\right. $$ (2)

    因此,分水岭算法分割得到字符串长度后,根据式(1)得到算法评价值,若该值与真实字符长度一致,则置信度Sc(p)=1。显然,评分越低说明分割结果可信度越差。

    本文将回收装备采集的手机图像表示为Ximg,其尺寸为400×300。相应地,预处理后的字符图像表示为Xdigit=[Xdigit1, Xdigit2, ⋯, Xdigitm],其中Xdigiti表示字符图像中第i个字符;因单个字符尺寸为50×50,以五字符图像为例,Xdigit尺寸为5×2 500。此处,将均源于手机背部图像的全局图像特征和局部字符特征称为多元特征。显然,上述2种特征因维度不同而无法直接线性组合。此处,采用基于ImageNet预训练的VGG19网络获取局部字符特征与全局图像特征在高维空间的表示,将降维后的向量特征进行线性组合,其结构如图 3所示。

    图  3  多元特征提取模块结构
    Figure  3.  Structure of multivariate feature extraction module

    仅由纹理特征、字符特征等单一特征构建手机识别模型,其精度难以达到实际应用需求。因此,本文采取集成学习理念[22],将不同角度的特征进行线性组合,构建异构集成多模型,以期通过具有多个不同机理的子模型的集成提高模型识别精度。针对前文所述废旧手机品牌分类问题,构建OCR子模型、DFC废旧手机识别子模型和输出加权子模型,具体如下所示。

    1) OCR模型子模块

    在OCR[23]手机背部字符识别流程中,仅使用字符特征[Xdigit1, 512, Xdigit2, 512, ⋯, Xdigitm, 512]作为输入。首先,通过双向LSTM提取含有完整上下文信息的字符序列特征;接着,通过CTC网络解决输入特征与输出序列无法对应的问题;最后,通过莱文斯坦距离确定OCR输出字符串与已知标签之间的距离,获得手机品牌分类结果[$\hat{y}_1 $]OCR。该子模型结构如图 4所示。

    图  4  OCR模型结构
    Figure  4.  Structure of OCR model

    该模块采用基于ImageNet预训练的VGG19模型作为基模型。首先,将VGG19模型中的卷积层和池化层参数固化,以充分利用迁移学习机制解决废旧手机训练样本缺失的问题;接着,针对不同图像特征构建不同大小的全连接层;最后,将不同图像的模型输出进行线性组合,作为后续分类模型的输入特征。多元特征提取后的特征维度由全连接层的维度决定。针对不同大小的手机图像Ximg和字符图像Xdigit,其特征提取过程为

    $$ \left\{\begin{array}{l} \boldsymbol{X}_{\mathrm{img}} \stackrel{f_{\mathrm{VGG}}(\cdot)}{\longrightarrow} \boldsymbol{X}_{\mathrm{img}}^{1024} \\ {\left[\begin{array}{l} \left.X_{\text {digit }}^1, X_{\text {digit }}^2, \cdots, X_{\text {digit }}^m\right] \xrightarrow{f_{\mathrm{VGG}}(\cdot)} \\ \quad\left[X_{\text {digit }}^{1, 512}, X_{\text {digit }}^{2, 512}, \cdots, X_{\text {digit }}^{m, 512}\right] \end{array}\right.} \end{array}\right. $$ (3)

    式中fVGG(·)表示VGG19模型输出过程。

    首先,OCR模型根据图像预处理部分所得字符特征[Xdigit1, 512, Xdigit2, 512, ⋯, Xdigitm, 512]构建k(k>m)个LSTM基本单元。双向LSTM网络包含2个分别表示前项和后项传递的子网络结构:

    $$ \vec{h}_i=\left(x_i, \vec{h}_{i-1}\right) $$ (4)
    $$ \overleftarrow{h_i}=\left(x_i, \overleftarrow{h}_{i+1}\right) $$ (5)

    式中:k为LSTM基本单元超参数;$\vec{h}_i $表示前向LSTM在时刻i的输出结果;$\overleftarrow{h}_i$表示后向LSTM在时刻i的输出结果;xi表示第i个输入。

    i时刻的双向LSTM输出为

    $$ h_i=\vec{h}_i+\overleftarrow{h}_i $$ (6)

    接着,采用CTC网络对双向LSTM网络输出[h1, h2, ⋯, hx]中的重复识别字符进行去重,使其变为[y1, y2, ⋯, yn]。由于双向LSTM的基本单元数多于手机字符数量n,导致字符重复划分,如“honor”会被分割为“hoonorr”。因此,需将“hoonorr”等多个子串映射为正确结果“honor”,表示为

    $$ \left\{\begin{array}{l} B\left(\pi_1\right)=B(\text { honorr }) \longrightarrow \text { honor } \\ B\left(\pi_2\right)=B(\text { honor }) \longrightarrow \text { honor } \\ B\left(\pi_n\right)=B(\text { hoonorr }) \longrightarrow \text { honor } \end{array}\right. $$ (7)

    CTC网络通过给定输入X的最大化后验概率PY|X〉获得最终结果Y,表示为

    $$ P\langle Y \mid X\rangle=\sum\limits_{\pi \in B^{-1}(Y)} P\langle\pi \mid X\rangle $$ (8)

    式中πB-1(Y)表示所有可整合为Y的子串集合。

    最后,加入基于专家经验的分类结果映射模块,主要是通过莱文斯坦距离构建分类结果距离度量准则,表示为

    $$ \operatorname{lev}_{\text {pre, true }}(i, j)=\left\{\begin{array}{l} \max (i, j) \\ \min \left\{\begin{array}{l} \operatorname{lev}_{a, b}(i-1, j-1)+1_{\left(\text {pre}_i \neq \text {true}_j\right)} \\ \operatorname{lev}_{a, b}(i, j-1)+1 \\ \operatorname{lev}_{a, b}(i-1, j)+1 \end{array}\right. \end{array}\right. $$ (9)

    式中:pre表示电子产品背部字符识别模块结果;true表示标签集中标签;ij分别表示pre第i个字符和true第j个字符。

    通过上述准则表征预测识别结果与真值标签的相似度,根据相似度对识别结果进行映射,解决由于单一字符的错误识别导致整体识别结果与真实标签的差异问题,进而提高模型识别准确率。

    2) DFC废旧手机识别模型子模块

    在基于DFC的废旧手机图像识别流程中,将上文所述局部字符特征[Xdigit1, 512, Xdigit2, 512, ⋯, Xdigitm, 512]和全局图像特征Ximg1 024进行线性组合,作为改进DFC的输入特征XDF,表示为

    $$ \boldsymbol{X}_{\mathrm{DF}}=\left[X_{\text {digit }}^{1, 512}, X_{\text {digit }}^{2, 512}, \cdots, X_{\text {digit }}^{m, 512}, X_{\text {img }}^{1024}\right] $$ (10)

    首先,采用XDF构建初层随机森林(random forest,RF)和梯度提升决策树(gradient boosting decision tree,GBDT)模型,获得不同输出$\hat{y}_i^{\mathrm{RF}} $;接着,将不同模型的输出$\hat{y}_i^{\mathrm{RF}} $与XDF进行线性组合,作为输入传入下一层模型以构建新的RF和GBDT模型,通过当前模型的分类精度决定是否继续构建下一层网络模型;最后,当模型精度不再提高时结束模型增长,将末层RF和GBDT的分类结果加权后获得最终识别结果[$\hat{y}_1, \hat{y}_2, \cdots, \hat{y}_n $]DF

    所提改进DFC模型的结构如图 5所示。

    图  5  改进DFC模型结构
    Figure  5.  Structure of improved DFC recognition model

    3) 输出加权子模块

    上文所述异构模型识别子模块中,OCR模型输出的[$ \hat{y}_1$]OCR为连续字符串,经过基于距离度量的映射后输出为某一待识别手机品牌;而改进DFC模型输出的[$\hat{y}_1, \hat{y}_2, \cdots, \hat{y}_n $]DF为所有待识别手机品牌的概率。为解决异构子模型输出形式不同或输出结果不一致的情况,本文提出对2个分类子模型进行输出加权的策略,如图 6所示。

    图  6  输出加权子模块结构
    Figure  6.  Structure of output weighting sub-module

    在本文所述识别模型中, 假定废旧手机标签为$n$个, 则$\mathrm{OCR}$结果为$\left[\hat{y}_1\right]_{\mathrm{OCR}}, \mathrm{DFC}$识别结果为$\left[\hat{y}_1\right.$, $\left.\hat{y}_2, \cdots, \hat{y}_n\right]_{\mathrm{DF}}$, 线性拼接后可获得$n+1$维结果向量$\left[\hat{y}_1^{\mathrm{OCR}}, \hat{y}_1^{\mathrm{DF}}, \hat{y}_2^{\mathrm{DF}}, \cdots, \hat{y}_n^{\mathrm{DF}}\right]$, 将其输人目前广泛用于深度网络监督学习分类器的归一化指数函数Softmax, 后者表示为

    $$ \sigma(\boldsymbol{z})_j=\frac{\mathrm{e}^{\boldsymbol{z}_j}}{\sum\limits_{j=1}^K \mathrm{e}^{\boldsymbol{z}_j}}, j \in[1, K] $$ (11)

    式中:K表示原始向量维度;e表示自然对数。该函数将任意实数的K维向量z压缩为向量σ(z),并使得每个元素σ(z)j范围都在(0, 1)内。

    进而,最终获得[$\hat{y}_1^{\mathrm{OCR}}, \hat{y}_1^{\mathrm{DF}}, \hat{y}_2^{\mathrm{DF}}, \cdots, \hat{y}_n^{\mathrm{DF}} $]所对应的权重。此处,将权重最高的标签作为最终分类结果$\hat{y}_{\text {predict }} $。

    为验证本文所述算法的有效性,选用废旧手机回收装备实拍图作为数据集进行仿真测试。废旧手机回收装备的应用场景如图 7所示。数据集共123张图像,包含8个类别的废旧手机品牌,分别是华为手机(HUAWEI)、荣耀(HONOR)、小米(MI)、中兴(ZTE)、OPPO、VIVO、苹果(iPhone),其他品牌(Others)。

    图  7  废旧手机回收装备应用场景
    Figure  7.  Application scenario of waste mobile phone recycling equipment

    实验阶段将样本按8∶2的比例随机划分训练集和测试集,在训练过程中通过十折交叉验证的方法进一步划分为训练子集和验证子集。

    本文所述识别模型基于python3.7及TensorFlow-GPU-2.3.0框架构建,其训练和测试硬件环境如下:系统为Ubuntu20.04LTS,内存为64 GB,GPU为GeForce RTX20280,CPU为Intel Xeon CPU-1650。

    首先,构建分类模型前采用数据增强手段对训练集和测试集样本进行扩充。以HONOR手机背部图像为例,将手机背部图像进行旋转、翻折、加噪声等操作,将1张手机背部图像样本扩充至12张。样本扩充示意图如图 8所示。

    图  8  数据增强效果
    Figure  8.  Data enhancement renderings

    接着,采用CRAFT字符分割算法对待回收废旧手机图像进行分割,获得对应手机字符数据集,图像预处理结果如图 9所示。

    图  9  图像预处理结果
    Figure  9.  Image preprocessing results

    多元特征提取采用基于1 400万张图片2万类ImageNet数据集的VGG19预训练模型fVGG(·)。根据输入图像的不同,在VGG模型中加入不同大小的全连接层,其中针对400×300的全局手机图像加入1 024维全连接层,针对50×50的局部字符图像加入512维全连接层。

    为说明字符特征在废旧手机分类问题中的重要性,抽取VGG19模型中的某层输出进行可视化。全局手机图像和局部字符图像的VGG19特征提取图如图 1011所示。如图所示,进行VGG19特征提取后,字符纹理信息能够有效保留。

    图  10  VGG19提取的全局图像特征
    Figure  10.  Global feature map of VGG19 extraction
    图  11  VGG19提取的局部特征
    Figure  11.  Local feature map of VGG19 extraction

    本文的OCR模块利用EasyOCR中英文字符预训练模型[23],包括128个LSTM基本单元,即k=128。DFC废旧手机识别模型使用RF和GBDT作为每层模型的基分类器,均采用250棵决策树,后者选用L1+L2正则化优化损失函数。

    使用图像预处理后的字符图片构建的OCR模型分类混淆矩阵如图 12所示,使用废旧手机图像和字符图片构建的DFC废旧手机识别模型分类混淆矩阵如图 13所示。

    图  12  OCR模型混淆矩阵
    Figure  12.  Confusion matrix of OCR model
    图  13  DFC废旧手机识别模型混淆矩阵
    Figure  13.  Confusion matrix of DFC model

    通过输出加权子模块对上述2个子模型的结果进行集成,进而得到多元特征异构集成深度学习的识别模型混淆矩阵,其分类精度可达90.17%,如图 14所示。

    图  14  多元特征异构集成深度学习模型混淆矩阵
    Figure  14.  Confusion matrix of multivariate feature heterogeneous ensemble deep learning model

    为验证本文所述方法有效性,将所提方法与当前主流小样本分类模型进行比较,其中:微调(fine-tuning)法用ImageNet作为原始数据集训练VGG19和ResNet50[24],将卷积层权重参数固定,采用本文所述废旧手机图像训练最后的全连接层参数;元学习法中采用基于度量准则的Siamese network[25],采用网络爬虫获取手机背部图像训练一个VGG19网络,再通过废旧手机图像训练另一个VGG19网络,利用欧氏距离计算相同类别高清样本与实拍样本在对应模型中的高维特征相似度,具体结果如表 1所示。此外,本文分别构建了单一特征+深度森林、VGG特征+深度森林、VGG特征+OCR模型的分类模型,精度如表 2所示。由结果可知,本文所提方法具有最佳性能。

    表  1  不同方法的对比结果
    Table  1.  Accuracy comparison of different methods
    方法 具体实现 准确率/%
    微调法 VGG19[17] 75.83
    ResNet50[24] 81.93
    元学习法 Siamese network[25] 78.38
    本文方法 VGG19特征+异构集成 90.17
    下载: 导出CSV 
    | 显示表格
    表  2  废旧手机识别模型精度对比结果
    Table  2.  Accuracy comparison results of used mobile phone recognition models %
    方法 精度
    HOG特征+DFC模型 80.12
    VGG19特征+DFC模型 87.93
    VGG19特征+OCR模型 86.37
    VGG19特征+异构集成模型 90.17
    下载: 导出CSV 
    | 显示表格

    本文所述异构集成深度学习识别方法中的2个子模型的超参数决定了模型精度。对OCR模型中LSTM单元数进行超参数实验,结果如图 15所示。

    图  15  LSTM单元数与OCR精度关系
    Figure  15.  Relationship between the number of LSTM units and the accuracy of OCR accuracy

    图 15所示,OCR模型精度受LSTM单元数影响:LSTM单元数增多后,模型精度在训练集表现为持续提高,但在测试集表现为略有降低。综合考虑后,将LSTM单元数设为128较为合理。

    在DFC模型中,对森林算法种类及其含有的决策树数量2个超参数进行实验分析。其中,森林算法类别在完全随机森林(CRF)、普通随机森林(RF)和GBDT这3类中任选2类。以VGG19输出为DFC输入进行的分组实验结果如表 3所示。

    表  3  不同森林算法的DFC模型精度对比
    Table  3.  Accuracy comparison of DFC model based on different forest algorithms %
    模型 分类精度
    RF+CRF 80.69
    RF+GBDT 87.93
    CRF+GBDT 84.17
    下载: 导出CSV 
    | 显示表格

    为简化模型需调整的参数量,本文在不同种类的森林算法中采用相同数量的决策树。针对本文所采用的RF+GBDT模型,决策树数量对识别精度的影响见图 16。如图所示,综合模型精度和复杂度考虑,决策树数量设为250较为合理。

    图  16  决策树数量与DFC精度关系
    Figure  16.  Relationship between the number of decision trees and DFC accuracy

    本文所提基于多元特征异构集成深度学习的图像识别方法能够很好地改善废旧手机回收装备拍摄手机图片样本少、图像质量不高导致的识别精度低的问题,创新性体现在:

    1) 使用ImageNet预训练的VGG19网络对废旧手机图像进行全局和局部特征提取。随着卷积层的深入,单个特征的感受野不断增大,其表征能力不断增强,更优于单一视角的特征提取方法。相比仅采用对纹理敏感的HOG特征所构建的DFC模型,使用VGG19构建的模型精度明显提高。

    2) 采用异构集成深度学习方法构建废旧手机分类模型,基于同一数据集对不同任务构建分类模型,最后通过非线性函数对多个模型输出进行加权得到最终分类结果,所提异构集成模型相比单OCR和单DFC识别模型的精度明显提高。

    仿真实验结果表明,在样本数量相同的前提下,所提方法具有较高的识别率,但特征提取模块的计算代价较高,下一步研究将通过继续优化网络结构以提高特征提取模型与所识别对象的关联度,以期进一步提高精度。

  • 图  1   基于多元特征异构集成深度学习的图像识别模型结构

    Figure  1.   Structure of multivariate feature heterogeneous ensemble deep learning method for image recognition

    图  2   CRAFT定位裁剪模块结构

    Figure  2.   Structure of CRAFT positioning and cropping module

    图  3   多元特征提取模块结构

    Figure  3.   Structure of multivariate feature extraction module

    图  4   OCR模型结构

    Figure  4.   Structure of OCR model

    图  5   改进DFC模型结构

    Figure  5.   Structure of improved DFC recognition model

    图  6   输出加权子模块结构

    Figure  6.   Structure of output weighting sub-module

    图  7   废旧手机回收装备应用场景

    Figure  7.   Application scenario of waste mobile phone recycling equipment

    图  8   数据增强效果

    Figure  8.   Data enhancement renderings

    图  9   图像预处理结果

    Figure  9.   Image preprocessing results

    图  10   VGG19提取的全局图像特征

    Figure  10.   Global feature map of VGG19 extraction

    图  11   VGG19提取的局部特征

    Figure  11.   Local feature map of VGG19 extraction

    图  12   OCR模型混淆矩阵

    Figure  12.   Confusion matrix of OCR model

    图  13   DFC废旧手机识别模型混淆矩阵

    Figure  13.   Confusion matrix of DFC model

    图  14   多元特征异构集成深度学习模型混淆矩阵

    Figure  14.   Confusion matrix of multivariate feature heterogeneous ensemble deep learning model

    图  15   LSTM单元数与OCR精度关系

    Figure  15.   Relationship between the number of LSTM units and the accuracy of OCR accuracy

    图  16   决策树数量与DFC精度关系

    Figure  16.   Relationship between the number of decision trees and DFC accuracy

    表  1   不同方法的对比结果

    Table  1   Accuracy comparison of different methods

    方法 具体实现 准确率/%
    微调法 VGG19[17] 75.83
    ResNet50[24] 81.93
    元学习法 Siamese network[25] 78.38
    本文方法 VGG19特征+异构集成 90.17
    下载: 导出CSV

    表  2   废旧手机识别模型精度对比结果

    Table  2   Accuracy comparison results of used mobile phone recognition models %

    方法 精度
    HOG特征+DFC模型 80.12
    VGG19特征+DFC模型 87.93
    VGG19特征+OCR模型 86.37
    VGG19特征+异构集成模型 90.17
    下载: 导出CSV

    表  3   不同森林算法的DFC模型精度对比

    Table  3   Accuracy comparison of DFC model based on different forest algorithms %

    模型 分类精度
    RF+CRF 80.69
    RF+GBDT 87.93
    CRF+GBDT 84.17
    下载: 导出CSV
  • [1] 韩红桂, 甄琪, 任柯燕, 等. 基于孪生卷积神经网络的手机型号识别方法[J]. 北京工业大学学报, 2021, 47(2): 112-119. doi: 10.11936/bjutxb2019100016

    HAN H G, ZHEN Q, REN K Y, et al. Mobile phone model recognition method based on Siamese convolutional neural network[J]. Journal of Beijing University of Technology, 2021, 47(2): 112-119. (in Chinese) doi: 10.11936/bjutxb2019100016

    [2]

    LINDA S. Global handset/smartphone/feature phone sales forecast for countries: 2007 to 2026[EB/OL]. [2021-03-01]. https://www.strategyanalytics.com/access-services/devices/mobile-phones/smartphone/smartphones/market-data/report-detail/global-handset-smartphone-feature-phone-sales-forecast-for-88-countries-2007-to-2026?Related.

    [3] 郭学益, 张婧熙, 黄国勇, 等. 典型电子废弃物中金属资源开采潜力分析[J]. 中国有色金属学报, 2018, 28(2): 365-376

    GUO X Y, ZHANG J X, HUANG G Y, et al. Exploitation potentiality analysis of metal resources in typical electronic waste[J]. Chinese Journal of Nonferrous Metals, 2018, 28(2): 365-376. (in Chinese)

    [4] 王子轩, 汤健, 夏恒, 等. 基于并行差分进化-梯度特征深度森林的废旧手机识别方法[J]. 控制理论与应用, 2022, 39(11): 2137-2148.

    WANG Z X, TANG J, XIA H, et al. Used mobile phone recognition method based on parallel differential evolution and gradient feature deep forest[J]. Control Theory & Applications, 2022, 39(11): 2137-2148. (in Chinese)

    [5]

    WANG Z, TANG J, CUI C, et al. Review of used mobile phone recognition method for recycling equipment[C]//2020 39th Chinese Control Conference (CCC). Piscataway: IEEE, 2020: 1105-1110.

    [6] 林琳, 吕彦诚, 郭昊, 等. 基于边缘检测的生产线手机膜缺陷识别方法[J]. 控制与决策, 2021, 36(4): 1017-1024.

    LIN L, LÜ Y C, GUO H, et al. Mobile phone protective film defect recognition method based on edge detection[J]. Control and Decision, 2021, 36(4): 1017-1024. (in Chinese)

    [7] 王睿男, 武穆清, 陈铁英, 等. 基于形态学的红外图像边缘检测[J]. 北京邮电大学学报, 2021, 44(1): 66-71.

    WANG R N, WU M Q, CHEN T Y, et al. Edge detection of infrared image based on morphology[J]. Journal of Beijing University of Posts and Telecommunications, 2021, 44(1): 66-71. (in Chinese)

    [8] 刘晓军, 类成玉, 张晓玲, 等. 基于卷积神经网络的人脸检测综述[J]. 兵工自动化, 2021, 40(6): 58-63.

    LIU X J, LEI C Y, ZHANG X L, et al. Face detection survey based on convolutional neural network[J]. Ordnance Automation, 2021, 40(6): 58-63. (in Chinese)

    [9] 刘芳, 浦昭辉, 张帅超. 基于注意力特征融合的无人机多目标跟踪算法[J]. 控制与决策, 2023, 38(2): 345-353.

    LIU F, PU Z H, ZHANG S C. UAV multi-target tracking algorithm based on attention feature fusion[J]. Control and Decision, 2023, 38(2): 345-353. (in Chinese)

    [10] 宋建辉, 孙晓南, 刘晓阳, 等. 融合HOG特征和注意力模型的孪生目标跟踪算法[J]. 控制与决策, 2023, 38(2): 327-334.

    SONG J H, SUN X N, LIU X Y, et al. Twin target tracking network combining HOG features and attention mode[J]. Control and Decision, 2023, 38(2): 327-334. (in Chinese)

    [11]

    AZIZI S, IMANI F, GHAVIDEL S, et al. Detection of prostate cancer using temporal sequences of ultrasound data: a large clinical feasibility study[J]. International Journal of Computer Assisted Radiology and Surgery, 2016, 11(6): 947-956. doi: 10.1007/s11548-016-1395-2

    [12]

    ZHOU Z H, FENG J. Deep forest[J]. National Science Review, 2019, 6(1): 74-86. doi: 10.1093/nsr/nwy108

    [13] 夏恒, 汤健, 乔俊飞. 深度森林研究综述[J]. 北京工业大学学报, 2022, 48(2): 182-196. doi: 10.11936/bjutxb2020120017

    XIA H, TANG J, QIAO J F. Review of deep forest[J]. Journal of Beijing University of Technology, 2022, 48(2): 182-196. (in Chinese) doi: 10.11936/bjutxb2020120017

    [14] 程月华, 江文建, 杨浩, 等. 基于深度森林的卫星ACS执行机构与传感器故障识别[J]. 航空学报, 2020, 41(增刊1): 195-205.

    CHENG Y H, JIANG W J, YANG H, et al. Fault identification of actuators and sensors of satellite attitude control systems based on deep forest algorithm[J]. Journal of Aeronautics and Astronautics, 2020, 41(Suppl 1): 195-205. (in Chinese)

    [15]

    LI H, ZHAO H, YU E, et al. A clothes classification method based on the gcForest[C]//2018 3rd IEEE International Conference on Image, Vision and Computing(ICIVC). Piscataway: IEEE, 2018: 429-432.

    [16] 李璐, 杜兰, 何浩男, 等. 基于深度森林的多级特征融合SAR目标识别[J]. 电子与信息学报, 2021, 43(3): 606-614.

    LI L, DU L, HE H N, et al. Multi-level feature fusion SAR automatic target recognition based on deep forest[J]. Journal of Electronics and Information, 2021, 43(3): 606-614. (in Chinese)

    [17]

    SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]//2015 The Eleventh International Conference on Learning Representations(ICLR). Ithaca: Cornell University Library, arXiv. org. 2015: 1-14.

    [18] 赵凯琳, 靳小龙, 王元卓. 小样本学习研究综述[J]. 软件学报, 2021, 32(2): 349-369.

    ZHAO K L, JIN X L, WANG Y Z. Survey on few-shot learning[J]. Journal of Software, 2021, 32(2): 349-369. (in Chinese)

    [19]

    LI T, MA Y, ENDOH T. A systematic study of tiny YOLO3 inference: toward compact brainware processor with less memory and logic gate[J]. IEEE Access, 2020, 8: 142931-142955. doi: 10.1109/ACCESS.2020.3013934

    [20]

    CHOWDARY V S, TEJA G P S, MOUNESH D, et al. Sign board recognition based on convolutional neural network using Yolo-3[J]. Journal of Computational and Theoretical Nanoscience, 2020, 17(8): 3478-3483. doi: 10.1166/jctn.2020.9214

    [21]

    SUN X, WU P, HOI S. Face detection using deep learning: an improved faster RCNN approach[J]. Neurocomputing, 2018, 299: 42-50. doi: 10.1016/j.neucom.2018.03.030

    [22] 汤健, 乔俊飞, 郭子豪. 基于潜在特征选择性集成建模的二噁英排放浓度软测量[J]. 自动化学报, 2022, 48(1): 223-238.

    TANG J, QIAO J F, GUO Z H. Dioxin emission concentration soft measurement based on multi-source latent feature selective ensemble modeling for municipal solid waste incineration process[J]. Acta Automatica Sinica, 2022, 48(1): 223-238. (in Chinese)

    [23]

    SHI B, BAI X, YAO C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2298-2304. doi: 10.1109/TPAMI.2016.2646371

    [24]

    HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2016: 770-778.

    [25]

    CHOPRA S, HADSELL R, LECUN Y. Learning a similarity metric discriminatively, with application to face verification[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). Piscataway: IEEE, 2005: 539-546.

  • 期刊类型引用(2)

    1. 彭桂喜,袁思遥,高梓寒,吴玉龙,孙昊. 基于深度学习低图像要求的继电保护压板状态自动识别方法. 电力科学与技术学报. 2024(02): 134-142 . 百度学术
    2. 李荣基. 基于注意力机制的图像识别与目标检测方法. 电脑编程技巧与维护. 2024(06): 149-151 . 百度学术

    其他类型引用(2)

图(16)  /  表(3)
计量
  • 文章访问数:  146
  • HTML全文浏览量:  17
  • PDF下载量:  46
  • 被引次数: 4
出版历程
  • 收稿日期:  2022-03-20
  • 修回日期:  2022-07-05
  • 网络出版日期:  2023-11-28
  • 刊出日期:  2024-01-09

目录

/

返回文章
返回