• 综合性科技类中文核心期刊
    • 中国科技论文统计源期刊
    • 中国科学引文数据库来源期刊
    • 中国学术期刊文摘数据库(核心版)来源期刊
    • 中国学术期刊综合评价数据库来源期刊

一种面向视频传输应用的联合上下采样超分辨率框架

刘鹏宇, 王聪聪, 贾克斌

刘鹏宇, 王聪聪, 贾克斌. 一种面向视频传输应用的联合上下采样超分辨率框架[J]. 北京工业大学学报, 2021, 47(5): 463-471. DOI: 10.11936/bjutxb2021010001
引用本文: 刘鹏宇, 王聪聪, 贾克斌. 一种面向视频传输应用的联合上下采样超分辨率框架[J]. 北京工业大学学报, 2021, 47(5): 463-471. DOI: 10.11936/bjutxb2021010001
LIU Pengyu, WANG Congcong, JIA Kebin. Joint Up-and-Down Sampling Super-resolution Framework for Video Transmission Application Services[J]. Journal of Beijing University of Technology, 2021, 47(5): 463-471. DOI: 10.11936/bjutxb2021010001
Citation: LIU Pengyu, WANG Congcong, JIA Kebin. Joint Up-and-Down Sampling Super-resolution Framework for Video Transmission Application Services[J]. Journal of Beijing University of Technology, 2021, 47(5): 463-471. DOI: 10.11936/bjutxb2021010001

一种面向视频传输应用的联合上下采样超分辨率框架

基金项目: 

国家重点研发计划资助项目 2018YFF01010100

国家自然科学基金资助项目 61672064

青海省基础研究计划资助项目 2020-ZJ-709

详细信息
    作者简介:

    刘鹏宇(1979-), 女, 副教授, 主要从事多媒体信息处理方面的研究, E-mail: liupengyu@bjut.edu.cn

  • 中图分类号: TP309.5

Joint Up-and-Down Sampling Super-resolution Framework for Video Transmission Application Services

  • 摘要:

    针对目前面向视频传输应用中,对低分辨率视频应用超分辨率技术进行还原时引发严重病态性问题,结合视频传输的全过程,提出一种联合上下采样的超分辨率框架.该框架通过将下采样过程和超分辨率过程进行联合训练,使得原始高分辨率视频的信息能够指导低分辨率视频的重建,并且下采样过程和超分辨率过程互相约束,减小了整个映射空间的尺寸,使得模型的泛化能力更强.实验表明,提出的方法在常用的图像超分辨率数据集上峰值信噪比(peak signal-to-noise ratio,PSNR)指标平均提升超过2.9 dB,在国际视频编码标准HEVC标准测试序列上平均达到近乎无损(PSNR指标超过40 dB),证明所提框架对于视频传输应用具有积极的意义.

    Abstract:

    In view of the serious ill-posed problems caused by the application of super-resolution technology to low-resolution video in current video transmission applications, a joint up-and-down sampling super-resolution framework combined with the whole process of video transmission was proposed in this paper. Through the joint training of the down-sampling process and the super-resolution process, the information of the original high-resolution video could guide the reconstruction of low-resolution video, and the down-sampling process and the super-resolution process were mutually constrained, which reduced the size of the whole mapping space and made the generalization ability of the model stronger. Experiments show that the proposed method improves the peak signal-to-noise ratio (PSNR) index on average by more than 2.9 dB of the commonly used image super-resolution data set, and reaches nearly lossless on average on the international video coding standard HEVC test sequence (the PSNR index exceeds 40 dB). The results prove that the framework proposed in this paper has positive significance for video transmission application service.

  • 高质量、低码率是视频传输中永恒不变的追求,如何在保证视频质量的前提下降低带宽成本是整个视频传输应用中重要的一环. 然而,目前用于视频压缩传输的主流编码技术,从MPEG1[1]到H.264[2],再到H.265[3],每隔10年时间,视频的压缩率仅能提升1倍左右,平均每年压缩率提升只有不到7%,远远低于视频数据量的增长率.

    为了提升视频压缩率,通常在发送端对高分辨率视频进行降分辨率的下采样操作,然后在信道中传输低分辨率的视频,最后在接收端应用图像超分辨率技术还原出高分辨率的视频[4],这种方法可以有效缓解视频传输过程中的带宽压力. 然而,在发送端进行下采样时,由于丢失了大量原始高分辨率视频中的高频信息,使得在接收端应用图像超分辨率技术进行还原时面临高度的病态性问题,正是由于在映射空间中存在不止一组对应的高分辨率图像和低分辨率图像,这无疑给重建原始高分辨率视频带来极大的困难.

    为了缓解视频传输应用中使用图像超分辨率技术带来的高度病态性问题,本文提出一种联合上下采样的超分辨率框架. 该框架的优势是通过设计卷积神经网络模拟图像的降采样过程,使得原始高分辨率图像的信息能够“隐匿”在降采样后的图像中,然后再与图像超分辨率模型进行端到端的训练. 实验表明,这种通过引入原始高分辨率图像信息、上下采样过程联动的方式可以有效缓解超分辨率重建中的病态性问题,大幅提高重建图像质量.

    超分辨率技术是一种将低分辨率图像重建为高分辨率图像的技术[5]. 提升图像的分辨率不仅能带来良好的视觉体验,还能提高后续视觉任务的检测效果,是一项重要的图像处理技术,也是计算机视觉领域重要的课题之一.

    早期的研究使用插值的方法来解决超分辨率问题[6],但是这些方法在预测细节、真实感和纹理方面存在局限性. 之后,有研究使用基于统计学习的方法来解决超分辨率问题[7],其原理与基于深度学习的方法类似,大都是研究低分辨率图像和高分辨率图像之间的映射关系.

    近些年来,深度学习技术凭借其强大的特征提取能力在各项图像任务中取得非凡的成果[8],包括图像识别[9-10]、目标检测[11-12]、图像处理[13-14]等,其中还包括图像超分辨率. 利用深度学习处理超分辨率任务的本质是通过建立卷积神经网络模型来拟合低分辨率图像与高分辨率图像间的映射关系. 具体来说,主要有以下4种框架:

    1) 前置上采样超分辨率

    这种框架首先使用传统方法(如双三次插值)对原始低分辨率图像进行上采样得到“粗高分辨率图像”,然后通过卷积神经网络去拟合“粗高分辨率图像”与真实高分辨率图像之间的映射关系[15-18]. 该方法只需要对“粗高分辨率图像”进行精细化处理,大大降低了模型的拟合难度. 但是,这种方法会放大原始图像中的噪声和模糊,同时由于拟合发生在高维空间,计算复杂度相对较高.

    2) 后置上采样超分辨率

    与前置上采样超分辨率框架相对的一种框架是后置上采用超分辨率[19-22],该方法使用卷积神经网络以不改变尺寸的方式提取原始图像特征,最后使用一个可学习的上采样层对模型进行端到端的训练. 这种框架的计算主要在低维空间进行,相较于前置上采样框架可大幅降低计算复杂度,但由于其在上采样层的学习难度很大,重建性能不够稳定.

    3) 逐步上采样超分辨率

    一种折衷的想法在Laplacian Pyramid SR Network[23-24]和progressive SR[25]中被提出,即将最后的大的上采样分解成数个小的上采样,在每一个小的上采样前使用卷积神经网络来提取图像特征. 如此,通过将一个困难的任务分解成数个简单的任务,极大地降低了学习难度,获得更好的性能. 但这种方式的缺陷在于模型复杂,训练难度大.

    4) 迭代上下采样超分辨率

    这种框架采用类似U-Net的结构[26],通过在模型中交替使用上采样和下采样意在更充分地挖掘低分辨率图像与高分辨率图像对之间的深层关系[27],从而提供更高质量的重建结果.

    一般来说,峰值信噪比(peak signal-to-noise ratio, PSNR)高于40 dB表明处理后的图像非常接近原始图像,但目前图像超分辨率方法很难达到这一指标. 其关键在于上述4类超分辨率框架都存在上采样这一步骤,由于原始信息的缺乏,这个步骤是高度病态的. 如何降低高度病态性,是突破现有超分重建技术的关键所在. 本文从视频传输的角度重新思考超分辨率的框架设计,将原始高分辨率图像的信息引入图像的上采样过程中,以缓解上采样引发的高度病态性问题.

    超分辨率问题可以表示为

    $$ L = {f_{{\rm{bic }}}}(H) $$ (1)

    记原始高分辨率图像为H,其对应的低分辨率图像为L,这个低分辨率图像一般由双三次插值得到,其中fbic为双三次插值函数,超分辨率的目的是找到一个“逆函数”fsr,使得

    $$ H = {f_{{\rm{sr}}}}(L) $$ (2)

    显然这样的变换是高度病态的,直接使用卷积神经网络去拟合这样的变换关系存在困难,因为低分辨率与高分辨率图像之间的映射空间过于庞大,一个低分辨率图像可以映射为多个高分辨率图像.

    这个问题在图像超分辨率中是无解的,因为输入数据在经过双三次插值后,已经损失了大量高分辨率图像信息. 为了解决这个问题,本文拟通过约束超分辨率过程中的映射空间来提升超分辨率的性能. 具体而言,在训练低分辨率图像和高分辨率图像的映射关系时,通过额外训练一个高分辨率图像到低分辨率图像的映射关系来限制低分辨率图像的映射空间,表达式为

    $$ H = {f_{{\rm{sr }}}}\left( {{f_{{\rm{ds }}}}(H)} \right) $$ (3)

    式中:fsr为低分辨率图像到高分辨率图像的映射函数;fds为高分辨率图像到低分辨率图像的映射函数. 通过联合训练这2个映射函数,可以有效限制超分辨率过程中映射空间的大小.

    进一步,根据Hoeffding[28]不等式

    $$ P[R(f)-\hat{R}(f)\ge \epsilon ]\le {{\text{e}}^{\left( -\frac{2N{{\epsilon }^{2}}}{\sum\limits_{i=1}^{N}{{{\left( {{b}_{i}}-{{a}_{i}} \right)}^{2}}}} \right)}} $$ (4)

    对任意的fFR(f)是期望风险,$\hat R\left( f \right)$是经验风险,N为样本数量,ϵ为泛化误差,[ai, bi]为样本区间,在本任务中可以记为[0, C],其中C为常数,则式(4)可进一步化简为

    $$ P[R(f)-\hat{R}(f)\ge \epsilon ]\le {{\text{e}}^{\left( -\frac{2N{{\epsilon }^{2}}}{{{C}^{2}}} \right)}} $$ (5)

    由于F={f1, f2, …, fd}为一个有限集合,d为映射空间尺寸,故

    $$ \begin{matrix} P[\exists f\in F:R(f)-\hat{R}(f)\ge \epsilon ]= \\ P\left[ \bigcup\limits_{f\in F}{\{R(}f)-\hat{R}(f)\ge \epsilon \} \right]\le \\ \sum\limits_{f\in F}{P}(R(f)-\hat{R}(f)\ge \epsilon )\le d{{\text{e}}^{\left( -\frac{2N{{\epsilon }^{2}}}{{{C}^{2}}} \right)}} \\ \end{matrix} $$ (6)

    令$d{{\text{e}}^{\left( -\frac{2N{{\epsilon }^{2}}}{{{C}^{2}}} \right)}}=\delta $,则$\epsilon =C\sqrt{\frac{\ln d+\ln \frac{1}{\delta }}{2N}}$,即样本空间越大,映射空间尺寸越小,泛化误差也越小. 因此,通过减小超分辨率函数的映射空间尺寸,在理论上可以有效提升模型性能,后续的实验结果同样证明了这一点.

    基于理论推导,本文提出一种联合上下采样的超分辨率框架,如图 1所示.

    图  1  联合上下采样超分辨率框架
    Figure  1.  Joint up-and-down sampling super-resolution framework

    所提出的框架主要由下采样网络和超分辨率网络构成. 下采样网络用于对高分辨率图像进行降采样操作,使用由传统退化方法(双三次插值)得到的低分辨率图像进行监督训练. 在这个过程中,相比“粗暴”的插值方式,更多的高分辨率信息被隐匿在生成的低分辨率图像中,同时在结构上又与插值方式生成的低分辨率图像相同,不影响主观视觉效果. 超分辨率网络即为普通的超分辨率网络,不同的是,其输入为保留了高分辨率图像信息的低分辨率图像,使得还原的难度更低. 最后,整个框架进行联合训练,降采样过程与超分辨率过程互相约束,总体上减小了映射空间的尺寸,有效提升了模型性能.

    框架的具体结构如表 12所示. 为了便于对提出的方案进行验证,超分辨率网络部分直接选用了一种流行的超分辨率模型——EDSR[22]模型,这种模型结构简洁,性能强大,便于进行实验效果的对比. 而下采样网络在设计过程中遵循超分辨率网络的设计范式,取消批归一化层,通过堆叠残差块的方式提升模型能力[29],缓解网络训练过程中可能出现的梯度消失和梯度爆炸.

    表  1  下采样网络结构
    Table  1.  Down-sampling network structure
    模块名 输入分辨 操作模块 输出分辨
    Head 192×192 Conv(3×3) 192×192
    Body 192×192 Resblock×32 192×192
    Tail 192×192 Conv(3×3,stride=2) 96×96
    下载: 导出CSV 
    | 显示表格
    表  2  超分辨率网络结构
    Table  2.  Super-resolution network structure
    模块名 输入分辨 操作模块 输出分辨
    Head 96×96 Conv(3×3) 96×96
    Body 96×96 Resblock×32 96×96
    Tail 96×96 Conv(3×3)Pixeshuffle 192×192
    下载: 导出CSV 
    | 显示表格

    下采样网络结构和超分辨率网络结构均包含Head、Body、Tail三个模块,其中Head模块由一层3×3的卷积层组成,用于扩展模型的整体宽度,使得特征的映射在一个较大的空间内进行,以提升性能;Body模块为主要的特征提取层,具体结构如图 2所示,包含2个3×3的卷积层和1个激活函数层, 并使用残差连接的方式进行组合;Tail模块的作用是改变输入维度,实现降采样或超分辨率,分别由带步长的卷积层和Pixelshuffle[30]构成.

    图  2  残差块
    Figure  2.  Resblock

    图 1所示的联合上下采样超分辨率框架同目前主流的超分辨率框架一样,需要使用成对的高、低分辨率图像进行训练(低分辨率图像由双三次插值方法退化得到). 区别在于,其总体结构上输入为高分辨率图像,输出也为高分辨率图像,而低分辨率图像能够用于监督上采样网络的输出.

    另外值得注意的是,由于下采样网络的输出结果为浮点类型,为满足实际应用场景的需求,输出需要通过量化转化为整形. 而这一量化过程是不可导的,导致无法通过反向传播进行训练. 因此,训练过程分为2步. 即首先不加入量化过程,进行下采样网络和超分辨率网络的联合训练;在模型收敛后,在模型中加入量化步骤,加载联合训练后的权重作为初值进行微调,即可完成整体框架的训练.

    本文将所提出框架在主流超分数据集和HEVC标准测试序列与框架中采用的超分辨率模型EDSR进行了2倍、3倍、4倍的超分辨率实验对比,以下是实验参数和实验结果展示.

    为保证公平,所有模型均基于超分辨率数据集DIV2K[31]的前800张图片进行训练,DIV2K数据集可使用图像共900张,其中100张用于验证,800张用于训练,图像平均分辨率1 972×1 734,包含风景、动物、植物、人、食物、建筑、车辆、手工艺品等多种类别,是被最为广泛使用的超分辨率数据集.

    测试使用的图像超分辨率数据集包括Set14[32](见图 3(a)),Manga109[33](见图 3(b)),BSD100[34](见图 3(c)),Set5[35](见图 3(d)),Urban100[36](见图 3(e)),其中,Urban100主要为建筑图像,Manga109为漫画图像.

    图  3  测试图像数据集
    Figure  3.  Test image data sets

    此外,选取了5种分辨率和场景各异的HEVC标准测试序列进行了测试,如图 4所示,均选取时长为10 s的片段,利用视频编码常用工具FFmpeg将视频序列保存为RGB图像,根据其帧率的区别每个序列获得240~500张图像.

    图  4  测试视频数据集
    Figure  4.  Test video data sets

    实验基于深度学习框架PyTorch[37]进行,硬件设备为RTX2080TI. 使用图像Y通道上的PSNR和结构相似度(structural similarity, SSIM)为指标进行性能评判标准,同时也进行主观效果的对比展示.

    在训练过程中,与通常的超分辨率模型训练方法相同,将图像切为192×192的小片进行训练,推断则在整张图像上推断. 使用Adam优化器,初始学习率为1×10-4,以余弦退火策略进行学习率的调整,使用L1(第一范数)损失作为损失函数.

    在图像超分数据集和HEVC标准测试序列上的结果分别如表 34所示. 其中,Bicubic[38]代表使用双三次插值的方式进行上采样的超分辨率结果,其数值可以在一定程度上代表数据集的还原难度,一般作为实验的基线展示. EDSR为所对比的超分辨率模型,Proposed为提出的联合上下采样的超分辨率框架.

    表  3  在图像数据集上的性能对比
    Table  3.  Performance comparisons on image data sets
    数据集 倍数 Bicubic EDSR Proposed
    PSNR/dB SSIM PSNR/dB SSIM PSNR/dB SSIM
    Set5 2 33.66 0.929 9 38.01 0.963 5 41.24 0.979 5
    3 30.39 0.868 2 34.53 0.934 7 36.4 0.953 6
    4 28.42 0.860 3 32.39 0.904 8 34.37 0.931 8
    Set14 2 30.24 0.868 8 33.66 0.926 4 38.27 0.968 4
    3 27.55 0.774 2 30.16 0.859 3 32.82 0.920 9
    4 26 0.702 7 28.43 0.802 2 30.71 0.880 8
    BSD100 2 29.56 0.843 1 32.31 0.908 8 38.12 0.974 6
    3 27.21 0.738 5 29.25 0.822 7 32 0.906 2
    4 25.96 0.667 5 27.73 0.756 0 30.06 0.851 7
    Urban100 2 26.88 0.840 3 32.82 0.938 8 37.28 0.975 9
    3 24.46 0.734 9
    4 23.14 0.657 7 26.56 0.813 8 28.7 0.878 8
    Manga109 2 29.02 0.891 2 28.9 0.914 9
    3 22.49 0.779 9 25.72 0.856 0
    4 20.74 0.725 6 24.05 0.808 3
    下载: 导出CSV 
    | 显示表格
    表  4  在视频数据集上的性能对比
    Table  4.  Performance comparisons on video data sets
    数据集 倍数 Bicubic EDSR Proposed
    PSNR/dB SSIM PSNR/dB SSIM PSNR/dB SSIM
    BasketballDrive 2 35.04 0.923 5 38.87 0.947 9 42.07 0.965 6
    3 32.07 0.876 9 35.45 0.916 2 38.43 0.938 5
    4 30.53 0.840 6 33.49 0.891 0 37.3 0.925 0
    BQTerrace 2 31.68 0.884 3 35.79 0.930 2 39.71 0.960 7
    3 28.48 0.796 9 31.97 0.876 6 35.34 0.920 4
    4 26.84 0.727 5 30.07 0.827 7 33.46 0.892 1
    Cactus 2 35.18 0.922 4 38.76 0.947 9 41.1 0.963 4
    3 32.15 0.868 4 35.17 0.911 5 37.65 0.935 5
    4 30.5 0.823 6 33.25 0.881 2 35.69 0.912 0
    Kimono 2 42.94 0.970 1 44.57 0.976 0 45.24 0.978 9
    3 40.24 0.951 0 42.44 0.964 2 42.96 0.968 0
    4 38.09 0.929 4 40.88 0.951 9 41.42 0.957 9
    ParkScene 2 35.59 0.934 7 39.86 0.961 7 42.29 0.975 3
    3 33.36 0.872 9 36.03 0.918 8 38.13 0.946 8
    4 31.57 0.816 8 33.85 0.874 2 35.86 0.914 7
    下载: 导出CSV 
    | 显示表格

    图 56分别为各个图像和视频数据集下不同超分倍数任务的平均PSNR指标,可以看到,在几乎所有的图像超分辨率数据集上以及超分辨率倍数任务中,所提出框架相较原始的EDSR模型均有较明显的提升,在图像数据集上相比原始的EDSR模型平均提升超过2.9 dB. 这表明通过约束超分辨率任务的函数映射空间,能够有效缓解超分辨率任务中的病态性问题. 值得注意的是在HEVC标准测试序列中,所提出的框架甚至能达到无损(PSNR超过40 dB)的程度,相比原始的EDSR模型平均提升超过1 dB,证明本文提出的方法对于视频传输具有十分积极的意义.

    图  5  图片数据集上的平均PSNR性能对比
    Figure  5.  Average PSNR performance comparisons on image data sets
    图  6  视频数据集上的平均PSNR性能对比
    Figure  6.  Average PSNR performance comparisons on video data sets

    在图片数据集上的主观效果对比如图 7所示,图 7(a)为原始高分辨率图像,图 7(b)为双三次插值的恢复结果,图 7(c)(d)分别为EDSR模型和所提出的框架的恢复效果,可以看到,使用所提出的方法,一些细节和纹理能够被更好地恢复. 图 8为在视频序列上的测试效果,图 8(a)为原始图像,图 8(b)为双三次插值恢复的图像,图 8(c)(d)分别为EDSR模型和所提出框架的恢复结果,可以明显看出细节部分的质量提升. 因此,从主观效果上来看,所提出的框架具有更有竞争力的效果.

    图  7  图像恢复质量主观对比
    Figure  7.  Image restoration quality subjective contrast
    图  8  视频恢复质量主观对比
    Figure  8.  Video restoration quality subjective contrast

    本文从模型的参数量、浮点运算数和显存占用3个角度分析所提出模型的计算效率,并与原始的EDSR模型进行对比,如表 5所示. 表格中为2倍、3倍、4倍超分辨率任务下输入尺寸为192×192切片情况下的计算效率统计,可以看到,由于增加了一个全新的上采样模块,相比原始的EDSR,模型的参数量、浮点运算数和显存都有较大的消耗. 一般来说,神经网络参数量越多,拟合能力就越强[29],为消除参数量的影响,进一步进行了有关参数量的消融实验.

    表  5  计算效率分析
    Table  5.  Analysis of computational efficiency
    指标 倍数 EDSR 所提出模型
    参数量 2 1 369 859 3 810 630
    3 1 554 499 3 995 270
    4 1 517 571 3 995 270
    浮点运算数/GFlops 2 50.69 101.58
    3 57.82 95.13
    4 73.24 93.56
    显存占用/MByte 2 388.69 693.53
    3 480.8 648.47
    4 681.75 639.45
    下载: 导出CSV 
    | 显示表格

    不改变框架整体结构,通过将目前框架的宽度(通道数)减半并适当减少残差块数量的方式训练了2倍超分辨率任务下的新模型,新模型的参数量与EDSR模型相当,在图像和视频数据集上的表现如表 6所示. 需要注意的是,尽管低参数量模型的超分辨率部分不再与EDSR完全相同,但依然采用了一致的设计范式. 可以看到,在消除了参数量的影响后,所提出的框架依然具有有竞争力的结果.

    表  6  低参数量模型性能
    Table  6.  Low parameter number model performance
    数据集 EDSR 低参数量模型
    PSNR/dB SSIM PSNR/dB SSIM
    Set5 38.01 0.963 5 40.93 0.968 5
    Set14 33.66 0.926 4 37.95 0.963 0
    BSD100 32.31 0.908 8 37.59 0.968 3
    Urban100 32.82 0.938 8 37.04 0.973 1
    Manga109 29.02 0.891 2 28.20 0.905 3
    BasketballDrive 38.87 0.947 9 41.55 0.959 6
    BQTerrace 35.79 0.930 2 39.40 0.956 5
    Cactus 38.76 0.947 9 40.88 0.960 1
    Kimono 44.57 0.976 0 44.92 0.973 2
    ParkScene 39.86 0.961 7 41.89 0.971 1
    下载: 导出CSV 
    | 显示表格

    1) 针对超分辨率技术中的高度病态性问题,本文面向视频传输应用提出一种联合上下采样的超分辨框架.

    2) 针对所提出的超分辨率框架,在模型泛化能力层面上,给出其在理论上具有更佳表现的证明. 即通过减少超分辨率中映射函数的空间尺寸,可以有效提升模型的能力.

    3) 基于所提出框架构建了深度学习模型,通过在框架的超分辨率模型使用EDSR模型并与原始的EDSR模型进行对比实验. 实验结果表明,所提出框架在图像数据集上相比原始EDSR模型可以提升超过2.9 dB的PSNR指标,在HEVC标准测试序列上可以达到近乎无损,并且主观效果提升明显,证明所提出框架的有效性.

  • 图  1   联合上下采样超分辨率框架

    Figure  1.   Joint up-and-down sampling super-resolution framework

    图  2   残差块

    Figure  2.   Resblock

    图  3   测试图像数据集

    Figure  3.   Test image data sets

    图  4   测试视频数据集

    Figure  4.   Test video data sets

    图  5   图片数据集上的平均PSNR性能对比

    Figure  5.   Average PSNR performance comparisons on image data sets

    图  6   视频数据集上的平均PSNR性能对比

    Figure  6.   Average PSNR performance comparisons on video data sets

    图  7   图像恢复质量主观对比

    Figure  7.   Image restoration quality subjective contrast

    图  8   视频恢复质量主观对比

    Figure  8.   Video restoration quality subjective contrast

    表  1   下采样网络结构

    Table  1   Down-sampling network structure

    模块名 输入分辨 操作模块 输出分辨
    Head 192×192 Conv(3×3) 192×192
    Body 192×192 Resblock×32 192×192
    Tail 192×192 Conv(3×3,stride=2) 96×96
    下载: 导出CSV

    表  2   超分辨率网络结构

    Table  2   Super-resolution network structure

    模块名 输入分辨 操作模块 输出分辨
    Head 96×96 Conv(3×3) 96×96
    Body 96×96 Resblock×32 96×96
    Tail 96×96 Conv(3×3)Pixeshuffle 192×192
    下载: 导出CSV

    表  3   在图像数据集上的性能对比

    Table  3   Performance comparisons on image data sets

    数据集 倍数 Bicubic EDSR Proposed
    PSNR/dB SSIM PSNR/dB SSIM PSNR/dB SSIM
    Set5 2 33.66 0.929 9 38.01 0.963 5 41.24 0.979 5
    3 30.39 0.868 2 34.53 0.934 7 36.4 0.953 6
    4 28.42 0.860 3 32.39 0.904 8 34.37 0.931 8
    Set14 2 30.24 0.868 8 33.66 0.926 4 38.27 0.968 4
    3 27.55 0.774 2 30.16 0.859 3 32.82 0.920 9
    4 26 0.702 7 28.43 0.802 2 30.71 0.880 8
    BSD100 2 29.56 0.843 1 32.31 0.908 8 38.12 0.974 6
    3 27.21 0.738 5 29.25 0.822 7 32 0.906 2
    4 25.96 0.667 5 27.73 0.756 0 30.06 0.851 7
    Urban100 2 26.88 0.840 3 32.82 0.938 8 37.28 0.975 9
    3 24.46 0.734 9
    4 23.14 0.657 7 26.56 0.813 8 28.7 0.878 8
    Manga109 2 29.02 0.891 2 28.9 0.914 9
    3 22.49 0.779 9 25.72 0.856 0
    4 20.74 0.725 6 24.05 0.808 3
    下载: 导出CSV

    表  4   在视频数据集上的性能对比

    Table  4   Performance comparisons on video data sets

    数据集 倍数 Bicubic EDSR Proposed
    PSNR/dB SSIM PSNR/dB SSIM PSNR/dB SSIM
    BasketballDrive 2 35.04 0.923 5 38.87 0.947 9 42.07 0.965 6
    3 32.07 0.876 9 35.45 0.916 2 38.43 0.938 5
    4 30.53 0.840 6 33.49 0.891 0 37.3 0.925 0
    BQTerrace 2 31.68 0.884 3 35.79 0.930 2 39.71 0.960 7
    3 28.48 0.796 9 31.97 0.876 6 35.34 0.920 4
    4 26.84 0.727 5 30.07 0.827 7 33.46 0.892 1
    Cactus 2 35.18 0.922 4 38.76 0.947 9 41.1 0.963 4
    3 32.15 0.868 4 35.17 0.911 5 37.65 0.935 5
    4 30.5 0.823 6 33.25 0.881 2 35.69 0.912 0
    Kimono 2 42.94 0.970 1 44.57 0.976 0 45.24 0.978 9
    3 40.24 0.951 0 42.44 0.964 2 42.96 0.968 0
    4 38.09 0.929 4 40.88 0.951 9 41.42 0.957 9
    ParkScene 2 35.59 0.934 7 39.86 0.961 7 42.29 0.975 3
    3 33.36 0.872 9 36.03 0.918 8 38.13 0.946 8
    4 31.57 0.816 8 33.85 0.874 2 35.86 0.914 7
    下载: 导出CSV

    表  5   计算效率分析

    Table  5   Analysis of computational efficiency

    指标 倍数 EDSR 所提出模型
    参数量 2 1 369 859 3 810 630
    3 1 554 499 3 995 270
    4 1 517 571 3 995 270
    浮点运算数/GFlops 2 50.69 101.58
    3 57.82 95.13
    4 73.24 93.56
    显存占用/MByte 2 388.69 693.53
    3 480.8 648.47
    4 681.75 639.45
    下载: 导出CSV

    表  6   低参数量模型性能

    Table  6   Low parameter number model performance

    数据集 EDSR 低参数量模型
    PSNR/dB SSIM PSNR/dB SSIM
    Set5 38.01 0.963 5 40.93 0.968 5
    Set14 33.66 0.926 4 37.95 0.963 0
    BSD100 32.31 0.908 8 37.59 0.968 3
    Urban100 32.82 0.938 8 37.04 0.973 1
    Manga109 29.02 0.891 2 28.20 0.905 3
    BasketballDrive 38.87 0.947 9 41.55 0.959 6
    BQTerrace 35.79 0.930 2 39.40 0.956 5
    Cactus 38.76 0.947 9 40.88 0.960 1
    Kimono 44.57 0.976 0 44.92 0.973 2
    ParkScene 39.86 0.961 7 41.89 0.971 1
    下载: 导出CSV
  • [1]

    International Organization for Standardization/International Electrotechnical Commission. Coding of movmg pictures and associated audio for digital storage media at up to about 1.5 Mbit/s — part 2: video[S]. Geneva: ISO/IEC, 1993.

    [2]

    ITU Telecommunication Standardization Sector. Advanced video coding for generic audiovisual services[S]. Geneva: ITU-T Rec, 2003.

    [3]

    ITU Telecommunication Standardization Sector. High efficiency video coding[S]. Geneva: ITU-T Rec, 2013.

    [4]

    LIU H, RUAN Z, ZHAO P, et al. Video super resolution based on deep learning: acomprehensive survey[EB/OL]. (2020-12-20)[2020-12-31]. https://arxiv.org/abs/2007.12928.

    [5]

    DONG C, LOY C C, HE K, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(2): 295-307. doi: 10.1109/TPAMI.2015.2439281

    [6]

    TSAI R Y, HUANG T S. Multiframe image restoration and registration [J]. Advances in Computer Vision and Image Processing, 1984(1): 101-106. http://ci.nii.ac.jp/naid/10026807118/

    [7]

    FARSIU S, ROBINSON M D, ELAD M, et al. Fast and robust multiframe super resolution [J]. IEEE Transactions on Image Processing, 2004, 13(10): 1327-1344. doi: 10.1109/TIP.2004.834669

    [8]

    GOODFELLOW I, BENGIO Y, COURVILLE A. Deep learning [M]. Cambridge, MA, USA: MIT Press, 2016: 11-12.

    [9]

    KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90. doi: 10.1145/3065386

    [10]

    SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2015-4-10)[2020-12-31]. https://arxiv.org/abs/1409.1556.

    [11]

    REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(6): 1137-1149.

    [12]

    REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 779-788.

    [13]

    LI Y, LU H, LI J, et al. Underwater image de-scattering and classification by deep neural network[J]. Computers & Electrical Engineering, 2016, 54: 68-77. http://www.sciencedirect.com/science/article/pii/S0045790616302075

    [14]

    ANWAR S, HUYNH C P, PORIKLI F. Chaining identity mapping modules for image denoising[EB/OL]. (2019-7-19)[2020-12-31]. https://arxiv.org/abs/1712.02933.

    [15]

    TAI Y, YANG J, LIU X, et al. Memnet: a persistent memory network for image restoration [C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 4539-4547.

    [16]

    TAI Y, YANG J, LIU X. Image super-resolution via deep recursive residual network [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 3147-3155.

    [17]

    KIM J, KWON LEE J, MU LEE K. Deeply-recursive convolutional network for image super-resolution [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1637-1645.

    [18]

    SHOCHER A, COHEN N, IRANI M. "Zero-Shot" super-resolution using deep internal learning [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 3118-3126.

    [19]

    DONG C, LOY C C, TANG X. Accelerating the super-resolution convolutional neural network [C]//European Conference on Computer Vision. Berlin: Springer, 2016: 391-407.

    [20]

    SHI W, CABALLERO J, HUSZÁR F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1874-1883.

    [21]

    LEDIG C, THEIS L, HUSZÁR F, et al. Photo-realistic single image super-resolution using a generative adversarial network [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscatway: IEEE, 2017: 4681-4690.

    [22]

    LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super-resolution [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE, 2017: 136-144.

    [23]

    LAI W S, HUANG J B, AHUJA N, et al. Deep laplacian pyramid networks for fast and accurate super-resolution [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 624-632.

    [24]

    LAI W S, HUANG J B, AHUJA N, et al. Fast and accurate image super-resolution with deep laplacian pyramid networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 41(11): 2599-2613. http://www.computer.org/csdl/trans/tp/preprint/08434354-abs.html

    [25]

    WANG Y, PERAZZI F, MCWILLIAMS B, et al. A fully progressive approach to single-image super-resolution [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE, 2018: 864-873.

    [26]

    RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-assisted Intervention. Berlin: Springer, 2015: 234-241.

    [27]

    TIMOFTE R, ROTHE R, VAN GOOL L. Seven ways to improve example-based single image super resolution[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1865-1873.

    [28]

    KRAFFT O, SCHMITZ N. A note on Hoeffding's inequality[J]. Journal of the American Statistical Association, 1969, 64(327): 907-912. doi: 10.1080/01621459.1969.10501022

    [29]

    HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.

    [30]

    HUANG C K, NIEN H H. Multi chaotic systems based pixel shuffle for image encryption[J]. Optics Communications, 2009, 282(11): 2123-2127. doi: 10.1016/j.optcom.2009.02.044

    [31]

    AGUSTSSON E, TIMOFTE R. Ntire 2017 challenge on single image super-resolution: dataset and study[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE, 2017: 126-135.

    [32]

    ZEYDE R, ELAD M, PROTTER M. On single image scale-up using sparse-representations[C]//International Conference on Curves and Surfaces. Berlin: Springer, 2010: 711-730.

    [33]

    FUJIMOTO A, OGAWA T, YAMAMOTO K, et al. Manga109 dataset and creation of metadata[C]//Proceedings of the 1st International Workshop on Comics Analysis, Processing and Understanding. Piscataway: IEEE, 2016: 1-5.

    [34]

    KIM J, KWON LEE J, MU LEE K. Accurate image super-resolution using very deep convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1646-1654.

    [35]

    BEVILACQUA M, ROUMY A, GUILLEMOT C, et al. Low-complexity single-image super-resolution based on nonnegative neighbor embedding[C]//Proceedings of the 23rd British Machine Vision Conference (BMVC). Piscataway: IEEE, 2012.

    [36]

    HUANG J B, SINGH A, AHUJA N. Single image super-resolution from transformed self-exemplars[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 5197-5206.

    [37]

    PASZKE A, GROSS S, MASSA F, et al. PyTorch: an imperative style, high-performance deep learning library [C]//Advances in Neural Information Processing Systems. Piscataway: IEEE, 2019: 8024-8035.

    [38]

    KEYS R. Cubic convolution interpolation for digital image processing[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1981, 29(6): 1153-1160. doi: 10.1109/TASSP.1981.1163711

图(8)  /  表(6)
计量
  • 文章访问数:  0
  • HTML全文浏览量:  0
  • PDF下载量:  0
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-01-03
  • 网络出版日期:  2022-08-03
  • 发布日期:  2021-05-09
  • 刊出日期:  2021-05-09

目录

/

返回文章
返回