论文:TDAN:视频超分中的时空可变形对齐网络
文章检索出处:2020 Conference on Computer Vision and Pattern Recognition(CVPR)
摘要和简介
先前的VSR通常使用光流的方法进行对齐,所以模型的性能将高度依赖光流的精度,不正确的光流将会导致支持帧中包含伪影,进而影响重建的HR帧。本文中提出了一种时间可变形对齐网络(TDAN),它使用参考帧和支持帧的特征来动态预测采样卷积核的offsets,使得它可以在不计算光流的情况下自适应的对齐参考帧和支持帧。本文的贡献包括三个方面:
(1)我们提出了一种用于特征级对齐的新型时间可变形对齐网络(TDAN),它避免了以前基于光流的方法所采用的两阶段过程;
(2)我们提出了基于TDAN的端到端可培训VSR框架;
(3)我们的方法在Vid4基准数据集上实现了sotr。 源代码和预训练的模型发布于 https://github.com/YapengTian/TDAN-VSR-CVPR-2020。
可变形卷积
相比conv2d引入了学习空间几何形变的能力,通过学习参数 Δ p n \Delta p_n Δpn从而能更好地解决具有空间形变的图像识别任务。
概述
模型将连续的2N+1帧 { I i L R } i = t + N t + R \{ {I^{LR}_i}\}^{t+R}_{i=t+N} { IiLR}i=t+Nt+R 作为输入去预测HR帧 I t H R I^{HR}_t ItHR,它由两个子网络构成: temporally deformable alignment network (TDAN) 和 SR reconstruction network。
TDAN将支持帧 I i L R I^{LR}_i IiLR 和参考帧 I t L R I^{LR}_t ItLR作为输入,以预测支撑帧对应的对齐帧 I i L R ′ I^{LR'}_i IiLR′。I i L R ′ = f T D A N ( I t L R , I i L R ) I^{LR'}_i = f_{TDAN}(I^{LR}_t,I^{LR}_i) IiLR′=fTDAN(ItLR,IiLR)
向TDAN输入2N个支持帧后,我们可以获得2N个相应的对齐帧 { I t − N L R ′ , . . . , I t − 1 L R ′ , I t L R , I t + 1 L R ′ . . . , I t + N L R ′ I^{LR'}_{t-N},...,I^{LR'}_{t-1},I^{LR}_{t},I^{LR'}_{t+1}...,I^{LR'}_{t+N} It−NLR′,...,It−1LR′,ItLR,It+1LR′...,It+NLR′},然后SR重建网络将利用2N个对齐帧以及参考帧来还原HR视频帧。
I t H R = f S R ( I t − N L R ′ , . . . , I t − 1 L R ′ , I t L R , I t + 1 L R ′ , . . . , I t + N L R ′ ) I^{HR}_t = f_{SR}(I^{LR'}_{t-N},...,I^{LR'}_{t-1},I^{LR}_{t},I^{LR'}_{t+1},...,I^{LR'}_{t+N}) ItHR=fSR(It−NLR′,...,It−1LR′,ItLR,It+1LR′,...,It+NLR′)
Temporally Deformable Alignment Network
TDAN主要包含三个模块:特征提取、变形对齐和对齐帧重建
特征提取:通过一个共享的特征抽取网络,从 I i L R I^{LR}_i IiLR和 I t L R I^{LR}_t ItLR提取视觉特征 F i L R F^{LR}_i FiLR和 F t L R F^{LR}_t FtLR。该网络由一个卷积层和 k 1 k_1 k1个残差块(with ReLU)组成,在作者的实现中,他使用了来自EDSR的修正残差块结构,提取的特征将用于特征方面的时间对齐。
变形对齐:变形对齐模块将 F i L R F^{LR}_i FiLR和 F t L R F^{LR}_t FtLR作为输入,concat后使用一个3x3的bottleneck层,目的是减少特征图的通道数量,然后通过一个卷积层去预测输出通道数量为|R|的采样参数 Θ \Theta Θ:Θ = f θ ( F i L R , F t L R ) \Theta = f_{\theta}(F^{LR}_i,F^{LR}_t) Θ=fθ(FiLR,FtLR)
其中, Θ = { Δ p n ∣ n = 1 , . . . , ∣ R ∣ } \Theta = \{ \Delta p_n | n = 1,...,|R| \} Θ={ Δpn∣n=1,...,∣R∣}。通过变形卷积,使 Θ \Theta Θ和 F i L R F^{LR}_i FiLR可以计算出支持帧的对齐特征 F i L R ′ F^{LR'}_i FiLR′:
F i L R ′ = f d c ( F i L R , Θ ) F^{LR'}_i = f_{dc}(F^{LR}_i,\Theta) FiLR′=fdc(FiLR,Θ)
更具体的:
对于卷积在不规则位置 p n p_n pn+ Δ p n \Delta p_n Δpn,其中 Δ p n \Delta p_n Δpn可能是分数,我们通过双线性来解决。在实践中,我们在 f d c f_{dc} fdc之前和之后添加了三个附加的可变性卷积层,去增强模块的转换灵活性和功能。参考帧 F t L R F^{LR}_t FtLR的特征仅用于计算 Θ \Theta Θ,并不会传播到支持帧的对其特征中,此外,自适应的学习偏移量将隐式的捕获运动线索去进行时间对齐。
对齐帧重构:没有监督的隐式对齐很难学习,所以我们添加对齐损失去强制可变性对齐模块更加精确。对齐后的特征图通过一个3x3的卷积层完成帧的重建。
Aligned Frame Reconstruction
SR重建网络包含三个模块:时间融合、非线性映射和HR帧重构
时间融合:要融合跨时空的不同帧,我们直接将2N + 1帧连接起来,然后将它们输入3x3卷积层以输出融合的特征图。
非线性映射:具有 k 2 k_2 k2个堆叠残差块的非线性映射(EDSR)模块将采用隐式融合特征作为输入来预测深度特征。
HR帧重建:在LR空间中提取了深层特征后,我们利用ESPCN,通过亚像素卷积来提高特征图的分辨率。实际上,对于4个放大比例,将使用两个子像素卷积模块。 最终的HR帧$ I t H R I^{HR}_t ItHR 通过卷积层从缩放后的特征图中获取。
损失函数
两个损失函数 L a l i g n L_{align} Lalign和 L s r L_{sr} Lsr分别用于训练TDAN和SR重建网络。
实施
数据集:Vimeo 90k视频采样成(64612,448,256)的格式
验证集:Temple sequence的31图像
测试集:Vid4、SPMCs-30,前两个帧不用于评估,并且忽略了四个空间边界像素
对比模型:VSRnet,ESPCN,VESCPN,TOFlow,DBPN,RND,RCAN,SPMC,FSRVSR 和DUF-16L 。
训练设置:输入shape(64,5, 48, 48,3), k 1 k_1 k1 = 5, k 2 k_2 k2 = 10,Adam优化器,在1080TI上每100个epochs大约需要1.7天。
实验效果和量化评估
在经过BI处理过的Vid4测试集上:
在经过BD处理过的Vid4测试集上:
输出图像对比:
原创文章,如需转载请注明出处,谢谢。