论文:MuCAN:多对应聚合的视频超分
文章检索出处: 2020 ECCV
摘要和简介
本文提出了:
1. 一种时间多对应聚合(TM-CAM)策略,去利用跨帧的相似补丁
2. 一种跨尺度的非局部对应的聚合(CN-CAM)方案,去探索帧内不同尺度的自相似性
3. 引入了边缘感知损失,使所提议的网络能够生成更好的边缘
基于上述,我们建立了一个有效的多对应聚合网络(MuCAN),实现了SOTR。
模型
overview
输入2N+1个连续帧去预测中心帧。模型由三部分构成:TM-CAM、CN-CAM和重构模块。
时间多对应聚合模块
给定两个相邻的LR帧 I t − 1 L I_{t-1}^{L} It−1L和 I t L I_{t}^{L} ItL,先将它们编码为较低的分辨率(从 l 0 l_0 l0到 l 2 l_2 l2)。然后,聚合从较低分辨率开始( F ‾ t − 1 l = 2 \overline F_{t-1}^{l=2} Ft−1l=2)以补偿大运动,逐渐向上移动至较高分辨率( F ‾ t − 1 l = 0 \overline F_{t-1}^{l=0} Ft−1l=0)用于细微的亚像素移动。
上述中的每个聚合单元使用基于补丁的匹配策略,我们汇总多个候选者以充分获取上下文信息。具体的说,首先选择top-K个最相似的特征补丁,然后使用像素自适应聚合方法把他们融合为一个像素。以对齐 F t − 1 l F_{t-1}^{l} Ft−1l和 F t l F_{t}^{l} Ftl为例,在 F t l F_{t}^{l} Ftl中取一个图像补丁 f t l f_t^l ftl(表示为特征向量),然后在 F t − 1 l F_{t-1}^{l} Ft−1l中取最接近的neighbors,使用相关性作为距离度量,相关性定义为归一化距离内积:为了效率,局部搜索区域需满足 ∣ P t − P t − 1 ∣ ≤ d |P_t-P_{t-1}|≤d ∣Pt−Pt−1∣≤d,其中 P t P_t Pt是 f t l f_t^l ftl的位置向量,d表示最大距离。在计算了所有的相关性之后,降序选择前K个最相关补丁,并将它们串联和聚合起来:
其中 A g g r Aggr Aggr为卷积层。对于 f ‾ t − 1 l \overline f^{l}_{t-1} ft−1l中的每个像素,我们设计了一种自适应聚合策略而不是相等的权重去进行聚合。权重图是串联 F t − 1 l F_{t-1}^{l} Ft−1l与 F t l F_t^l Ftl后通过一个卷积层获得的。当补丁大小为S x S时,权重图的Size为H x W x S 2 S^2 S2:对齐的相邻帧 F ‾ t − 1 l \overline F_{t-1}^{l} Ft−1l上的位置 P t P_t Pt的最终值为:重复2N次上述步骤,我们得到一组对齐的相邻特征图{ F t − N l , . . . , F t − 1 l , F t + 1 l , . . . , F t + N l F^{l}_{t-N},...,F^{l}_{t-1},F^{l}_{t+1},...,F^{l}_{t+N} Ft−Nl,...,Ft−1l,Ft+1l,...,Ft+Nl}。我们以 I t L I_{t}^{L} ItL为输入进行自聚合去产生 F ‾ t 0 \overline F_t^0 Ft0。将这些特征图通过卷积和PixelShuffle操作融合成一个双空间大小的特征图,以保持亚像素细节。
跨尺度的非局部对应聚合模型
我们使用 M t s M_t^s Mts代表t时刻的特征图。我们对特征图进行下采样得到一个特征金字塔:
其中 A v g P o o l AvgPool AvgPool是步长为2的平均池化。在 M t 0 M_t^0 Mt0中给定一个以 p t p_t pt为中心的补丁 m t 0 m_t^0 mt0,我们在其他三个尺度上进行非局部搜索:其中, m ~ t s \tilde m^s_t m~ts代表对于 m t 0 m_t^0 mt0最邻近的补丁。在合并之前,利用自我注意模块来确定信息是否有用。最终, m ‾ t 0 \overline m_t^0 mt0被计算为:其中 A t t Att Att是注意力单元,Aggr是卷积层。
边缘感知损失
VSR方法重建的高分辨率图像往往是由锯齿状边缘提取的。为了减轻这个问题,我们提出了一种边缘感知的损失,以产生更好的再生边缘。首先利用边缘检测器提取地面真实HR图像的边缘信息。然后对检测到的边缘区域进行加权,使得网络在学习过程中更加重视这些区域。
本文选用拉普拉斯变换作为边缘检测器。给定地面真实信息 I t H I^H_t ItH,由探测器得到边缘映射 I t E I^E_t ItE,在 p t p_t pt 处的二进制掩码值表示为:其中 δ \delta δ是阈值。训练时,我们采用Charbonnier损失,定义为:其中 I ^ t H \hat I^H_t I^tH是预测的HR结果, ϵ \epsilon ϵ是常量。最终的损失定义为:其中○代表的是元素相乘。
经验
数据集
REDS共有300个视频序列。我们将数据分成新的训练(266个序列)和测试(4个序列)数据集。新的测试部件包含000,011,015和020序列。
Vimeo-90K中训练和测试分别包含64612和7824个视频序列。
在我们的实验中,峰值信噪比(PSNR)和结构相似性指数(SSIM)被用作衡量指标。
实施细节
网络以5(或7)个连续帧作为输入。在特征提取和重建模块中,分别使用5个和40个(7帧为20个)残差块,通道数量为128。在图3中,补丁大小为3,最大位移从低到高设置为{3,5,7},K值设置为4。在跨尺度聚合模块中,我们将补丁大小设为1,并融合来自4个尺度的信息。
培训我们使用8个NVIDIA GeForce GTX 1080Ti GPU来训练我们的网络,每个GPU的小批量大小为3。训练需要对所有数据集进行6000k次迭代。我们使用Adam作为优化器,使用学习速率衰减策略且初始值为 4 e − 4 4e-4 4e−4。对输入图像进行随机裁剪、翻转和旋转增强。裁剪尺寸为64 x 64,对应输出尺寸256 x 256。旋转选择为90 ℃或 − 90 ℃ -90℃ −90℃。在计算边缘感知损耗时,我们将 δ \delta δ和 λ \lambda λ都设置为0.1。测试集评估时不使用边界剪裁。
消融实验
本实验中为了方便,我们采用轻量级设置。在这一节中。将通道大小设置为64,重构模块包含10个残差块。同时,训练迭代的数量减少到200K。
有无TM-CAM模块的残差图可视化与平均L1距离:
与SOTR模型的对比
模型对比可视化:
仅供学习使用,请勿转载。