视频超分：TDAN（TDAN: Temporally Deformable Alignment Network for Video Super-Resolution)-物联网技术文章-傲云油气装备网

论文：TDAN:视频超分中的时空可变形对齐网络
文章检索出处:2020 Conference on Computer Vision and Pattern Recognition(CVPR)

摘要和简介

先前的VSR通常使用光流的方法进行对齐，所以模型的性能将高度依赖光流的精度，不正确的光流将会导致支持帧中包含伪影，进而影响重建的HR帧。本文中提出了一种时间可变形对齐网络(TDAN)，它使用参考帧和支持帧的特征来动态预测采样卷积核的offsets，使得它可以在不计算光流的情况下自适应的对齐参考帧和支持帧。本文的贡献包括三个方面：
（1）我们提出了一种用于特征级对齐的新型时间可变形对齐网络（TDAN），它避免了以前基于光流的方法所采用的两阶段过程；
（2）我们提出了基于TDAN的端到端可培训VSR框架；
（3）我们的方法在Vid4基准数据集上实现了sotr。源代码和预训练的模型发布于 https://github.com/YapengTian/TDAN-VSR-CVPR-2020。

可变形卷积

相比conv2d引入了学习空间几何形变的能力，通过学习参数 Δ p n \Delta p_n Δpn从而能更好地解决具有空间形变的图像识别任务。

概述

模型将连续的2N+1帧 { I i L R } i = t + N t + R \{ {I^{LR}_i}\}^{t+R}_{i=t+N} { IiLR}i=t+Nt+R 作为输入去预测HR帧 I t H R I^{HR}_t ItHR，它由两个子网络构成: temporally deformable alignment network (TDAN) 和 SR reconstruction network。
TDAN将支持帧 I i L R I^{LR}_i IiLR 和参考帧 I t L R I^{LR}_t ItLR作为输入，以预测支撑帧对应的对齐帧 I i L R ′ I^{LR'}_i IiLR′。

I i L R ′ = f T D A N ( I t L R , I i L R ) I^{LR'}_i = f_{TDAN}(I^{LR}_t,I^{LR}_i) IiLR′=fTDAN(ItLR,IiLR)

向TDAN输入2N个支持帧后，我们可以获得2N个相应的对齐帧 { I t − N L R ′ , . . . , I t − 1 L R ′ , I t L R , I t + 1 L R ′ . . . , I t + N L R ′ I^{LR'}_{t-N},...,I^{LR'}_{t-1},I^{LR}_{t},I^{LR'}_{t+1}...,I^{LR'}_{t+N} It−NLR′,...,It−1LR′,ItLR,It+1LR′...,It+NLR′}，然后SR重建网络将利用2N个对齐帧以及参考帧来还原HR视频帧。

I t H R = f S R ( I t − N L R ′ , . . . , I t − 1 L R ′ , I t L R , I t + 1 L R ′ ， . . . , I t + N L R ′ ) I^{HR}_t = f_{SR}(I^{LR'}_{t-N},...,I^{LR'}_{t-1},I^{LR}_{t},I^{LR'}_{t+1}，...,I^{LR'}_{t+N}) ItHR=fSR(It−NLR′,...,It−1LR′,ItLR,It+1LR′，...,It+NLR′)

Temporally Deformable Alignment Network

TDAN主要包含三个模块：特征提取、变形对齐和对齐帧重建
特征提取：通过一个共享的特征抽取网络，从 I i L R I^{LR}_i IiLR和 I t L R I^{LR}_t ItLR提取视觉特征 F i L R F^{LR}_i FiLR和 F t L R F^{LR}_t FtLR。该网络由一个卷积层和 k 1 k_1 k1个残差块(with ReLU)组成,在作者的实现中，他使用了来自EDSR的修正残差块结构，提取的特征将用于特征方面的时间对齐。
变形对齐：变形对齐模块将 F i L R F^{LR}_i FiLR和 F t L R F^{LR}_t FtLR作为输入，concat后使用一个3x3的bottleneck层，目的是减少特征图的通道数量，然后通过一个卷积层去预测输出通道数量为|R|的采样参数 Θ \Theta Θ:

Θ = f θ ( F i L R , F t L R ) \Theta = f_{\theta}(F^{LR}_i,F^{LR}_t) Θ=fθ(FiLR,FtLR)

其中， Θ = { Δ p n ∣ n = 1 , . . . , ∣ R ∣ } \Theta = \{ \Delta p_n | n = 1,...,|R| \} Θ={ Δpn∣n=1,...,∣R∣}。通过变形卷积，使 Θ \Theta Θ和 F i L R F^{LR}_i FiLR可以计算出支持帧的对齐特征 F i L R ′ F^{LR'}_i FiLR′：

F i L R ′ = f d c ( F i L R , Θ ) F^{LR'}_i = f_{dc}(F^{LR}_i,\Theta) FiLR′=fdc(FiLR,Θ)

更具体的:
对于卷积在不规则位置 p n p_n pn+ Δ p n \Delta p_n Δpn，其中 Δ p n \Delta p_n Δpn可能是分数，我们通过双线性来解决。在实践中，我们在 f d c f_{dc} fdc之前和之后添加了三个附加的可变性卷积层，去增强模块的转换灵活性和功能。参考帧 F t L R F^{LR}_t FtLR的特征仅用于计算 Θ \Theta Θ,并不会传播到支持帧的对其特征中，此外，自适应的学习偏移量将隐式的捕获运动线索去进行时间对齐。
对齐帧重构：没有监督的隐式对齐很难学习，所以我们添加对齐损失去强制可变性对齐模块更加精确。对齐后的特征图通过一个3x3的卷积层完成帧的重建。

Aligned Frame Reconstruction

SR重建网络包含三个模块：时间融合、非线性映射和HR帧重构
时间融合：要融合跨时空的不同帧，我们直接将2N + 1帧连接起来，然后将它们输入3x3卷积层以输出融合的特征图。
非线性映射：具有 k 2 k_2 k2个堆叠残差块的非线性映射(EDSR)模块将采用隐式融合特征作为输入来预测深度特征。
HR帧重建：在LR空间中提取了深层特征后，我们利用ESPCN，通过亚像素卷积来提高特征图的分辨率。实际上，对于4个放大比例，将使用两个子像素卷积模块。最终的HR帧$ I t H R I^{HR}_t ItHR 通过卷积层从缩放后的特征图中获取。

损失函数

两个损失函数 L a l i g n L_{align} Lalign和 L s r L_{sr} Lsr分别用于训练TDAN和SR重建网络。

实施

数据集：Vimeo 90k视频采样成(64612,448,256)的格式
验证集：Temple sequence的31图像
测试集：Vid4、SPMCs-30，前两个帧不用于评估，并且忽略了四个空间边界像素
对比模型：VSRnet，ESPCN，VESCPN，TOFlow，DBPN，RND，RCAN，SPMC，FSRVSR 和DUF-16L 。
训练设置：输入shape(64，5, 48, 48，3)， k 1 k_1 k1 = 5， k 2 k_2 k2 = 10，Adam优化器，在1080TI上每100个epochs大约需要1.7天。

实验效果和量化评估

在经过BI处理过的Vid4测试集上：

在经过BD处理过的Vid4测试集上：

输出图像对比：

原创文章，如需转载请注明出处，谢谢。

• leetcode *216. 组合总和 III	• GNU Radio系列教程（七）：初级篇之GNU Radio G
• 【方案搭建】如何使用RTSP协议网络摄像头直播视	• 算法——中国剩余定理
• c语言学习之可变数组	• vue-cli3.0实现播放rtmp直播流

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享
• STM32查询式按键输入[直接用寄存器]	• Ubuntu系统 USB设备端口绑定
• 2021-04-14 第四次按键输入实验	• Flutter扫码功能完美实现

视频超分：TDAN（TDAN: Temporally Deformable Alignment Network for Video Super-Resolution)

摘要和简介

可变形卷积

概述

I i L R ′ = f T D A N ( I t L R , I i L R ) I^{LR'}_i = f_{TDAN}(I^{LR}_t,I^{LR}_i) IiLR′​=fTDAN​(ItLR​,IiLR​)

Temporally Deformable Alignment Network

Θ = f θ ( F i L R , F t L R ) \Theta = f_{\theta}(F^{LR}_i,F^{LR}_t) Θ=fθ​(FiLR​,FtLR​)

F i L R ′ = f d c ( F i L R , Θ ) F^{LR'}_i = f_{dc}(F^{LR}_i,\Theta) FiLR′​=fdc​(FiLR​,Θ)

Aligned Frame Reconstruction

损失函数

实施

实验效果和量化评估

I i L R ′ = f T D A N ( I t L R , I i L R ) I^{LR'}_i = f_{TDAN}(I^{LR}_t,I^{LR}_i) IiLR′=fTDAN(ItLR,IiLR)

Θ = f θ ( F i L R , F t L R ) \Theta = f_{\theta}(F^{LR}_i,F^{LR}_t) Θ=fθ(FiLR,FtLR)

F i L R ′ = f d c ( F i L R , Θ ) F^{LR'}_i = f_{dc}(F^{LR}_i,\Theta) FiLR′=fdc(FiLR,Θ)