文章目录
- ICCV2019——SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects
- 1.Abstract
- 2.Introduction
- 3.SCRDet
- 3.1 SF-Net
- 3.2 MDA-Net
- 3.3 Rotation Branch
- 3.3.1 ROI Align And GAP
- 3.3.2 The regression of the rotation bounding box
- 3.3.3 Loss Function
- 3.3.3.1 Regrssion Loss
- 3.3.3.2 Attention Loss
- 3.3.3.3 Classification Loss
- 4.Experience
- 4.1 Ablative study
- 4.2 Peer Methods Comparison
- 4.3 Experiments on Natural Images
- 5. Conclusion
ICCV2019——SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects
论文地址:https://arxiv.org/abs/1811.07126
开源代码:https://github.com/DetectionTeamUCAS/R2CNN-Plus-Plus_Tensorflow
1.Abstract
目标检测一直是计算机视觉的一个重要组成部分。虽然已经取得了很大的进展,但对于小尺寸、任意方向、密集分布的物体仍然存在挑战。除了自然图像外,这些问题在非常重要的航空图像中尤为突出。本文提出了一种适用于小、杂、旋转物体的多类别旋转检测器SCRDet。为了提高对小目标的敏感度,设计了一种融合多层特征和有效锚定采样的采样融合网络。同时,结合有监督像素注意网络和信道注意网络,通过抑制噪声和突出目标特征来实现对小目标和杂乱目标的检测。为了获得更精确的旋转估计,在平滑L1损失中加入IoU常数因子,以解决旋转边界盒的边界问题。
2.Introduction
遥感图像的三大挑战:
(1)小物件,航空图像通常包含被复杂的周围场景淹没的小物体
(2)杂乱的排列,用于探测的物体通常排列密集,如车辆和船舶
(3)任意方向,航空图像中的物体可以以不同的方向出现。遥感中普遍存在的大长宽比问题对其提出了进一步的挑战。
本文的主要贡献:
(1)针对小目标,设计了一个集特征融合和精细锚定采样于一体的采样融合网络(SF-Net)
(2)针对杂乱的排列,为了抑制噪声,突出前景,文章提出了一种由像素注意网络和通道注意网络组成的监督多维注意网络(MDA-Net)
(3)针对任意方向的杂乱密集目标,引入角度相关参数进行估计,设计了角度敏感网络。提出了一种改进的smooth L1 loss的方法,通过增加双常数因子来解决旋转包围盒回归的边界问题,以提高对任意旋转对象的鲁棒处理能力。
(4)本文提出的方法可以应用于自然图像,并且与一般的检测算法相结合超越了最先进的方法。
目前使用的方法:
3.SCRDet
SCRDet主要由SF-Net,MDA-Net和Rotation Branch三个部分组成。SF-Net,MDA-Net主要通过不断的强化目标来提取新的特征图,然后利用Rotation Branch来进行位置的回归和分类。
3.1 SF-Net
上图为SF-Net的流程图来看,我们可以获得以下信息:
-
SF-Net中我们只使用ResNet中的C3和C4层来进行融合,目的是为了平衡语义信息和位置信息,只使用C3和C4可以更好的捕获有效信息,忽略不相关特征。
-
在基于锚的检测框架中,SA的值等于特征映射相对于原始图像的缩减因子,直观点的说输入的图片为800 * 800(指W和H),若SA=4的话则输出200 * 200。(这里的SA的值是2的指数倍数)。
上述的是不同的锚距下的采样,橙黄色边框表示锚点,绿色框表示地面真相,红色边框表示锚点与地面真相框IOU最大的锚点(这里解释一下,一个锚点周围有众多个以锚点为中心的橙黄色框,而红色边框就是在这些橙黄色边框中找出与绿色的地面真相框的IOU最大的框)。由上图可见,SA越小,锚点对应的框与地面真相框的max IOU更大,即效果更好。
-
SF-Net的两个通道(C3和C4)都上采样到SA=S(将特征图缩小至最原始输入图的1/S),这里S是预期的锚距,如下图所示,实验在DOTA数据集上,进行不同锚距S的测试下得出结果,在精度和速度之间权衡,S的值普遍设为6。
(这里OBB指oriented bbox,即水平框;HBB指horizontal bbox,带有方向的框),如下图
-
C3经过上采样后,加入了一个Inception Model来扩大C3的感受野,并增加语义信息。(这里Inception model如上面的图所示,通过不同比例的卷积核来捕获目标的多样性,Filter concatenation指将图片的深度叠加),最后将此通道的元素和C4上采样后的特征元素相加,得到新的特征图F3。
3.2 MDA-Net
-
使用MDA-Net的目的:由于后面的步骤我们需要用RPN提取区域目标,可能会引入大量的噪声信息(如图b),过多的噪声淹没目标信息,且目标之间的边界变得模糊(如图a)。因此我们有必要增强目标线索,弱化非目标信息。
-
MDA-Net流程:
- 像素注意网络:将特征图F3经过Inception Module通过不同比例的卷积核提取不同范围的目标特征,经过卷积操作得到一个双通道的显著映射图(前景和背景)。然后我们对该显著图进行softmax操作,来使显著性图的值在[0,1]之间,然后来降低噪声,相对增强目标信息。这里为了保存显著图的上下文信息,我们为了指导这个有监督学习过程,我们得到一个二值映射做为标签。
- 通道注意网络:通过GAP获得通道数C,然后降维至输入的1/r,经relu激励函数,恢复原来维度,然后通过sigmoid函数得到权重
- 三者相乘:将经softmax后的显著图的其中一个通道,F3特征图,通道注意网络得到的权重三者相乘
3.3 Rotation Branch
3.3.1 ROI Align And GAP
在RPN建议区域目标后,我们为了充分利用训练前的权重资源,将fc6和fc7换成了C5 block(ROI Align)和GAP(全局平均池)
-
ROI Align是一个取消量化操作,使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值,从而将整个特征聚集转化的一个连续过程。
通俗理解:输入一张800 * 800的图片,图上有一个600 * 600的目标包围框,然后我们通过主干网络提取特征后,图片缩小成1/32,因此特征图尺寸为25 * 25,而包围框尺寸为18.75 * 18.75,我们通过常规方法ROI Pooling量化后包围框尺寸为18 * 18,因此偏差0.75。而ROI Align则是不进行量化,通过插值法来将特征聚集。
由于在遥感航拍图像上我们要检测的小目标居多,因此例如0.75的偏差在大型对象上可能影响很小,但是在小目标上就会造成较大误差。所以在这里我们加上C5 block。
-
全局平均池来代替全连接层是一个减少计算量,防止过拟合的常见方法。
简单来说就是少了FC层这个中间过渡,一个FC层中间需要大量的调优参数,而我们使用GAP减少了中间的复杂计算,在最终输出结果相同的情况下,降低了空间参数,防止过拟合且减少计算量。
3.3.2 The regression of the rotation bounding box
参数 | 意义 |
---|---|
x | 中心坐标x |
y | 中心坐标y |
w | 宽度 |
h | 高度 |
θ | 角度(与x轴夹角) |
x | 地面真值箱(适用y,w,h,θ) |
xa | 锚定箱(适用y,w,h,θ) |
x’ | 预测箱(适用y,w,h,θ) |
3.3.3 Loss Function
skew IOU and R-NMS:
轴对齐目标框上的IOU会导致斜交目标框IOU不准确,从而破坏预测,因策我们提出一种基于三角剖分思想的skew IOU,且R-NMS做为skew IOU的后续操作(不同类别R-NMS设置的阈值不同)
多任务损失:
3.3.3.1 Regrssion Loss
参数 | 意义 |
---|---|
N | 候选框数量 |
λ1 | 折衷参数,取值为4 |
t’n | 二进制值,等于0为前景,等于1为背景 |
Lreg | smooth L1 Loss |
v’*j | 预测框偏移矢量 |
v*j | 真实框的目标向量 |
回归损失的创新:
由于角度的周期性,我们在理想的回归形式(锚定框逆时针旋转)的损失很大,因此我们需要以复杂的形式进行回归(例如蓝色框在缩放同时顺时针旋转),由此可见,回归的难度增大了。
为此,我们引入了IOU常数因子| − log(IoU)|/|Lreg(v‘nj, vnj)|,且在边界条件下| log(IoU)|≈0,消除了损失的突然增加。利用IoU优化定位精度与IoU主导的度量方法一致,比坐标回归更直接有效。
3.3.3.2 Attention Loss
3.3.3.3 Classification Loss
4.Experience
4.1 Ablative study
-
R2CNN为基准设置
-
SF-Net模拟了特征融合,且通过SA缩减因子的设置的灵活性,优化其性能
-
MDA-Net减少噪声,强化了目标。一些例如桥梁,港口等长宽比大一点的目标的mAP增加。且MDA-Net的最大贡献是有监督学习。
-
IoU-Smooth L1 Loss消除角度边界影响,明显提升检测精度
-
image pyramid将图片随机缩放(四种)发送到网络训练。提高检测效率。
SCR-Det明显在众多类别中检测精度达到较好水准。
4.2 Peer Methods Comparison
OBB task:
- ICN,RoI-Transformer,SCRDet因为有特征融合这个特点,体现出检测优越性。
- 由于SCRDet的Inception structure扩大感受野,且MDA-Net衰减噪声,因此在较大的目标上SCRDet优越于ICN和RoI-Transformer。
HBB task:
消除代码中的角度参数后,SCEDet的检测性能依旧在绝大多数分类上达到最佳检测精度。
4.3 Experiments on Natural Images
- 通过COCO和VOC2007数据集上使用MDA-Net和FPN都有最佳的mAP,说明MDA-Net在密集,小目标下有好的检测效果
- SCRDet-R2CNN的效果比R2CNN-4*的效果好,说明SCRDet在原有方法上进行了进一步提高(提高了2.85%)
5. Conclusion
- 提出SF-Net通过扩大感受野和灵活使用缩放因子SA来进行对不同层之间的特征图进行采样,特征融合。
- 提出MDA-Net,通过两种注意力网络,生成权重且进行有监督学习强化特征。来强化目标,衰弱噪声。
- 任意角的坐标检测,通过加入IOU常数因子来避免边界问题损失突增的情况,有效保存定位信息,且防止密集情况下的检测混乱。
- 可应用于多种类型数据集,且论文方法提高了现有方法下的检测精度