基于深度学习的三维语义理解(分割)综述列表

   日期:2020-10-03     浏览:105    评论:0    
核心提示:基于深度学习的三维语义理解(分割)综述列表文章目录基于深度学习的三维语义理解(分割)综述列表前言基于深度学习的三维语义理解(分割)综述列表一、 从三维模型中进行深度学习1.1基于点云的方法1.2基于体素的方法1.3基于mesh的方法二、多模态融合的方法2.1紧耦合2.2松耦合总结前言随着2016年pointnet的发表,三维空间中的语音理解逐渐进入了爆发式的增长,本文对至今一些优秀的文章进行部分整理。基于深度学习的三维语义理解(分割)综述列表一、 从三维模型中进行深度学习1.1基于点云的方法

基于深度学习的三维语义理解(分割)综述列表

文章目录

  • 基于深度学习的三维语义理解(分割)综述列表
  • 前言
  • 基于深度学习的三维语义理解(分割)综述列表
    • 一、 从三维模型中进行深度学习
      • 1.1基于点云的方法
      • 1.2基于体素的方法
      • 1.3基于mesh的方法
    • 二、多模态融合的方法
          • Frustum-based Mthods
      • 2.1紧耦合
      • 2.2松耦合
  • 总结

前言

随着2016年pointnet的发表,三维空间中的语音理解逐渐进入了爆发式的增长,本文对至今一些优秀的文章进行部分整理。

基于深度学习的三维语义理解(分割)综述列表

一、 从三维模型中进行深度学习

1.1基于点云的方法

  1. 基于多视图
    (1)MVCNN(Su et al )(2015)
    (2)MHBN(Yu et al)(2018)
    (3)View-GCN(Wei et al)(2020)
    (4)SnapNet(Boulch et al)(2017)(可分割)
    (5)DeepPr3SS(Lawin et al)(2017)(可分割)
    (6)TangentConv(Tatarchenko ta al)(2018)(可分割)
    (7)MV3D(Chen et al.)(2017)
    (8)RT3D(Zeng et al )(2018)
    (9)ContFuse(Liang et al)(2018)
    (10)AVOD(Ku et al)(2018)
    (11)SCANet(Lu et al )(2019)
    (12)MMF(Liang et al)(2019)

注:基于BEV的方法: (且是single shot methods)
(1)PIXOR(Yang et al)(2018)
(2)HDNET(Yang et al)(2018)
(3)BirdNet(Beltran et al.)(2018)
(4)PointPillars(Lang et al.)(2019)
(5)Point-GNN(Shi et al )(2020)

  1. 基于球形投影(Spherical)

图片上方为球形投影的结果,下方是点云。
上方图像的每一行对应于从激光雷达的每个激光获得的点。在此,图像中的最低行对应于激光雷达中的最低激光,是激光雷达附近最接近的环,如上所示。
投影不是及那个曲面进行简单地展开,而是一个基于坐标系变换的过程。(将三维的点用图片的形式来表示)
具体如何进行球面投影,可以参考https://blog.csdn.net/weixin_43199584/article/details/105260463

(1)SqueezeSeg(wu et al 2017)(可分割)

本文的核心贡献,是对三维的点云进行预处理,将点云数据变换成图片的形式来表示,然后利用成熟的二维卷积的方法来完成分割任务。

(2)SqueezeSeg22(Wu et al 2018)(可分割)
(3)RangeNet++(Milioto et al 2019)(可分割)

RangeNet++是以SqueezeSeg和SqueezeSegV2为基础,都使用了点云的球面投影的方法,可以将点云数据转换为可以支持很多成熟的二维图像处理方法的数据。(用图片的方式来表示点云)(有效的将点云数据进行降维的方法),同时该方案计算量相对较小,适合于自动驾驶等领域进行实时处理。
处理流程:

  1. 将三维点云数据通过球投影的方式转换为二维的表示方法。
  2. 在该二维的iamge上进行2D全卷积语义分割。
  3. 将分割成功的2D信息转换到3D点云上
  4. 对分割结果进行优化。
  1. MLP
    (1)PointNet(Qi et al)(2016)(可分割)

见https://blog.csdn.net/qq_41918369/article/details/108075239

(2)PointNet++(Qi et al)(2017)(可分割)

见https://blog.csdn.net/qq_41918369/article/details/108075239

(3)3DContextNet(Zeng et al.)(2017)(可分割)
(4)A-SCN(xie et al.)(2018)(可分割)
(5)PointSIFT(Jiang et al )(2018)(可分割)
(6)Engelman(Engleman et al)(2018)(可分割)
(7)PAT(Yang et al.)(2019)(可分割)
(8)LSANet(chen et al)(2019)(可分割)
(9)PointWeb(Zhao et al)(2019)(可分割)
(10)ShellNet(Zhang et al )(2019)(可分割)
(11)RandLA-Net(Hu et al)(2019)(可分割)
(12)Mo-Net(Joseph-Rivlin et al)(2018)
(13)SRN(Duan et al)(2019)
(14)JustLookUp(Lin et al)(2019)
(15)PointASNL(Yan et al)(2020)
(16)PointRCNN(Shi et al)(2019)

作者提出了一种三维物体检测器pointRCNN,可以直接从原始的点云中检测三维物体,(该网络为two-stage网络),stage-1直接从点云中生成多个粗略的3Dbox,stage-2,优化一阶段的3Dbox并对每个box中的物体进行class分类。
stage-1:
先通过pointnet++对每个点的特征进行提取,然后通过点的特征,将所有的点分为前景点和背景点,并将背景点删除,同时在前景点上,对每个点都生成一个box,然后通过部分优化,留下,部分得分最高的box。
stage-2:
将stage-1中生成的部分精准的box进行标准化坐标变换,然后再通过局部的pointnet,进行局部特征的学习,得到局部的特征向量,再和全局的特征向量进行拼接,然后优化每个点的特征,然后重新生成一个最优的3D-box,同时完成class任务。

  1. 基于图卷积网络的方法
    (1)SPG(Landrieu and Simonovski)(2017)(可分割)
    (2)SSP(Landrieu and Bussaha)(2019)(可分割)
    (3)DGCNN(Wang et al)(2018)(可分割)

本文贡献:(1)EdgeConv在保证置换不变性的同事捕获局部几何信息。
(2)DGCNN可以在动态更新图的同事,在语义上将点聚合起来,
(3)EdgeConv可以迁入多个已有的多个点云处理框架中。
本文提出了一个新的神经网络模块——EdgeConv.
EdgeConv的优点:(1)包含了局部邻域的信息,
(2)可以通过EdgeConv模块的循环使用,提取全局的形状特征。
(3)在多层系统中,特征空间中的相对关系包含了语义特征。
EdgeConv的不足:EdgeConv考虑了点的坐标与领域点的距离,但是忽略了相邻点之间的向量方向,最终还是损失了一部分的局部几何信息。
EdgeConv
首先提取中心点与临近店之间的边特征,再进行卷积操作。
具体步骤:
(1)先利用MLP对每个点提取一遍特征
(2)再利用多种方式将点和周围点的特征进行融合,本文提出了四种融合方式,此处介绍一种,我个人认为最合理的一种方式:将中心点的特征,与中心点与K个临近点之间的特征差进行串联,然后输入MLP中,这样便融合了点之间的局部关系和点的全局特征。
作者认为PointNet++不足的原因: pointnet++在处理局部区域的点的时候未来保证置换不变性而导致过于独立,这样会忽视了点之间的集合相关信息,导致一部分的信息丢失。

(4)PyramNet(Kang and Liu.)(2019)(可分割)
(5)GACNet(Wang et al)(2019)(可分割)
(6)SPH3D-GCN(Lei et al)(2019)(可分割)
(7)HEPIN(Jiang et al )(2019)(可分割)
(8)DPAM(Liu et al.)(2019)(可分割)
(9)ECC(Simonovsky et al)(2017)
(10)KCNet(Shen et al.)(2017)
(11)FoldingNet(Yang et al.)(2017)
(12)AGCN(Li et al.)(2018)
(13)LocalSpecGCN(Wang et al )(2018)
(14)RGCNN(Te et al .)(2018)
(15)3DTI-Net(Pan et al )(2018)
(16)ClusterNet(Chen et al.)(2019)
(17)DPAM(Liu et al.)(2019)
(18)Grid-GCN(Xu et al.)(2020)
(19)DeepGCNs(2019)(可分割)

本文作者认为CNN(完美的应用欧氏距离的数据中)成功的原因在于:CNN可以设计并使用深层的网络结构,,但现在GCN(用来处理拓扑结构的数据)现阶段只能处理2-3层的数据,(由于深层的GCN的Aggregate容易造成over
smooth问题,即节点间的feature难以区分),本文来探究能否也生成一个深层的GCN网络模型。

本文解决深度GCN出现的问题的方法,使用residual/dense connections 和DGCNN中的 edge conv
三种方法方法一同来克服了深度GCN中出现的问题。

  1. 基于点的卷积的方法
    (1)PointCNN(Li et al)(2018)(可分割)

本文的主要贡献是:引入了一个新的运算方法X-Conv
本作者想要解决对无序的点云的卷积问题,作者的解决核心思路是:将无序的点云进行有序化变换,然后使用卷积的方法,进行特征提取。
作者的解决方案:使用空间变换网络(STN)从前一层的数据中提取K个点,预测一个K*K大小的转置矩阵(X-transformation),用转置矩阵对前一层的特征做变换,然后对变换后的特征用卷积。此外,同样也在提取出k个近邻后,将各个点转换到局部坐标系。
PointCNN的优点:参数少,训练时间短,比较优美

X-Conv的具体过程看见周报笔记。

(2)MCCN(Hermosilla et al)(2018)(可分割)
(3)PointConv(Wu et al)(2018)(可分割)

(4)ConvPoint(Boulch et al.)(2019)(可分割)
(5)A-CNN(Komarichev et al)(2019)(可分割)
(6)KPConv(Thomas et al)(2019)(可分割)
(7)InterpCNN(Mao et al)(2019)(可分割)
(8)DPC(Engelmann et al.)(2019)(可分割)
(9)SphericalCNN(Spherical)(2017)
(10)Point wise CNN(Hua et al)(2017)

(11)Tensor field Network(Thomas et al)(2018)
(12)Flex-Convolution(Groh et al.)(2018)
(13)PCNN(Matan et al.)(2018)
(14)SpiderCNN(Xu et al)(2018)
(15)MCCNN(Hermosilla et al)(2018)
(16)Geo-CNN(Lan et al)(2018)
(17)Ψ-CNN(Lei et al)(2019)
(18)LP-3DCNN(Kumawat et al.)(2019)
(19)RS-CNN(Liu et al.)(2019)
(20)KPConv(Thomas et al)(2019)
(21)SFCNN(Rao et al.)(2019)
(22)DensePoint(Liu et al)(2019)
(23)ConvPoint(Boulch et al.)(2020)

  1. 基于RNN的方法

循环神经网络的本质是:像人一样拥有记忆的能力,使得机器能够联系上下文的语句,理解当 前单词或者预语句的意思 现阶段的RNN的各种变形还可以学习二维视频信息和三维视频的信息。
RNN与CNN的本质区别:CNN没有记忆功能,它的输出仅依赖于输入和网络的权重值,但 RNN有记忆功能,他的输出不仅依赖于当前的输入,还依赖当前的记忆。
CNN的输入是单一的图片等单一性质的数据,而RNN的输入是一个序列,一个随时间变化的序列

(1)G+RCU(Engelam et al)(2018)(可分割)
(2)RSNet(Huang et al)(2018)(可分割)
(3)3P-RNN(Ye et al )(2018)(可分割)

本文的3P(Pointwise Pyramid Pooling)
也是先通过MLP来提取点云的特征,然后设置一个金字塔模型,对不同大小的区域的点云分别提取局部信息(大局部,小局部,等)和全局信息,然后获得每个点的全部信息,(此时每个点的特征为特征向量,)
再将特征向量放入双向的RNN中,进行学习,然后通过全连接层来完成分割任务

(4)DARNet(Zhao et al )(2019)(可分割)
(5)PointRNN(Fan et al)(2018)

一个用来处理动态点云的深度学习网络。主要贡献:本提出了PointRNN和其两个变体,PointGRU、PointLSTM 都可以应用于移动点云的预测(结合给定点的历史运动轨迹来预测点云的未来轨迹)动态点云学习
注:传统的RNN是以一维向量作为输入的,RNN的一些变体如Cubic
ConvLSTM可以用来对二维视频进行深度学习,本文PointRNN是进一步的变体,可以对三维点云视频(动态三维点云)进行深度学习

  1. 基于晶格的方法(Lattice)
    (1)LatticeNet(Rosu et al.)(2019)(可分割)

该网络可以在 (2)中晶格的基础上可以实现大点云的有效处理

(2)SPLATNet(Su et al.)(2018)

本篇文章方法小众,且文章难度
且同时pointNet、pointcnn处理起来复杂了一些,但相比于基于树的点云处理网络相比,(树的网络如OCNN都是讲点云进行高效的组织化,然后再套用成熟的神经网络进行处理,一般不是end-to-end网络)但是本篇文章的方法把对点云的组织者一步骤放到了每一次卷积操作中,实现了end-to-end。
注;本文应用的bilateral convolution lays(BCLs)和permutohedra lattice 并非作者首创,
文章中BCL平滑地将输入点映射到稀疏的格子上,在稀疏的点阵上执行卷积,然后将过滤后的信号平滑地插入到原始的输入点上。主要分为: Splat、Convolve、Slice:
1.Splat: BCL首先将输入特征结合到晶格
2.Convolve: BCL在这些点阵上进行卷积操作,(就像标准CNN一样)
3.Slice:经过卷积后的信号插值(barycentric interpolation)投影回输入信号。
注:该网络可以灵活地联合处理处理多视图图像和点云。

  1. 有待阅读后进行进一步分类
    (1)ShapeContexNet(Xie et al.)(2018)
    (2)PVNet(You et al.)(2018)
    (3)Point2Sequence(Liu et al )(2018)
    (4)PVRNet(You et al )(2018)
    (5)3DPointCapsNet(Zhao et al)(2018)
    (6)RCNet(Wu et al.)
    (7)PointDAN(Qin et al)(2019)

(8)3D FCN(Li et al.)(2017)
(9)Vote3Deep(Li et al.)(2017)
(10)VoxelNet(Zhou et al.)(2018)
(11)SECOND(Yan et al.)(2018)
(12)3DBN(Li et al)(2019)
(13)3DSSD(Yang et al.)(2020)

single shot methods

(14)LaserNet(Meyer et al)(2019)

(15)3D iou loss(Zhou et al)(2019)
(16)Part-A^2(Shi et al.)(2019)
(17)Fast Point RCNN(Chen et al.)(2019)
(18)VoteNet(QI et al.)(2019)

(19)LaserNet++(Mayer et al .)(2019)

(20)PV-RCNN(Shi et al )(2019)

(21)OHS(Chen et al.)(2019)

(22)ImVoteNet(Qi et al.)(2020)

(23)SA-SSD(He et al.)(2020)

1.2基于体素的方法

SECOND,PointPillar,Part-A^2

1.3基于mesh的方法

二、多模态融合的方法

(1)3DMV(Dai and NieBner)(2018)
(2)UPB(Chiang et al.)(2018)
(3)MVPNet(Jaritz et al.)(2019)

Frustum-based Mthods

(1)F-PointNets(QI et al )(2018)
(2)PointFusion(XU et al.)(2018)
(3)RoarNet(Shin et al.)(2018)
(4)SIFRNet(Zhao et al.)(2019)
(5)F-ConvNet(Wang et al.)(2019)
(6)Patch Refinement(Zhao et al )(2019)

2.1紧耦合

  1. voxel-based
    (1)CD-CVF( Yoo et al 韩国)(2020)

将雷达的点云体素化后 ,通卷积层进行预处理,生成在BEV下的特征地图,然后对多视角(构成闭合环形)的image进行FPN(CNN的一种网络)进行预处理,生成特征地图,然后用auto-calibrated
feature projection将多幅图进行融合,生成BEV下的feature,再利用adaptive gated fusion
network来融合雷达和image预处理后的BEV图,再进行正常的RPN。

  1. point-based
    (1) PI-RCNN(Xie et al)(2019)

point分支和image分支分别做3D目标检测任务和语义分割任务,然后对每个点搜寻K临近点,对这些点结合相机的内外参反向投入二维的语义地图中,得出这几个点对应二维中的像素的语义特征,然后将这几个点的几何特征和语义特征进行联合积分,得到联合特征;最后将几何特征,语义特征,联合特征进行拼接,更新该点的特征,从而完成二次优化的任务,实现点云数据和RGB数据的融合。

(2)PointPainting(cvpr2020)

该工作的fusion方式是采用二维语义分割信息通过lidar信息和image信息的变换矩阵融合到点上,再采用baseline物体检测;可以理解为对于语义分割出的物体多了一些信息作为引导,得到更好的检测精度。和上面的pi-rcnn的不同之处是该融合是一个串联的网络结构,将语义分割后的特征和原始点云一起送入深度学习网络中.

2.2松耦合

(1)CLOCs

该网络经历了三个主要的阶段(1)2D和3D的目标检测器分别提出proposals(2)将两种模态的proposals编码成稀疏张量(3)对于非空的元素采用二维卷积做对应的特征融合。

总结

 
打赏
 本文转载自:网络 
所有权利归属于原作者,如文章来源标示错误或侵犯了您的权利请联系微信13520258486
更多>最近资讯中心
更多>最新资讯中心
0相关评论

推荐图文
推荐资讯中心
点击排行
最新信息
新手指南
采购商服务
供应商服务
交易安全
关注我们
手机网站:
新浪微博:
微信关注:

13520258486

周一至周五 9:00-18:00
(其他时间联系在线客服)

24小时在线客服