当前位置: vista >> vista历史 >> 全景图像分割论文笔记DeeperLab
DeeperLab:Single-ShotImageParser
文章来自MIT,Google和Berkeley联合出品,研究的内容是全景图像的快速高效分割和解析任务。
文章主要贡献
提出一些用于高效图像解析的神经网络设计策略,显著降低高分辨率输入的内存占用情况。这些创新包括深度可分离卷积的扩展应用,使用带两层预测头的共享解码输出,增大内核大小而不是使用更深的网络,使用空间到深度和深度到空间的变换而不是上采样操作,采用困难样本挖掘策略,详细的消融研究显示了实践中这些策略的影响;基于以上设计策略,提出了一种一次性高效,自底向上的图像解析网络,DeeperLab。在MapillaryVistas数据集上,所提出的基本模型Xception-71达到31.95%的验证PQ、31.6%的测试PQ以及55.26%的验证PC,GPU上每秒可以处理3帧图像;加宽版本的MobileNetV2基础模型能够在CPU上达到接近实时的性能(22.61fps),准确率稍有下降;提出一种称为ParsingCovering的指标替代用于评估基于区域远景的图像解析结果。文章所提出的方法
受到DeepLab和PersonLab的启发,文章所提出的DeeperLab网络结构如下图所示。
DeeperLab网络结构从图中可以看出,网络结构包括以下三个模块:
1.编码模块
文章尝试了Xception-71结构和加宽版MobileNetV2结构,前者目地在于高精度,后者目的在于更快的推理速度。此外,文章还使用了高效的ASPP(Atrous空间金字塔池化层)进一步增大感受野;
2.解码模块
参照DeepLabV3+的做法,文章将编码器输出与主干网络中步长为4的低层特征图相融合。其中,为了不额外增加内存消耗,使用了如下图所示的空间到深度的变换操作。最后,得到个通道的特征图,再经过深度到空间的降维操作后变成个通道的特征图。
深度到空间和空间到深度的变换示意图3.图像解析预测头
这里包括5个预测头,都是由两个卷积层(7×7和1×1各一个)组成。其中,一个预测头有个滤波器,用于语义分割;另外四个预测头有64个滤波器,用于类别无关的实例分割。
语义分割时采用最小化bootstrappe交叉熵损失,并且借鉴难例挖掘的思路,仅选择损失值最大的K个像素进行反向传播。加权交叉熵损失函数的定义如下面公式所示。
bootstrappe交叉熵损失实例分割使用基于关键点的目标实例表示法,选择目标边界框的四个角和质心作为5个关键点。参照PersonLab的做法,文章定义了四种不同的预测头,在计算损失函数时的规则不同,目的就是学习更好的实例分割结果,四种头分别是关健点图、远程偏移量图、短程偏移量图以及中程偏移量图。最后,将四个预测合并为一个与类别无关的实例分割图,给定预测的语义和实例分割结果,将语义和实例标签分配给图像中每一个像素。
文章使用的评估标准
本文所有实验结果都采用了PanopticQuality(PQ)全景质量和ParsingCovering(PC)解析覆盖两个度量标准。其中,PQ将相同“东西“类别的所有区域当作一个实例,不会考虑实例的尺寸大小;PC是考虑到实例尺寸大小的覆盖指标。
实验结果
正文中报告的是本文提出的Xception-71、WiderMobileNetV2以及LightWiderMobileNetV2三种网络在MapillaryVistas数据集上进行的消融实验,并没有与其他算法进行对比的实验结果。所有模型参数都是端到端训练没有采用分段预训练每个组件的过程,除了主干网络使用ImageNet-1K预训练之外。
卷积核大小消融实验解码器与预测头的设计消融实验难例挖掘消融实验关键点关联图建模方法主干网络深度消融实验如上图所示,文章分别从主干网络卷积核大小、解码器和预测头的设计、难例挖掘、关键点关联图建模方法、主干网络深度等五个方面进行了消融实验,数据还是非常详细且有说服力的。
最后,下面的表显示了文章所提出的DeeperLab在不同分辨率的验证集和测试集上的有效性和效率。
验证集上的实验结果测试集上的实验结果