PANet的相关知识点有哪些

魁首哥

作者

PANet的相关知识点有哪些

这篇文章主要介绍“PANet的相关知识点有哪些”，在日常操作中，相信很多人在PANet的相关知识点有哪些问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”PANet的相关知识点有哪些”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

一、PANet 整体描述

PANet 是基于Mask R-CNN进行改进后的网络，改进的三个点分别为：

原始 Mask R-CNN 没有很好地利用低层信息。高层的 Feature maps 关注物体整体，低层的 Feature maps 关注物体的纹理图案。使用低层的信息可以对物体进行更好地定位。对此 PANet 增加了 Bottom-up Path Augmentation（整体结构图中的b. ），将低层的信息又传导到高层中去，同时减少了高层到低层的信息流通需要穿过的卷积层数。
原 RoI Pooling 只在最后一层上提取信息，而 PANet 则使用Adaptive Feature Pooling（AFP，整体结构图中的 c.）同时对多个层级进行 RoI Pooling ，将多层级的信息整合后进行预测。
最终的 Mask 预测分支融合了 FCN 式的预测和 fully-connected 式的预测，前者关注局部，后者关注整体Context信息，从而提升最终 Mask 的质量。

下图是PANet的整体结构：

绿色的虚线表示PANet增加 b. 后，高层信息和输入之间跨越的卷积层数更少了，对比红色虚线可能要经过上百个卷积层（参见ResNet Block1~4），信息流通更顺畅。

二、各关键点详细描述

1、Bottom-up Path Augmentation

整体结构图中 N2=P2，N3~N5 都是通过下面的卷积结构计算得来。

2、Adaptive Feature Pooling

在 FPN 中，不同大小的物体被分给不同的层，比如最小的分给P2，最大的分给P5。这个处理方式很简单有效，但不一定得到最佳的结果，例如大小相差10像素的物体可能就被分到不同的层上了。为了得到更优的结果，PANet 索性将每个Proposal 在N2~N5对应区域（结构图b. 灰色区域）的特征都用上，具体使用方法为：

1、使用 RoIAlign 对其进行提取得到 4 组相同shape的特征图。

2、对4组特征进行融合，可以是sum、max、product。

3、使用融合后的特征图进行分类、bbox预测、mask预测。

上述过程在bbox分支和mask分支上执行时有所不同：

bbox分支

如下图所示，bbox分支的具体AFP计算过程如下：

1、先RoIAlign得到等尺寸的4个Feature map

2、使用同一个全连接层对4个 Feature map 分别计算

3、将4组特征进行融合

4、再用一个全连接层计算得到分类和bbox回归的结果。

mask分支

mask 分支有4个卷积层，特征融合操作在conv1后进行，具体计算过程如下：

1、先RoIAlign得到等尺寸的4个Feature map

2、使用conv1对4个 Feature map 分别计算

3、将4组特征进行融合

4、使用融合后的特征进行计算后得到最终的mask预测结果。

在AFP中还有个细节：

特征融合应该使用哪一种操作？经过试验验证，使用 max 进行特征融合效果较好。

AFP是否真的有效呢？论文中使用max作为融合函数后分析发现，对于原本应该分别分配给N2~N5（对应下图level1~4）的 proposals，max函数提取到的特征其实大多数都不来自本层，例如level4（N5）只用到了来自level4 40%的特征，也就是说，通过AFP使得模型在预测时综合利用了N2~N5的特征，而最后的实验结果表明这的确带来了不少提高。

3、Mask 分支 FCN+Fully-connected 的融合

在 FCN 和 Fully-connected 的融合上，需要确定 Fully-connected 层选择哪一层进行输入，以及如何将二者的结果进行融合。通过实验发现，conv3作为 Fully-connected 层的输入、sum作为融合函数效果较好。

4、其它细节

对于多尺度训练，设置长边为1400，其他的在400-1400之间。

对于多GPU同步BN，在一个batch前计算所有样本的均值和方差，一起更新，而不是batch里面一张一张更新。

heavier head，与 RetinaNet 类似使用4个连续的 3×3 卷积而不是使用fc层，不同的是box分类和box回归参数共享。

Multi-scale Training & Multi-GPU Sync. BN 这两个技术帮助网络收敛的更好，泛化能力更强。

Bottom-up Path Augmentation 无论是否使用自适应池化卷积。自下而上增强路径提高了预测mask的表现。这验证了低层特征信息的有效性。

Adaptive Feature Pooling 无论是否使用自下而上的增强路径。自适应池化滤波都不断提升性能。其他层的特征对最终预测是有用的。

Fully-connected Fusion：全连接融合目的是提高mask预测的质量。这对于所有尺度都适用。

Heavier Head：对于bbox训练非常有效，对于mask预测效果一般。