当前位置：网站首页>CVPR2021 - Inception Convolution with Efficient Dilation Search

CVPR2021 - Inception Convolution with Efficient Dilation Search

2022-08-05 05:15:00 【sc0024】

2021的CVPR最近出炉啦，觉得总局限在自己做的那个小方向里还是不行，要把眼光放长远一点，广泛地读论文~加油

主体内容为机翻+个人校对，如有错误欢迎指正~

Inception Convolution with Efficient Dilation Search

论文地址：https://arxiv.org/abs/2012.13587

顺便安利一个CVPR整理地址贴：https://github.com/amusi/CVPR2021-Papers-with-Code

摘要

膨胀卷积（Dilation convolution）是标准卷积神经网络的一个关键变体，它能控制有效的接受野和处理对象的大尺度变化，而不引入额外的计算。然而，文献中对有效感受野与扩张卷积数据拟合的讨论较少。为了充分挖掘其潜力，我们提出了一种新的膨胀卷积突变体，即 inception (dilated) convolution，其卷积在不同轴（axes）、通道和层之间具有独立的膨胀。为了探索一种将复杂的 Inception Convolution 与数据拟合的实用方法，提出了一种简单而有效的基于统计优化的膨胀搜索算法(EDO)。该搜索方法以零成本的方式运行，适用于大规模数据集的速度非常快。实证结果表明，我们的方法在广泛的基准中获得一致的性能增益。例如，通过简单地将renet -50骨干中的3 × 3标准卷积替换为inception卷积，我们将MS-COCO上的Faster-RCNN地图从36.4%提高到39.2%。此外，在ResNet-101 backbone上使用相同的替换，我们在COCO val 2017上实现了从下向上人体姿态估计的AP分数从60.2%到68.5%的巨大提升。

（总结：与膨胀卷积的改进就是，dilation这个参数在不同维度上都可以独立调整，至于如何调整呢？采取NAS进行搜索，从而可以针对不同的数据集进行调整。）

1 Introduction

感受野是卷积神经网络的一个重要概念，得到了广泛的研究。作者[31]证明了感受野的强度大致为高斯分布，只有感受野中心部分周围的少数像素有效地有助于输出神经元的响应。此外，在之前的研究中，已经针对不同的任务测试了更有意识定义的有效感受野(ERF, effective receptive field)[25,34]。

在不同的任务中，由于输入图像的大小差异和感兴趣对象的尺度范围不同，对ERF的要求也不同。例如，在图像分类中，输入的尺寸往往比较小(例如:224 × 224)，而在目标检测中，输入尺寸要大得多，目标的尺度范围也很大。即使对于固定网络的同一任务，某一卷积层的最优ERF也可能与[25,33]中讨论的标准卷积运算不同。由于ERF的要求不断变化，需要针对不同的任务提出一种通用的、实用的ERF优化算法。

正如[31]中讨论的，膨胀卷积核的dilation (膨胀率)是一个非常有效的超参数，可以调节不同任务之间的ERFs分布。[25]的工作提出在一个CNN的不同阶段分配不同的膨胀值，并取得了一致的改进。NATS[34]更进一步，将卷积分成不同的组，每个组都有独立的扩张值。

但是，他们在相对粗糙的搜索空间中使用 skeleton network architecture search 的搜索方法，忽略了扩张卷积的细粒度内部结构。因此，在本研究中，我们重点探讨了在膨胀域的搜索问题，以有效地调整ERFs。

首先，我们希望有一个比[25]更灵活的搜索空间。灵活性产生了将ERFs拟合到不同数据集的能力。我们提出了一种新的膨胀卷积突变体，即 Inception Convolution，它包含尽可能多的膨胀模式，如图1所示。在Inception Convolution 的空间中，每个轴、每个通道和每个卷积层的膨胀率都是独立定义的。inception卷积提供了一个密集的可能erf范围。在消融研究中，我们进一步研究了 Inception Convolution 对搜索结果的影响。

对于搜索空间的优化，我们参考了神经结构搜索(NAS)中的扩散工作，它能够自动优化神经网络操作符组合。DARTS 和single path one-shot(SPOS)是NAS方法的两大主要家族。DARTS 训练一个超网络，其中离散操作选择(discrete operation selection) 被放松为所有候选操作输出的连续加权和。训练后，在每个块中选择体系结构权重最大的操作。SPOS在超级网的每个训练步骤中随机选择一个操作序列(子网)，不同序列中的相同操作具有相同的权值。训练后，SPOS通过对多个继承共享权重的序列进行采样和评估，选择最佳的操作序列。

然而，DARTS 和SPOS都不适合我们的搜索空间。在DARTS中，块中的所有操作在训练期间应用到输入，以使体系结构权值意识到每个操作的重要性，但卷积层(块)的膨胀模式的数量很大，即16个，如果两个轴各有4个选择。这意味着DARTS需要16次连续计算，因此具有较低的GPU实用价值和较大的计算成本。SPOS在训练过程中对操作序列进行采样。然而，在我们的搜索空间中，即使在单个卷积层中，膨胀模式的数量也是巨大的，即 $d^{2C}_{max}$ ，其中C为通道数， $d_{max}$ 是最大膨胀率。大量的膨胀模式给为SPOS设计一个公平的抽样策略带来了极大的困难。

本文提出了一种简单而高效的膨胀优化算法(EDO)。在EDO中，超网络的每一层都是一个标准的卷积操作，其内核覆盖了所有可能的膨胀模式。在对超网络进行预训练后，通过求解一个统计优化问题，为每个卷积层中的每个通道选择膨胀模式。对于每一层，通过(1)原始卷积层的输出期望和(2)裁剪出来的与选择的膨胀模式的膨胀卷积之间的l1误差的最小化，用预先训练好的权值来解决选择问题。

EDO以一种非常简单的方式支持对我们的完全扩张域搜索空间进行高效的通道扩张优化。与基于搜索的方法[15]相比，我们的方法的搜索代价几乎为零，因为唯一的代价是计算训练权重的统计。与差分方法相比[29,3]，它将不同模式的顺序计算转换为并行方式，从而具有更低的计算成本和更高的GPU利用率。此外，与SPOS相比，我们不需要设计复杂的机制来保证抽样的公平性和子网的准确排序。

主要贡献：

•我们提出了一种新的扩张卷积突变体，即Inception卷积，它可以有效地将ERF拟合到数据中。

•我们提出了一种基于零成本统计的架构搜索算法(EDO)，用于 Inception Convolution，以使架构与数据匹配，无需成本。

实证结果表明，EDO在不增加任何计算预算的情况下，在可扩展的任务和模型范围上取得了普遍的改进。在ImageNet数据集上，我们的性能比ResNet-50高出1.1%。在COCO数据集上，我们的IC-ResNet50和IC-ResNet101使用Faster-RCNN-FPN可以达到38.9%和41.9%的AP，分别比基线高出2.5%和3.1%。在自下而上的人体姿势估计方面，在COCO val2017上，我们的性能比resnet -101高8.3%。此外，我们的 Inception Convolution 在实例分割和人群检测方面也有显著的改进。

---------------------------------------------------

读CVPR2021主要是为了看看业界顶尖的同行都在做什么，研一小白看公式真的费劲，看看intro得了555

原网站

版权声明
本文为[sc0024]所创，转载请带上原文链接，感谢
https://blog.csdn.net/weixin_42108775/article/details/114690749