当前位置：网站首页>【论文】CBAM: Convolutional Block Attention Module

【论文】CBAM: Convolutional Block Attention Module

2022-06-09 05:42:00 【瑾怀轩】

一、引言

二、相关工作

三、卷积注意力模块

四、实验

4.1、消融研究

4.2、Image Net 上的图像分类 - 1 K

4.3 使用 Grad 进行网络可视化 - CAM [18]

摘要：我们提出了卷积块注意模块 (CBAM)，这是一个用于前馈卷积神经网络的简单而有效的注意模块。给定一个中间特征图，我们的模块沿两个单独的维度（通道和空间）顺序推断注意力图，然后将注意力图乘以输入特征图以进行自适应特征细化。因为 CBAM 是一个轻量级的通用模块，它可以无缝集成到任何 CNN 架构中，开销可以忽略不计，并且可以与基础 CNN 一起进行端到端训练。我们通过对 Image Net - 1 K、MS COCO 检测和 VOC 2007 检测数据集的广泛实验来验证我们的 CBAM。我们的实验表明，各种模型在分类和检测性能方面的持续改进，证明了 CBAM 的广泛适用性。代码和模型将公开提供。

一、引言

卷积神经网络 (CNNs) 基于其丰富的表示能力，极大地推动了视觉任务 [1-3] 的性能。为了提高 CNNs 的性能，最近的研究主要研究了网络的三个重要因素：深度、宽度和基数。

从 Le Net 架构 [4] 到 Residual-style Networks [5-8] 到目前为止，网络已经变得更深，可以提供丰富的表示。 VGG Net [9] 表明，堆叠具有相同形状的块会产生公平的结果。遵循同样的精神，Res Net [5] 将残差块的相同拓扑与跳跃连接堆叠在一起，以构建一个非常深的架构。 GoogLe Net [10] 表明宽度是提高模型性能的另一个重要因素。 Zagoruyko 和 Komodakis [6] 提出增加基于 Res Net 架构的网络宽度。他们已经表明，一个 28 层的 ResNet 增加了在 CIFAR 基准测试中，Width 可以胜过具有 1001 层的极深 ResNet。 Xception [11] 和 ResNeXt [7] 提出增加网络的基数。他们的经验表明，基数不仅节省了参数的总数，而且比其他两个因素：深度和宽度具有更强的表示能力。

图 1：CBAM 概述。该模块有两个顺序子模块：通道和空间。中间特征图通过我们的模块（CBAM）在深度网络的每个卷积块上自适应地细化。

除了这些因素之外，我们还研究了架构设计的不同方面，即注意力。注意力的重要性在之前的文献中已经得到了广泛的研究[12-17]。注意力不仅告诉你关注的地方，它还提高了兴趣的表现。我们的目标是通过使用注意力机制来增加表示能力：关注重要特征并抑制不必要的特征。在本文中，我们提出了一个新的网络模块，命名为“卷积块注意模块”。由于卷积操作通过将跨通道和空间信息混合在一起来提取信息特征，我们采用我们的模块来强调沿着这两个主要维度的有意义的特征：通道和空间轴。为了实现这一点，我们依次应用通道和空间注意模块（如图 1 所示），以便每个分支可以分别学习通道和空间轴上的“什么”和“哪里”。因此，我们的模块通过学习要强调或抑制哪些信息来有效地帮助信息在网络中流动。

在 Image Net - 1 K 数据集中，我们通过插入我们的微型模块从各种基线网络中获得了准确度的提高，揭示了 CBAM 的功效。我们使用 grad - CAM [18] 对训练模型进行可视化，并观察到 CBAM增强网络比其基线网络更准确地关注目标对象。考虑到这一点，我们推测性能提升来自于对无关杂波的准确关注和降噪。最后，我们在 MS COCO 和 VOC 2007 数据集上验证了对象检测的性能改进，证明了 CBAM 的广泛适用性。由于我们精心设计了轻量级模块，因此在大多数情况下参数和计算的开销可以忽略不计。

贡献:我们的主要贡献是三方面：

1、我们提出了一个简单而有效的注意力模块(CBAM),可以广泛应用于提高 CNNs的表示能力。

2、我们通过广泛的消融研究验证了注意力模块的有效性。

3、通过插入我们的轻量级模块，我们验证了各种网络的性能在多个基准测试（Image Net - 1 K、MS COCO 和 VOC 2007）上得到了极大的改进。

二、相关工作

网络工程：“网络工程”一直是最重要的视觉研究之一，因为精心设计的网络可确保在各种应用中显着提升性能。自大规模 CNN [19] 成功实施以来，已经提出了广泛的架构。一种直观且简单的扩展方式是增加神经网络的深度[9]。塞格迪等人 [10] 使用多分支架构引入深度 Inception 网络，其中每个分支都经过精心定制。并且已经开发了 Res NeXt [7]。 WideRes Net [6] 提出了一种具有更多卷积滤波器和降低深度的残差网络。Pyramid Net [20] 是 Wide Res Net 的严格概括，其中网络的宽度逐渐增加。 Res NeXt [7] 建议使用分组卷积，并表明增加基数可以提高分类精度。最近，Huang 等人。 [21] 提出了一种新的架构，Dense Net。它迭代地将输入特征与输出特征连接起来，使每个卷积块能够接收来自所有先前块的原始信息。虽然最近的大多数网络工程方法主要针对三个因素深度 [19, 9, 10, 5]，宽度 [10, 22, 6, 8] 和基数 [7, 11]，但我们专注于另一个方面，'注意力”，这是人类视觉系统的奇特方面之一。

注意力机制:众所周知，注意力在人类感知中起着重要作用[23-25]。人类视觉系统的一个重要特性是不会尝试一次处理整个场景。相反，人类利用一系列部分瞥见并选择性地关注显着部分，以便更好地捕捉视觉结构[26]。

最近，已经有一些尝试 [27, 28] 将注意力处理结合起来以提高 CNN 在大规模分类任务中的性能。王等人。 [27] 提出了使用编码解码器样式注意模块的残差注意网络。通过细化特征图，网络不仅表现良好，而且对噪声输入也具有鲁棒性。我们不是直接计算 3d 注意力图，而是分解分别学习通道注意力和空间注意力的过程。3D 特征图的单独注意力生成过程具有更少的计算和参数开销，因此可以用作现有基础 CNN 架构的即插即用模块。

更接近我们的工作，胡等人。 [28] 引入了一个紧凑的模块来利用通道间的关系。在他们的 Squeeze -and - Excitation 模块中，他们使用全局平均池化特征来计算 channel-wise attention。然而，为了推断精细的通道注意力，我们表明这些是次优特征，我们建议也使用最大池化特征。他们也错过了空间注意力，这在决定“在哪里”集中注意力方面起着重要作用，如 [29] 所示。

CBAM 基于有效的架构同时利用空间和通道注意，并通过经验验证利用这两者优于仅使用通道注意 [28]。此外，我们凭经验证明我们的模块在检测任务（MS - COCO 和 VOC）中是有效的。特别是，我们只需将我们的模块放在 VOC2007 测试集中现有的一次性检测器 [30] 的顶部，就可以实现最先进的性能。

三、卷积注意力模块

给定中间特征图 F ∈ $R^{C*H*W}$ 作为输入，CBAM 依次推断出一维通道注意图 $M_{c}$ ∈ $R^{C*1*1}$ 和二维空间注意图 $M_{s}$ ∈ $R^{1*H*W}$ ，如图所示在图 1 中。整个注意力过程可以概括为：

其中 ⊗ 表示元素 - 明智的乘法。在乘法过程中，注意力值被相应地广播（复制）：通道注意力值沿空间维度广播，反之亦然。 F′′是最终的精炼输出。图 2 描述了每个注意力图的计算过程。下面描述每个注意力模块的细节。

通道注意力模块:通过利用特征的通道间关系来生成通道注意图。由于特征图的每个通道都被视为特征检测器 [31]，因此通道注意力集中在给定输入图像的“什么”是有意义的。为了有效地计算通道注意力，我们压缩了输入特征图的空间维度。对于聚合空间信息，迄今为止普遍采用平均池化。周等人。 [32] 建议使用它来有效地学习目标对象的范围，Hu 等人。 [28] 在他们的注意力模块中采用它来计算空间统计。除了以前的工作，我们认为最大池化收集了另一个关于独特对象特征的重要线索，以推断更精细的通道 - 明智的注意力。因此，我们同时使用平均池化和最大池化特征。我们凭经验证实，利用这两个特征大大提高了网络的表示能力，而不是单独使用每个特征（参见第 4.1 节），显示了我们设计选择的有效性。我们将在下面描述详细的操作。

图 2：每个注意力子模块的示意图。如图所示，通道子模块利用共享网络同时使用最大池输出和平均池输出；空间子模块利用沿通道轴汇集的相似的两个输出并将它们转发到卷积层。

首先通过使用平均池化和最大池化操作来聚合特征图的空间信息，生成两个不同的空间上下文描述符： $F_{avg}^{c}$ 和 $F_{max}^{c}$ ,分别表示平均池化特征和最大池化特征。然后将两个描述符转发到共享网络以生成我们的通道注意力图 $M_{c}$ ∈ $R^{C*1*1}$ 。共享网络由具有一个隐藏层的多层感知器（MLP）组成。为了减少参数开销，隐藏激活大小设置为 $R^{C/r*1*1}$ ，其中 r 是缩减率。在将共享网络应用于每个描述符之后，我们使用逐元素求和来合并输出特征向量。简而言之，通道注意力被计算为：

其中σ表示sigmoid函数， $W_{0}$ ∈ $R^{C/r*C}$ ， $W_{1} \in R^{C*C/r}$ 。请注意，两个输入共享 MLP 权重 $W_{0}$ 和 $W_{1}$ ，并且 ReLU 激活函数后跟 $W_{0}$ 。

空间注意力模块:我们利用特征的空间间关系生成空间注意力图。与通道注意力不同，空间注意力集中在“哪里”是一个信息部分，这是对通道注意力的补充。为了计算空间注意力，我们首先沿通道轴应用平均池化和最大池化操作，并将它们连接起来以生成有效的特征描述符。沿通道轴应用池化操作被证明在突出信息区域方面是有效的 [33]。在连接的特征描述符上，我们应用卷积层来生成空间注意力图 $M_{s}(F)\in R^{H*W}$ ，它编码了要强调或抑制的位置。我们将在下面描述详细的操作。

图 3：CBAM 与 Res Net[5] 中的 Res Block 集成。此图显示了我们的模块在集成到 Res Block 时的确切位置。我们在每个块的卷积输出上应用 CBAM。

我们通过使用两个池化操作聚合特征图的通道信息，生成两个二维图： $F_{avg}^s \in R^{1*H*W}$ 和 $F_{max}^s \in R^{1*H*W}$ 。每个表示通道中的平均池化特征和最大池化特征。然后通过标准卷积层将它们连接和卷积，生成我们的 2D 空间注意力图。简而言之，空间注意力被计算为：

其中 σ 表示 sigmoid 函数， $f^{7*7}$ 表示滤波器大小为 7×7 的卷积操作。

注意力模块的布局：给定输入图像，通道和空间两个注意模块计算互补注意，分别关注“什么”和“在哪里”。考虑到这一点，两个模块可以以并行或顺序的方式放置。我们发现顺序排列比并行排列给出了更好的结果。对于顺序过程的安排，我们的实验结果表明，通道一阶略好于空间一阶。我们将在第二节讨论网络工程的实验结果。 4.1。

四、实验

我们在标准基准上评估 CBAM：Image Net - 1 K 用于图像分类； MS COCO 和 VOC 2007 用于对象检测。为了进行更好的形成对照的比较，我们在 Py Torch 框架 [35] 中复制了所有评估的网络 [57, 34, 28]，并在整个实验中报告了我们的复制结果。

为了彻底评估我们最终模块的有效性，我们首先进行了广泛的消融实验。然后，我们验证 CBAM 在没有花里胡哨的情况下优于所有基线，证明了 CBAM 在不同架构和不同任务中的普遍适用性。可以将 CBAM 无缝集成到任何 CNN 架构中，并联合训练组合的 CBAM - 增强网络。图 3 显示了 CBAM 与 Res Net [5] 中的 Res Block 集成的示意图作为示例。

4.1、消融研究

在本小节中，我们凭经验展示了我们的设计选择的有效性。对于这项消融研究，我们使用 Image Net - 1 K 数据集并采用 Res Net - 50 [5] 作为基础架构。 Image Net - 1 K 分类数据集 [1] 包含 120 万张用于训练的图像和 50,000 张用于验证的图像，其中包含 1,000 个对象类。我们采用与 [5, 36] 相同的数据增强方案进行训练，并在测试时应用大小为 224×224 的单作物评估。学习率从 0.1 开始，每 30 个 epoch 下降一次。我们训练网络 90 个 epoch。在 [5, 36, 37] 之后，我们报告了验证集上的分类错误。

我们的模块设计过程分为三个部分。我们首先寻找计算通道注意力的有效方法，然后是空间注意力。最后，我们考虑如何结合通道和空间注意模块。我们在下面解释每个实验的细节。

通道注意力机制：我们通过实验验证，使用平均池化和最大池化特征可以实现更精细的注意力推理。我们比较了通道注意力的 3 种变体：平均池化、最大池化和两种池化的联合使用。请注意，具有平均池化的通道注意模块与 SE [28] 模块相同。此外，当使用两个池时，我们使用共享的 MLP 进行注意力推理以保存参数，因为两个聚合通道特征都位于相同的语义嵌入空间中。我们在这个实验中只使用了通道注意模块，我们将缩减率固定为 16。

各种池化方法的实验结果如表 1 所示。我们观察到最大池化特征与平均池化特征一样有意义，比较了基线的准确性提高。然而，在 SE [28] 的工作中，他们只利用了平均池化特征，忽略了最大池化特征的重要性。

表 1：不同渠道注意力方法的比较。我们观察到，使用我们提出的方法优于最近提出的挤压和激发方法 [28]。

表2：不同空间注意力方法对比。使用假设的通道池化(例如, 沿着通道轴进行平均池化和最大池化)，沿着最大为7的卷积核大小进行卷积操作表现最好。

表3：结合通道和空间注意力方法：使用两种注意力是最好的结合策略更好的提升了精度。（排列是通道注意力在前）

我们认为，对最显着部分的程度进行编码的最大池化特征可以补偿对全局统计数据进行软编码的平均池化特征。因此，我们建议同时使用这两个功能并将共享网络应用于这些功能。然后共享网络的输出通过逐元素求和合并。我们凭经验表明，我们的通道注意方法是一种有效的方法，可以在没有额外可学习参数的情况下进一步推动 SE [28] 的性能。作为一个简短的结论，我们在我们的通道注意模块中使用平均池化特征和最大池化特征，在以下实验中减少率为 16。

空间注意力：给定通道明智的细化特征，我们探索了一种计算空间注意力的有效方法。设计理念与通道注意力分支对称。为了生成二维空间注意力图，我们首先计算一个二维描述符，该描述符在所有空间位置上的每个像素处编码通道信息。然后我们将一个卷积层应用于 2D 描述符，获得原始注意力图。最终的注意力图由 sigmoid 函数归一化。

我们比较了生成 2D 描述符的两种方法：使用通道轴上的平均池和最大池的通道池和标准 1×1 卷积将通道维度减少到 1。此外，我们研究了内核大小在以下卷积层：内核大小为 3 和 7。在实验中，我们将空间注意模块放在先前设计的通道注意模块之后，因为最终目标是同时使用这两个模块。

表2显示了实验结果。我们可以观察到通道池化产生更好的准确性，这表明显式建模池化导致更好的注意力推理，而不是可学习的加权通道池化（实现为 1×1 卷积）。在不同卷积核大小的比较中，我们发现采用更大的核大小在两种情况下都会产生更好的精度。这意味着需要一个广阔的视野（即大的感受野）来决定空间上重要的区域。考虑到这一点，我们采用通道池方法和具有大内核大小的卷积层来计算空间注意力。简而言之，我们使用卷积核大小为 7 的通道轴上的平均池化特征和最大池化特征作为我们的空间注意力模块。

通道注意力和空间注意力机制的排列：在本实验中，我们比较了安排通道和空间注意子模块的三种不同方式：通道 - 空间，空间 - 通道，以及两个注意模块的并行使用。由于每个模块具有不同的功能，因此顺序可能会影响整体性能。例如，从空间的角度来看，通道注意力是全局应用的，而空间注意力是局部的。此外，很自然地认为我们可以结合两个注意力输出来构建一个 3D 注意力图。在这种情况下，可以并行应用两个注意力，然后将两个注意力模块的输出相加并使用 sigmoid 函数进行归一化。

表 3 总结了不同注意力安排方法的实验结果。从结果中，我们可以发现顺序生成注意力图比并行生成更精细的注意力图。此外，通道一阶的性能略好于空间一阶。请注意，所有排列方法都优于单独使用通道注意力，这表明利用两种注意力至关重要，而最佳排列策略会进一步提高性能。

最终模型设计 在消融研究中，我们设计了通道注意模块、空间注意模块，以及这两个模块的排列方式。我们的最终模块如图 1 和图 2 所示：我们为通道和空间注意模块选择平均池和最大池；我们在空间注意模块中使用内核大小为 7 的卷积；我们按顺序排列通道和空间子模块。我们的最终模块（即 Res Net50 + CBAM）实现了 22.66% 的 top-1 误差，远低于 SE [28]（即 Res Net50 + SE），如表 4 所示。

4.2、Image Net 上的图像分类 - 1 K

我们执行 Image Net - 1 K 分类实验来严格评估我们的模块。我们遵循与 Sec 中指定的相同协议。 4.1 并在各种网络架构中评估我们的模块，包括 ResNet [5]、Wide ResNet [6] 和 ResNext [7]。

表4：在ImageNet-1K 数据集上的分类结果。单模块错误验证报告

表 4 总结了实验结果。具有 CBAM 的网络显着优于所有基线，表明 CBAM 可以很好地泛化大规模数据集中的各种模型。此外，具有 CBAM 的模型提高了最强方法之一的准确性 - SE [28]，这是 ILSVRC 2017 分类任务的获胜方法。这意味着我们提出的方法是强大的，显示了新的池化方法的有效性，该方法生成了更丰富的描述符和空间注意力，有效地补充了通道注意力。

图 4 描绘了 Image Net - 1 K 训练期间各种网络的误差曲线。我们可以清楚地看到，我们的方法在两个错误率图中都表现出最低的训练和验证错误。它表明与 SE [28] 相比，CBAM 具有更大的能力来提高基线模型的泛化能力。

我们还发现 CBAM 的总体开销在参数和计算方面都非常小。这促使我们将我们提出的模块 CBAM 应用到轻量级网络 Mobile Net [34]。表 5 总结了我们基于 Mobile Net 架构进行的实验结果。我们将 CBAM 放置在两个模型中，基本模型和容量缩减模型（即将宽度乘数（α）调整为 0.7）。我们观察到类似的现象，如表 4 所示。CBAM 不仅显着提高了基线的准确性，而且还有利地提高了 SE [28] 的性能。这显示了 CBAM 在低端设备上应用的巨大潜力。

图4：在ImageNet-1K上的训练期间的错误曲线，

表5: 在ImageNet-1K上使用轻量化网络的分类结果。单模块验证错误报告

4.3 使用 Grad 进行网络可视化 - CAM [18]

对于定性分析，我们使用来自 Image Net 验证集的图像将 Grad - CAM [18] 应用于不同的网络。 Grad - CAM 是最近提出的一种可视化方法，它使用梯度来计算卷积层中空间位置的重要性。由于梯度是针对唯一类计算的，因此 Grad - CAM 结果清楚地显示了参与区域。通过观察网络认为对预测类别很重要的区域，我们试图了解该网络如何充分利用特征。我们比较了 CBAM - 集成网络 (Res Net50 + CBAM) 与基线 (Res Net50) 和 SE - 集成网络 (Res Net50 + SE) 的可视化结果。图 5 说明了可视化结果。图中还显示了目标类的 softmax 分数。

在图 5 中，我们可以清楚地看到 CBAM 集成网络的 Grad-CAM 掩码比其他方法更好地覆盖目标对象区域。也就是说，CBAM - 集成网络可以很好地学习利用目标对象区域中的信息并从中聚合特征。请注意，目标类分数也会相应增加。根据观察，我们推测 CBAM 的特征细化过程最终会导致网络很好地利用给定的特征。

图 5：Grad - CAM [18] 可视化结果。我们比较了 CBAM - 集成网络 (Res Net50 + CBAM) 与基线 (Res Net50) 和 SE - 集成网络 (Res Net50 + SE) 的可视化结果。为最后的卷积输出计算 grad - CAM 可视化。真实标签显示在每个输入图像的顶部，P 表示真实标签类的每个网络的 softmax 分数。

表6：在MS COCO数据验证集的目标检测mAP. 我们采用Faster R-CNN 检测框架并且应用我们模型到基础网络。 CBAM 在[email protected][.5, .95] 增长了0.9对应每一个基础网络。

表7：在VOC 2007的测试数据集上目标检测的mAP。我们采用StairNet[30] 检测框架并且使用SE 和CBAM对于检测头。CBAM在几乎没有增加参数下提升了所有的基础模型。

4.4 MS COCO 物体检测

我们在 Microsoft COCO 数据集 [3] 上进行对象检测。该数据集包含 80k 训练图像（“2014 train”）和 40k 验证图像（“2014 val”）。在从 0.5 到 0.95 的不同 Io U 阈值上的平均 m AP 用于评估。根据 [38, 39]，我们使用所有训练图像以及验证图像的子集训练我们的模型，提供 5,000 个示例进行验证。我们的训练代码基于 [40]，我们训练网络进行 49 万次迭代以进行快速性能验证。我们采用 Faster - RCNN [41] 作为我们的检测方法，并采用 Image Net 预训练的 Res Net50 和 Res Net101 [5] 作为我们的基线网络。在这里，我们对通过将 CBAM 插入基线网络来提高性能感兴趣。由于我们在所有模型中使用相同的检测方法，增益只能归因于增强的表示能力，由我们的模块 CBAM 给出。如表 6 所示，我们观察到基线的显着改进，证明了 CBAM 在其他识别任务上的泛化性能。

4.5 VOC 2007 目标检测

我们进一步在 PASCAL VOC 2007 测试集上进行实验。在本实验中，我们将 CBAM 应用于检测器，而之前的实验（表 6）将我们的模块应用于基础网络。我们采用了 Stair Net [30] 框架，这是基于 SSD [39] 的最强的多尺度方法之一。在实验中，我们在 Py Torch 平台上重现 SSD 和 Stair Net，以准确估计 CBAM 的性能提升，分别达到 77.8% 和 78.9% m [email protected]，高于原始论文中报告的原始精度.然后，我们将 SE [28] 和 CBAM 放在每个分类器之前，在预测之前细化由上采样的全局特征和相应的局部特征组成的最终特征，强制模型自适应地只选择有意义的特征。我们在 VOC 2007 trainval 和 VOC 2012 trainval (“07+12”) 的联合集上训练所有模型，并在 VOC 2007 测试集上进行评估。训练 epoch 的总数为 250。我们使用 0.0005 的权重衰减和 0.9 的动量。在所有实验中，为简单起见，输入图像的大小固定为 300。

实验结果总结在表 7 中。我们可以清楚地看到，CBAM 提高了具有两个骨干网络的所有强基线的准确性。请注意，CBAM 的准确性提高伴随着可忽略的参数开销，这表明增强不是由于简单的容量增量，而是由于我们有效的特征细化。此外，使用轻量级骨干网络[34]的结果再次表明，CBAM 可以成为低端设备的一种有趣方法。

五、结论

我们提出了卷积瓶颈注意模块（CBAM），这是一种提高 CNN 网络表示能力的新方法。我们使用基于注意力的特征细化两个不同的模块，通道和空间，并在保持较小开销的同时实现显着的性能改进。对于通道注意力，我们建议使用最大池化特征和平均池化特征，从而产生比 SE 更好的注意力 [28]。我们通过利用空间注意力进一步推动性能。我们的最终模块（CBAM）学习了强调或抑制的内容和位置，并有效地改进了中间特征。为了验证其功效，我们对各种最先进的模型进行了广泛的实验，并确认 CBAM 在三个不同的基准数据集上优于所有基线：Image Net - 1 K、MS COCO 和 VOC 2007。此外，我们可视化模块如何准确推断给定输入图像。有趣的是，我们观察到我们的模块诱导网络正确地关注目标对象。我们希望 CBAM 成为各种网络架构的重要组成部分。

附录

1. Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: Imagenet: A large-scale hierarchical image database. In: Proc. of Computer Vision and Pattern Recognition (CVPR). (2009)
2. Krizhevsky, A., Hinton, G.: Learning multiple layers of features from tiny images
3. Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., Zitnick, C.L.: Microsoft coco: Common objects in context. In: Proc. of European Conf. on Computer Vision (ECCV). (2014)
4. LeCun, Y., Bottou, L., Bengio, Y., Haﬀner, P.: Gradient-based learning applied to document recognition. Proceedings of the IEEE 86(11) (1998) 2278–2324
5. He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition.
In: Proc. of Computer Vision and Pattern Recognition (CVPR). (2016)
6. Zagoruyko, S., Komodakis, N.: Wide residual networks. arXiv preprint arXiv:1605.07146 (2016)
7. Xie, S., Girshick, R., Dollár, P., Tu, Z., He, K.: Aggregated residual transformations for deep neural networks. arXiv preprint arXiv:1611.05431 (2016)
8. Szegedy, C., Ioﬀe, S., Vanhoucke, V., Alemi, A.A.: Inception-v4, inception-resnet and the impact of residual connections on learning. In: Proc. of Association for the Advancement of Artiﬁcial Intelligence (AAAI). (2017)
9. Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556 (2014)
10. Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., Rabinovich, A.: Going deeper with convolutions. In: Proc. of Computer Vision and Pattern Recognition (CVPR). (2015)
11. Chollet, F.: Xception: Deep learning with depthwise separable convolutions. arXiv preprint arXiv:1610.02357 (2016)
12. Mnih, V., Heess, N., Graves, A., et al.: Recurrent models of visual attention."
advances in neural information processing systems. In: Proc. of Neural Information Processing Systems (NIPS). (2014)
13. Ba, J., Mnih, V., Kavukcuoglu, K.: Multiple object recognition with visual attention. (2014)
14. Bahdanau, D., Cho, K., Bengio, Y.: Neural machine translation by jointly learning to align and translate. (2014)
15. Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A., Salakhudinov, R., Zemel, R., Bengio, Y.: Show, attend and tell: Neural image caption generation with visual attention. (2015)
16. Gregor, K., Danihelka, I., Graves, A., Rezende, D.J., Wierstra, D.: Draw: A recurrent neural network for image generation. (2015)
17. Jaderberg, M., Simonyan, K., Zisserman, A., et al.: Spatial transformer networks.
In: Proc. of Neural Information Processing Systems (NIPS). (2015)
18. Selvaraju, R.R., Cogswell, M., Das, A., Vedantam, R., Parikh, D., Batra, D.: Gradcam: Visual explanations from deep networks via gradient-based localization. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. (2017) 618–626
19. Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classiﬁcation with deep convolutional neural networks. In: Proc. of Neural Information Processing Systems (NIPS). (2012)
20. Han, D., Kim, J., Kim, J.: Deep pyramidal residual networks. In: Proc. of Computer Vision and Pattern Recognition (CVPR). (2017)
21. Huang, G., Liu, Z., Weinberger, K.Q., van der Maaten, L.: Densely connected convolutional networks. arXiv preprint arXiv:1608.06993 (2016)
22. Szegedy, C., Vanhoucke, V., Ioﬀe, S., Shlens, J., Wojna, Z.: Rethinking the inception architecture for computer vision. In: Proc. of Computer Vision and Pattern Recognition (CVPR). (2016)
23. Itti, L., Koch, C., Niebur, E.: A model of saliency-based visual attention for rapid scene analysis. In: IEEE Trans. Pattern Anal. Mach. Intell. (TPAMI). (1998)
24. Rensink, R.A.: The dynamic representation of scenes. In: Visual cognition 7.1-3.
(2000)
25. Corbetta, M., Shulman, G.L.: Control of goal-directed and stimulus-driven attention in the brain. In: Nature reviews neuroscience 3.3. (2002)
26. Larochelle, H., Hinton, G.E.: Learning to combine foveal glimpses with a thirdorder boltzmann machine. In: Proc. of Neural Information Processing Systems (NIPS). (2010)
27. Wang, F., Jiang, M., Qian, C., Yang, S., Li, C., Zhang, H., Wang, X., Tang, X.: Residual attention network for image classiﬁcation. arXiv preprint arXiv:1704.06904 (2017)
28. Hu, J., Shen, L., Sun, G.: Squeeze-and-excitation networks. arXiv preprint arXiv:1709.01507 (2017)
29. Chen, L., Zhang, H., Xiao, J., Nie, L., Shao, J., Chua, T.S.: Sca-cnn: Spatial and channel-wise attention in convolutional networks for image captioning. In: Proc. of Computer Vision and Pattern Recognition (CVPR). (2017)
30. Sanghyun, W., Soonmin, H., So, K.I.: Stairnet: Top-down semantic aggregation for accurate one shot detection. In: Proc. of Winter Conference on Applications of Computer Vision (WACV). (2018)
31. Zeiler, M.D., Fergus, R.: Visualizing and understanding convolutional networks.
In: Proc. of European Conf. on Computer Vision (ECCV). (2014)
32. Zhou, B., Khosla, A., Lapedriza, A., Oliva, A., Torralba, A.: Learning deep features for discriminative localization. In: Computer Vision and Pattern Recognition (CVPR), 2016 IEEE Conference on, IEEE (2016) 2921–2929
33. Zagoruyko, S., Komodakis, N.: Paying more attention to attention: Improving the performance of convolutional neural networks via attention transfer. In: ICLR. (2017)
34. Howard, A.G., Zhu, M., Chen, B., Kalenichenko, D., Wang, W., Weyand, T., Andreetto, M., Adam, H.: Mobilenets: Eﬃcient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861 (2017)
35. : Pytorch. http://pytorch.org/ Accessed: 2017-11-08.
36. He, K., Zhang, X., Ren, S., Sun, J.: Identity mappings in deep residual networks.
In: Proc. of European Conf. on Computer Vision (ECCV). (2016)
37. Huang, G., Sun, Y., Liu, Z., Sedra, D., Weinberger, K.Q.: Deep networks with stochastic depth. In: Proc. of European Conf. on Computer Vision (ECCV). (2016)
38. Bell, S., Lawrence Zitnick, C., Bala, K., Girshick, R.: Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks. In: Proc. of Computer Vision and Pattern Recognition (CVPR). (2016)
39. Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C.Y., Berg, A.C.: Ssd:
Single shot multibox detector. In: Proc. of European Conf. on Computer Vision (ECCV). (2016)
40. Chen, X., Gupta, A.: An implementation of faster rcnn with study for region sampling. arXiv preprint arXiv:1702.02138 (2017)
41. Ren, S., He, K., Girshick, R., Sun, J.: Faster r-cnn: Towards real-time object detection with region proposal networks. In: Proc. of Neural Information Processing Systems (NIPS). (2015)