当前位置：网站首页>自监督论文阅读笔记 Multi-motion and Appearance Self-Supervised Moving Object Detection

自监督论文阅读笔记 Multi-motion and Appearance Self-Supervised Moving Object Detection

2022-08-03 05:23:00 【YoooooL_】

本文考虑了视频中的自监督运动目标检测 (MOD) 问题，其中在训练和推理阶段均不涉及真值。

移动相机可能会带来额外的挑战，这会导致运动独立假设和局部独立背景运动的失败。

为了解决这些问题，本文提出了一种 多运动和外观自监督网络（MASNet）来为MOD 引入场景的多尺度运动信息和外观信息。

运动物体，尤其是可变形物体，通常由不同时间尺度的运动区域组成。引入多尺度运动可以聚合这些区域，形成更完整的检测。

当运动独立性不可靠时，外观信息可以作为 MOD 的另一个提示，并用于消除由局部独立的背景运动引起的背景中的错误检测。

为了编码多尺度运动和外观，在 MASNet 中我们分别设计了一个多分支流编码模块和一个图像修复模块。

Introduction：

运动物体检测（MOD）是人类视觉系统的一项基本能力，可用于广泛的现实世界应用。

视频中关于 MOD 的工作可以根据训练和推理协议的差异大致分为三类：

• 有监督训练/无监督推理 [27,15,26,8]

• 有监督训练/半监督推理 [6, 30]

• 无监督训练/无监督推理[17,21,29,32]。

尽管监督和半监督方法取得了优异的性能，但它们严重依赖大量的精细标记数据，这些数据稀缺且昂贵。为了缓解这些问题，越来越多的精力花在如何有效地挖掘未标记数据的内在信息来监督模型训练上。

由于一个运动对象可以 由多个时间尺度的运动区域 组成，一个时间尺度的时间信息可以简单地编码对象的一部分。例如，在图 1A 中，从 t 到 t+1 的光流捕获了舞者左腿的运动（较小的绿色框）；从 t 到 t + 2 的流程图捕获了他的右腿和身体的运动（较大的绿色框）。不同帧之间舞者的光流图捕捉人体不同的运动区域。

因此，单一尺度的时间信息 不足以进行 全面的MOD。

相机和物体的联合运动 导致 违反运动独立假设。

基于上述分析，当前方法无法对物体的多尺度运动进行编码，也无法处理由移动摄像机引起的问题。

为了解决这些问题，本文提出了一种多运动和外观自监督网络（MASNet），将多尺度时间信息和空间外观信息引入CIS（Contextual Information Separation）[32] 用于 MOD。

MASNet 包含两个组件：1. 多分支流编码 (MFE) 模块 2. IMage InPainter (IMIP) 模块。

• MFE 模块 同时接收多个光流图，对多尺度运动信息进行编码，并在不同时间尺度上聚合检测以形成最终检测。通过这种方式，可以利用多尺度时间信息来生成更全面的检测。

• IMIP 解决由摄像机移动引起的问题。特别是当相机在移动时，运动信息并不完全可靠。为了区分对象与背景并消除背景中的错误检测，IMIP 诉诸于 空间外观信息。这基于物体外观与背景不同的假设。

当检测在背景中时，IMIP 可以 利用周围的外观信息 来恢复它，从而强制掩码生成器产生更好的检测。类似地，对于运动物体中的漏检，IMIP 可以通过周围区域的外观来推断被遮挡的区域。

Contributions：

• MFE 模块 旨在引入各种尺度的运动信息 来聚合不同时间尺度上的检测，从而实现更完整的运动物体检测。

• IMIP 利用空间外观信息 来加强对生成器的新维度的监督。

• 进行综合实验以验证所提出的 MFE 和 IMIP 的有效性，并证明本文的 MASNet 对最先进的方法的优越性能。

[32] 提出了第一个基于深度学习的无监督运动目标检测方法，其中 对抗性学习框架 旨在利用运动场中目标和背景的独立性来生成运动区域。

本文的工作与密切相关的工作 [32] CIS 的差异：

1. 多分支流编码模块在训练阶段每次迭代引入多尺度运动信息，而不是涉及一种时间信息

2. 除了运动信息，我们的方法还考虑了外观信息。基于对象和背景之间的不同特征，设计了一个 图像修复模块 来增强生成器的监督信号。

图3。MFE 模块由几对生成器和流修复器组成。生成器将图像 I、时间 t 及其相应带有帧的光流图 F1, ..., FN , 在时间 t1, ..., tN 作为输入，对多尺度运动信息进行编码并生成各种运动分割掩码。图像 I、分割掩码 M 和掩码流映射图 Fm 被转发到 流修复器 以恢复掩码流图 Fr。

除了针对每个运动尺度的流修复器 flow inpainter 之外，还引入了一个额外的流修复器来恢复 N 帧上的平均运动。

采用图像修复器 重建掩码图像，从外观维度提供监督信息。

MOD的对抗性学习：