当前位置：网站首页>Progressive Reconstruction of Visual Structure for Image Inpainting 论文笔记

Progressive Reconstruction of Visual Structure for Image Inpainting 论文笔记

2022-08-01 04:03:00 【Magic__Conch】

会议与时间 IEEE Conference Proceedings international conference on computer vision Jan 2019 CCF-A
在这里插入图片描述

文章目录

主要贡献/创新点
- 过去方法存在的问题
- 创新点
模型搭建
分析与结论

主要贡献/创新点

在partial convolution地基础上作改进，通过逐步地交错地生成edge map和inpainting image，共享参数以提升两者地效果。

过去方法存在的问题

利用对抗损失评估生成的结构，将每个结构图视为一个整体，很难恢复到合格的局部结构。
局部卷积等方法缺乏结构性的知识，限制恢复了连续的masked区域。

结构structure就是edge、前景等“中间介质”。

创新点

提出PRVS（Progressive Reconstruction of Visual Structure）网络，逐步重建结构和相关的视觉特征。
设计了一种新的Visual Structure Reconstruction(VSR)层，将重建的视觉结构(visual structure)和视觉特征(visual feature)纠缠在一起，通过共享参数提高彼此的性能。
分析了所提出方法的泛化能力，给出了 $O(\frac{1}{\sqrt N})$ 的泛化界。

模型搭建

模型主要结构

在这里插入图片描述
也是生成器+判别器结构

生成器由使用了VSR层的P-UNet结构组成。
判别器由预训练的权重固定的VGG-16和由5层卷积层构成的Patch Discriminator组成。

Visual Structure Reconstruction Layer

VSR层由结构生成器（Visual Structure Generator）和特征生成器组成。

先使用结构生成器更新input edge，收缩确实区域的大小。
然后使用更新的edge map引导新feature的生成。

Visual Structure Generator

在这里插入图片描述

1. 先使用局部卷积获得更新的feature map $X_{pc1}$ 和其对应的mask $M_{pc1}$

$X_{pc1},M_{pc1} = Pconv(<X_{in},E_{in}>,<M_{in}^{Img},M_{in}^{Edge}>)$
Pconv是局部卷积操作，<>是concatenate， $X_{in}$ 是image feature，3通道， $E_{in}$
是structure map，单通道，M分别代表它们的mask。
$X_{pc1}$ 和 $M_{pc1}$ 分别是更新后的feature map和它的mask。

2. $X_{pc1}$ 输入到bottleneck residual block和一个单通道输出卷积核中产生结构图 $E_{conv}$ 。

3. 新生成的 $M_{pc1}$ 和 $M_{in}^{Edge}$ 做减法，再和 $E_conv$ 做逐元素乘积，获得新生成的Edge map。

4. 原始的 $E_in$ 和 $E_{part}$ 相加，得到迭代后的 $E_{EG}$ 。

5. 该步输出的结果是 $E_{EG}$ 和 $M_{pc1}$ 。

VSR层的整体结构

VSR层的主要目的是将结构信息整合到重构的特征映射中。
获得迭代的边缘图和其mask，按照下面的公式更新特征图及对应的mask $X_{out}$ 和 $M_{pc2}$ 。保证了edge map和feature map的同步更新。
$\mathbf{X}_{o u t}, \mathbf{M}_{p c 2}=\mathbf{M}_{p c 1} \odot\left(\operatorname{Pconv}\left(\left\langle\mathbf{X}_{i n}, \mathbf{E}_{E G}\right\rangle,\left\langle\mathbf{M}_{i n}, \mathbf{M}_{p c 1}\right\rangle\right)\right)$

除了VSR，上采样层中还使用了结合了部分卷积和转置卷积的部分反卷积层。

本文通过使用局部卷积层使得mask在不同通道中的大小保持一致，然后转置卷积进行上采样特征映射，解决之前P-Unet跳接引起的难以使用反卷积的问题。

左边是P-Unet中原始的上采样层，右边是本文的，本文在局部卷积层后面加入了反卷积层。 Nearest up-sampling用于在PRVS网络解码器阶段放大mask。

在这里插入图片描述

判别器

1. Patch-GAN：structure generation learning

用于学习结构，也就是本文的Edge map。

2. pre-trained and fixed VGG-16 network： image generation learning

使用来自预训练的值固定的VGG-16的 perceptual loss and style loss.（VGG-16仅仅是特征提取器而已）

perceptual loss：
$L_{\text {preceptual }}=\sum_{i=1}^{N} \frac{1}{H_{i} W_{i} C_{i}}\left|\phi_{\text {pool }_{i}}^{g t}-\phi_{\text {pool }_{i}}^{\text {pred }}\right|_{1}$

$\phi_{pool_i}$ 表示固定VGG-16中一i个池化层的特征映射。

style loss：
$\phi_{\text {pool }_{i}}^{s t y l e}=\phi_{\text {pool }_{i}} \phi_{\text {pool }_{i}}^{T}$
$L_{\text {style }}=\sum_{i=1}^{N} \frac{1}{C_{i} * C_{i}} \mid\left.\frac{1}{H_{i} W_{i} C_{i}}\left(\phi_{\text {pool }_{i}}^{\text {style }_{g t}}-\phi_{\text {pool }_{i}}^{\text {style }} \text { pred }\right)\right|_{1}$
$L_{valid}$ 和 $L_{hole}$ 分别是unmasked area和masked area的L1 distance.
total loss:
$\begin{aligned} L_{\text {total }} &=\lambda_{\text {hole }} L_{\text {hole }}+\lambda_{\text {valid }} L_{\text {valid }}+\lambda_{\text {tv }} L_{\text {tv }}+\lambda_{\text {style }} L_{\text {style }} \\ &+\lambda_{\text {perceptual }} L_{\text {perceptual }}+\lambda_{\text {adv }}\left(L_{\text {adv }}^{1}+L_{\text {adv }}^{2}\right) \end{aligned}$

分析与结论

泛化能力分析

泛化界表明，泛化能力与判别器的复杂度呈负相关，泛化界为 $O(\frac{1}{\sqrt N})$ 。
$\begin{aligned} & \log \mathcal{N}\left(\left.\mathcal{F}\right|_{S}, \varepsilon,\|\cdot\|_{2}\right) \\ \leq & \frac{\log \left(2 W^{2}\right)\|X\|_{2}^{2}}{\varepsilon^{2}}\left(\rho \prod_{i=1}^{5} s_{i}\right)^{2}\left(\sum_{i=1}^{5} \frac{b_{i}^{2 / 3}}{s_{i}^{2 / 3}}\right)^{3} \end{aligned}$
权重矩阵的谱规范之间存在负相关关系，这就需要对谱规范进行归一化来控制谱规范。