当前位置：网站首页>【论文笔记】—低照度图像增强—Unsupervised—EnlightenGAN—2019-TIP

【论文笔记】—低照度图像增强—Unsupervised—EnlightenGAN—2019-TIP

2022-08-04 23:49:00 【chaikeya】

【论文介绍】

EnlightenGan是第一个成功地将非配对训练引入微光图像增强的工作。

【题目】：EnlightenGAN: Deep Light Enhancement Without Paired Supervision

【DOI】：10.1109/TIP.2021.3051462

【时间】：2019-06-17上传于arxiv
【会议】：2019 IEEE Transactions on Image Processing（TIP）
【机构】：美国-得克萨斯大学（University of Texas System）

【论文链接】：https://arxiv.org/abs/1906.06972
【代码链接】：https://github.com/VITA-Group/EnlightenGAN

【提出问题】

基于深度学习的方法在图像恢复和增强方面取得了显著的成功，但是在缺乏配对训练数据的情况下它们仍然具有竞争力吗？

【解决方案】

使用从输入本身提取的信息来规范非配对训练，而不是使用ground truth数据监督学习，提出了一个高效的无监督生成对抗网络，称为 EnlightenGAN，可以在没有低光/正常光图像对的情况下进行训练，可用于增强来自不同领域的真实世界低光图像。

【创新点】

无监督：EnlightenGan是第一个成功地将非配对训练引入微光图像增强的工作。
全局-局部鉴别器：除了全局改善光照之外，自适应地增强局部区域。
自正则化的思想：由自特征保持损失和自正则化注意力机制共同实现。

【EnlightenGAN网络构架】

采用自调整注意力引导的 U-Net 作为生成器。
使用双判别器来引导全局和局部信息。
使用自特征保留损失来指导训练过程并保持纹理和结构。

1、自调整注意力引导的U-Net生成器

每个卷积块有两个3×3卷积层，然后是BN和Leakyrelu。
每个注意力模块具有与（调整大小的）注意力图相乘的特征图。
在上采样阶段，用一个双线性上采样层和一个卷积层代替标准的反卷积层，以减轻棋盘伪影。

U-Net通过提取不同深度层的多层次特征，保留了丰富的纹理信息，并利用多尺度上下文信息合成高质量的图像。
【论文笔记】—图像分割—U-Net—2015-MICCAI_chaikeya的博客-CSDN博客

我们进一步为U-Net生成器提出了一种易于使用的注意力机制。直观地，在空间变化的光条件的低光图像中，我们总是希望比亮区域更多地增强暗区域，使得输出图像既没有曝光过度也没有曝光不足。我们取输入RGB图像的照明通道I，将其归一化为[0,1]，然后使用1-I（元素差异）作为我们的自正则化注意力图。然后，我们调整注意力地图的大小以适应每个特征地图，并将其与所有中间特征地图以及输出图像相乘。我们强调，我们的注意力地图也是一种自我规范的形式，而不是在监督下学习的。尽管它很简单，但注意力引导显示出持续提高视觉质量。

2、全局-局部判别器

我们采用对抗性损失来最小化真实和输出正态光分布之间的距离。然而，我们观察到图像级普通鉴别器在空间变化的光图像上经常失败。如果输入图像有一些局部区域需要与其他部分不同地增强，例如，整体黑暗背景中的小亮区域，单独的全局图像鉴别器通常无法提供所需的自适应性。

受先前工作 [37] 的启发，除了全局改善光照之外，为了自适应地增强局部区域，我们提出了一种新颖的全局-局部鉴别器结构，两者都使用 PatchGAN 进行真假鉴别。除了图像级全局判别器外，我们还添加了一个局部判别器，方法是从输出和真实正常光图像中随机裁剪局部块，并学习区分它们是真实的（来自真实图像）还是假的（来自增强的输出）

对于全局鉴别器，我们利用最近提出的相对论鉴别器结构[38]，它估计真实数据比假数据更真实的概率，并指导生成器合成比真实图像更真实的假图像。相对论判别器的标准函数是：

其中C表示鉴别器的网络，xr和xf分别从真假分布中采样，σ 表示sigmoid函数。我们稍微修改相对论鉴别器，用最小二乘GAN (LSGAN) [39] 损失代替sigmoid函数。最后，全局鉴别器D和生成器G的损失函数为:

对于局部鉴别器，我们每次从输出和真实图像中随机裁剪 5 个patch。这里我们采用原始的 LSGAN 作为对抗性损失，如下：

3、自特征保留损失

自规范化对我们的模型成功至关重要，因为没有强大的外部监督形式可用的非配对设置。

为了限制感知相似性，Johnson等人[40]通过采用预先训练的VGG来建模图像之间的特征空间距离，提出了感知损失，这被广泛应用于许多低级视觉任务[28]，[41]。通常的做法是限制输出图像与其真实图像之间的提取特征距离。

在我们的未配对设置中，我们建议改为限制输入低光与其增强的正常光输出之间的 VGG 特征距离。这是基于我们的经验观察，即当我们操纵输入像素强度范围时，VGG 模型的分类结果不是很敏感，这与最近的另一项研究一致 [42]。我们称其为自特征保留损失，以强调其自正则化效用，以在增强前后将图像内容特征保留给自身。这与（成对的）图像恢复中感知损失的典型用法不同，并且也是由我们的未成对设置引起的。具体来说，自特征保持损失 LSFP 定义为：

其中 I^L 表示输入低光图像，G(I^L) 表示生成器的增强输出。φi,j 表示从在 ImageNet 上预训练的 VGG-16 模型中提取的特征图。i 代表它的第 i 个最大池化，j 代表它在第 i 个最大池化层之后的第 j 个卷积层。Wi,j 和 Hi,j 是提取的特征图的维度。默认情况下，i = 5，j = 1。

对于我们的局部鉴别器，来自输入和输出图像的裁剪的局部块也通过类似定义的自特征保持损失Llocal SFP来正则化。此外，我们在输入LSFP和LLocal SFP之前，在VGG特征图之后添加了一个实例归一化层[43]，以稳定训练。因此，训练启发的总损失函数写为：

【数据集】

训练集：从 [47], [5] and also HDR sources [15], [25], 中发布的几个数据集中组装了 914 个低光和 1016 个正常光图像的混合图像，无需保留任何一对。手动检查和选择执行以去除中等亮度的图像。所有这些照片都转换为 PNG 格式并调整为 600×400 像素。