当前位置:网站首页>自监督论文阅读笔记 S3Net:Self-supervised Self-ensembling Network for Semi-supervised RGB-D Salient Object Det
自监督论文阅读笔记 S3Net:Self-supervised Self-ensembling Network for Semi-supervised RGB-D Salient Object Det
2022-08-03 05:23:00 【YoooooL_】
然后,将这个SG-CNN分配为 整体自集成学习框架 的学生和教师网络。在训练过程中,将标记好的数据输入到学生网络中,通过 融合 显著性检测损失 和 自监督(旋转角度)损失 进行训练。
然后,对于未标记的数据,我们将其 分别输入 到学生网络和教师网络。对显著性预测和旋转角度预测 都计算了自监督一致性损失。
在测试阶段,我们只采用学生网络对输入的RGB-D图像进行显著性检测映射图的预测。
图2概述了所开发的 自引导卷积神经网络(SG-CNN) 的原理图,该网络从RGB图像和深度图像中挖掘知识,采用多任务学习策略对网络进行训练,即联合预测显著图和旋转角度。
对于RGB- D图像,SG-CNN 首先利用卷积神经网络(CNN) 从RGB图像中 提取5个不同空间分辨率的特征映射(即r1到r5),然后利用另一个CNN从深度图像中 学习5个CNN层的特征(即d1到d5) 。
为了结合来自深度图的互补信息,我们在每个CNN层建立了一个 三层跨模型特征融合(TCF)模块,通过 融合两个相邻CNN层的特征 来利用RGB视图和深度视图,从而得到5个综合特征(即f1到f5)。
如图3所示,TCF在第i个CNN层 以三对相邻的RGB和深度特征作为输入,输出一个聚合的特征映射图fi。 我们将每一对RGB和深度特征相乘,将结果与原始的RGB和深度特征 连接起来,并在连接的特征映射上应用3×3卷积层。在这之后,我们获得三个新的特征hi-1,hi,hi+1。
获取到特征h后,我们将hi 上采样到 hi−1相同的空间分辨率,然后将其添加到hi−1中,对加法结果应用3×3卷积层,然后将获得的特征下采样到hi的空间分辨率中以产生新的特征gi−1:
然后,我们向下采样hi−1和上采样hi+1到hi相同的分辨率,用hi添加这两个调整大小的特征图,并在加法结果上应用3×3卷积层来产生一个新的特征gi:
第三步:我们向下采样hi到hi+1的分辨率,元素级地将它与hi+1相加,在添加结果上应用3×3卷积层,然后上采样得到的特征到hi的空间分辨率,产生新的特征gi+1:
在图二的第一个分支中,我们用 f5作为输入来预测RGB-D图像的旋转角度。具体来说,我们首先对f5进行平均池化操作,得到一个新的特征映射图,然后将其传递到两个全连接层和一个softmax层,得到一个包含四个元素的向量,即Ω={0°,90°,180°,和270°},代表旋转角度。
图二的第二个分支 融合这些集成特性(即f1到f5) 来预测输出的显著性映射。为此,本文设计了一个特征增强(feature enhancement, FE)模块,将相邻两个卷积层的特征进行组合,并从深度卷积层到浅层卷积层迭代地进行特征组合。
如图2所示,我们将 f5 和 f4 传递给一个FE模块,得到一个新的feature map(记为),然后用第二个FE模块将其与f3融合,得到一个feature map ^f3。然后用第三个FE模块将^f3和f2组合得到^f2,再将^f2和f1传递给第四个FE模块。从第四个FE模块的输出特征^f1,我们应用3×3 convolutional layer, 1×1 convolutional layer,和sigmoid激活函数,预测出一个显著性映射,并将这个显著性映射作为SG-CNN的最终输出。
对于标注的数据,本文将标注的显著性掩码作为真值 Gs,用于RGB-D显著性检测。并将选定的旋转角度作为旋转角度分类任务的真值(Ga)。用这两个真值Gs和Ga,计算标注图像(x)的监督损失(Ls)为显著性检测损失和旋转角预测损失之和,即:
其中 Ps 和 Pa 分别为预测的 显著性映射 和 旋转角度。ΦBCE和ΦCE分别是 二元交叉熵损失和 交叉熵损失函数。在网络训练过程中,根据经验设置了权重α=0.1。
对于未标注的数据,本文将其传递到 学生网络 和 教师网络 中,得到两组预测结果,每组预测结果由显著性预测图和旋转角度组成。然后,我们 强制学生网络和教师网络的预测保持一致,得到未标记数据的无监督损失(Lu),未标记图像(记为y)的Lu定义为:
式中,Ss和Ts分别表示学生网络和教师网络的显著性预测;Sa和Ta是由学生网络和教师网络预测的旋转角度。ΦMSE 和 ΦKL分别为MSE损失和KL散度损失。根据经验设置了其中的φ =1。
网络总的损失函数为:
其中N1和N2是训练集中 有标记的图像 和 没有标记的图像的数量。
EMA:
教师网络的参数 是 学生网络参数的 指数移动平均(EMA),来对不同训练步骤的信息进行集成。
MTMT 与本文工作有三个方面的不同:
• 这两项工作都利用了 无标记数据 的多任务学习和半监督学习,但本文是用于从RGB-D配对数据中检测显著性,而MTMT 是用于 从单个图像中 检测阴影。
• 多任务学习:MTMT 联合检测阴影区域、阴影边缘和阴影区域数量,但本文同时识别 显著区域 和 预测图像旋转角度。
• MTMT中的 辅助任务 具有监督学习机制,而本文的附加图像旋转角度预测 则采用自监督学习方式进行学习。
Result:
与其他方法相比,本网络能够更准确地从RGB-D数据中检测出显著目标。在本文的网络中探索 无标记数据 和自监督多任务学习 比以监督学习方式训练的RGB-D显著性检测器能够抑制非显著性目标,并检测出更多的显著性像素。
消融实验:
TCF模块可以生成 比简单将元素相加 更精确的特征图;角度旋转的自监督预测 有助于本文的方法从RGB-D图像产生更准确的识别显著图;未标记数据的额外一致性损失能够提高仅用标记数据的RGB-D显著性检测性能;在探索未标记数据的一致性损失时,显著性检测比图像旋转角度预测对本文方法的成功有更大的贡献;本文方法更能准确地检测出显著区域,这表明旋转角度预测有利于MT模型用于RGB-D显著性检测。
Discussion:
与未标记数据上的监督损失相比,旋转预测的一致性损失使我们能够更好地识别显著对象。
本文工作以旋转预测作为辅助任务,能够更好地理解目标显著物体的角度信息,从而使RGB-D显著物检测更加准确。
以自监督旋转角度预测为辅助任务 的RGB-D配对数据比拼图和图像修复能更好地识别显著性目标。
Failure cases:
对于(i) 具有 复杂的 显著性物体边界 的显著性物体;(ii) 只有部分人体物体的显著区域;(iii)在非显著背景下 具有紧密强度分布的显著目标。
Conclusion:
本文提出了一种 自监督自集成网络,通过学习 标记数据 和 未标记数据 来进行RGB-D显著性检测。本文首先开发了一个 自引导多任务卷积神经网络,在没有任何额外监督信号的情况下,同时预测显著图和分类图像的旋转角度。然后,我们利用 自集成框架 利用 额外的未标记数据来进一步提高RGB-D显著性检测的性能。在7个基准数据集上的实验结果表明,本文的网络在数量和视觉上始终优于最先进的方法。在本文的网络中考虑到前置任务的多样性 以及 更多的未标记数据是作者未来工作的方向之一。
边栏推荐
- Convolutional Nerual Nertwork(CNN)
- 中国磷化铟技术行业发展趋势与前景规划建议报告2022~2028年
- 微信小程序 自定义tabBar
- MySql 怎么查出符合条件的最新的数据行?
- [XSS, file upload, file inclusion]
- 优雅的拦截TabLayout的点击事件
- 自监督论文阅读笔记Reading and Writing: Discriminative and Generative Modelingfor Self-Supervised Text Recogn
- 【HQL】(一)json字符串处理json_tuple和get_json_object
- 玩转Markdown(2) —— 抽象语法树的提取与操纵
- 卷积神经网络入门
猜你喜欢
Sqli-labs-master靶场1-23关通关详细教程(基础篇)
Apache2-XXE漏洞渗透
交叉熵(第六周)
docker mysql 容器中执行mysql脚本文件并解决乱码
mysql 客户端SSL错误2026 (HY000)
边缘辅助无人机网络的分层联邦学习
漫谈Map Reduce 参数优化
【DC-4 Range Penetration】
The ` monorepo ` ` hoist ` mechanism lead to the change of the loading configuration file path
Convolutional Nerual Nertwork(CNN)
随机推荐
[frp intranet penetration]
【DC-2靶场渗透】
UPC-Longest X
自监督论文阅读笔记 Ship Detection in Sentinel 2 Multi-Spectral Images with Self-Supervised Learning
new / malloc / delete / free之间的区别
Greetings(状压DP,枚举子集转移)
中国石油行业并购重组趋势与投资战略规划建议报告2022~2028年
中国融资租赁行业市场投资分析与前景战略规划建议报告2022~2028年
NFT租赁提案EIP-5006步入最后审核!让海外大型游戏的链改成为可能
Oracle 分区索引详解(local、global)
当奈飞的NFT忘记了web2的业务安全
Invalid signature file digest for Manifest main attributes解决方法
【解读合约审计】Harmony的跨链桥是如何被盗一亿美金的?
C# Base64加密
opencv
动态规划笔记
进程间通信IPC - 信号量
[Rebound shell and privilege escalation]
布尔盲注需简化代码
编程软件配备