当前位置：网站首页>Zero-Shot Image Retrieval（零样本跨模态检索）

Zero-Shot Image Retrieval（零样本跨模态检索）

2022-07-25 11:08:00 【上杉翔二】

上一篇博文简要整理了元学习和少样本学习，本篇文章重点整理几篇利用零样本学习做检索的文章。该问题的难度在于使用人类草图被用作查询以从不可见的类别中检索照片：

草图和图片的跨模态域差异大。sketch只有物体的轮廓，与image相比只有很少的信息。
由于不同人的绘画风格不一样，sketch的类内方差也很大。
怎么适应大规模检索，适应从Unseen中检索出图片。

在这里插入图片描述
A Zero-Shot Framework for Sketch Based Image Retrieval
来自ECCV2018。主要是思想是利用生成模型来解决问题，这样做的好处是通过生成模型，可以补充一些sketch信息，从而能使模型能够学会将草图的轮廓、局部形状等特征与图像的相应特征联系起来。具体模型如上图，左边和右边是作者的两个架构CVAE和CAAE，即分别用了两类主流的生成模型做测试（VAE和GAN）。

CVAE是使用条件变分自编码器，即将某一个特征作为条件参与到VAE的重建，然后直接可以得到有损失 $L=-D_{KL}(a(z|x_{img,x_{sketch}})||p(z|x_{sketch}))+E[log p(x_{img}|z,x_{sketch})]$ 为了保留sketch的潜在对齐关系，加入重建loss，即图中的regularrization loss： $L_{rec}=\lambda||f_{NN}(x'_{img})-x_{sketch}||^2_2$
CAAE是使用对抗性自编码器。同样的，沿用GAN的对抗想法，前面的特征生成器作为生成器G要最小化损失 $E_z[log p(x_{img}|z,x_{sketch})]+E_{img}[log (1-D(E(x_{img})))]$ 而判别器D要最大化损失 $E_[log[D(z)]]+E_{img}[log (1-D(E(x_{img})))]$ 同样也加上重建loss $L_{rec}=\lambda||f_{NN}(x'_{img})-x_{sketch}||^2_2$

作者实验证明CVAE比CAAE更好，可能由于CAAE的对抗模型训练不稳定。

在这里插入图片描述
Semantically Tied Paired Cycle Consistency for Zero-Shot Sketch-based Image Retrieval
来自CVPR2019.其复杂的结构如上图，共有4个生成器和3个判别器。

四个生成器各有作用，分别学习不同方向的映射语义，可以兼顾对模态内语义的学习，也可以完成跨模态的语义对齐 $G_{sk}：X->S, G_{im}：Y->S, F_{sk}：S->X, F_{im}：S->Y$
而判别器也对应分别是判别两个模态内自己的特征，还有一个用于模态间特征的判别。

比较有趣的是Cycle Consistency Loss，这个博主在跨模态检索中整理过，算是解决跨模态的老办法了。使得特征不仅能映射到对应的语义空间，也能从语义空间再映射回原始的特征空间，这样可以加强特征的学习。 $L_{cyc}=E[||F_{sk}(G_{sk}(x))-x||_1]+E[||G_{sk}(F_{sk}(s))-s||_1]$

在这里插入图片描述
Doodle to Search Practical Zero-Shot Sketch-based Image Retrieval
来自CVPR2019.还是尝试找映射关系，只是引入GRL提供Reward来指导嵌入。其中会有三个损失：

Triplet loss，构建正例对和负例对，然后这使pair属于相同的类的分数高于不同类。
Domain loss，使用GRL将两个模态的特征投影到同一空间，以获得一个与域无关的嵌入。
Semantic loss，这里就会有引入word Embedding来加强两者的联系。即强制嵌入包含语义信息通过重构词语义。

最后的损失函数由他们三者组成： $L=\alpha_1L_t+\alpha_2L_d+\alpha_3L_s$

在这里插入图片描述
Zero-Shot Sketch-Based Image Retrieval via Graph Convolution Network
来自AAAI2020.作者认为以上的一些生成模型，对于生成可能的图像特征并不能有效地利用侧信息，并且也不稳定。所以提出了一个GCN模型来缓解上述缺点。模型图如上，SketchGCN模型包含三个子网络，即编码网络、语义保持网络和语义重建网络。

编码网络试图将草图和图像嵌入到一个共同的语义空间中。
而语义保持网络以特征作为输入，利用侧信息迫使它们保持类别级关系。这里主要就是想学习类别之间的关系（毕竟任务的关键是从seen到unseen的学习，所以类别知识很重要），以转移知识。所以这里直接用特征信息构图然后GCN就行了。 $H^{(l+1)}=\sigma(A'H^{(l)}W^{(l)})$ 这里的图构建其实就是用语义特征计算相似度 $a^{i,j}=e^{-\frac{||s_i-s_j||^2_2}{t}}$
语义重构网络进一步迫使提取的特征保留它们的语义关系。这里就和前面的一些模型一样，用CVAE，重构loss，语义loss等一起约束空间的学习。

在这里插入图片描述
Learning Cross-Aligned Latent Embedding for Zero-Shot Cross-Modal Retrieval
来自AAAI2020，这篇工作是用文本去跨模态检索。方法上不直接使用类嵌入作为语义空间，而训练了一个多模态变分自动编码器(VAE)，学习的潜在嵌入，特别是用class作为bridge，然后通过匹配它们的参数化分布来对齐。模型如上图，先为这三个模态各自学习一个VAE，然后image和text做循环一致性的转换，再各自重建。

比较有意义的是在跨膜空间的对齐做了两个约束：

以类嵌入为桥梁，对潜在嵌入的多元高斯分布进行两两模式对齐。具体是算了一个2-Wasserstein distance。
由于图像和文本模式之间的关联是通过类嵌入隐式构建的，因此在这里考虑了另一种方案来显式地增强这两种模式的语义相关性。具体是算了maximum mean discrepancy (MMD)。

最后的loss还是以上各个loss的加和。

在这里插入图片描述
Correlated Features Synthesis and Alignment for Zero-Shot Cross-Modal Retrieval
来自SIGIR2020，作者和上一篇文章是一样的，所以做法也比较类似，但是将VAE换成了GAN，然后对模态内和模态间做工作。

模型架构图如上，先对class和image之间做WGAN，再对class和text做WGAN（所以其实和上篇比较相似的点是将class作为桥梁），然后也是各自判别器算loss，再算统一的Semantic Space的循环一致性和分布对齐loss，最后也是整集所有的loss。

原网站

版权声明
本文为[上杉翔二]所创，转载请带上原文链接，感谢
https://nakaizura.blog.csdn.net/article/details/113736971

当前位置：网站首页>Zero-Shot Image Retrieval（零样本跨模态检索）

Zero-Shot Image Retrieval（零样本跨模态检索）

边栏推荐

猜你喜欢

随机推荐