当前位置:网站首页>论文阅读 (59):Keyword-Based Diverse Image Retrieval with Variational Multiple Instance Graph
论文阅读 (59):Keyword-Based Diverse Image Retrieval with Variational Multiple Instance Graph
2022-06-28 10:51:00 【因吉】
1 概述
1.1 题目
1.2 背景
跨模态图像检索的最近引起了广泛研究关注。在实际场景中,用户发出的基于关键字的查询通常很短,且具有广泛的语义。因此,在这种面向用户的服务中,语义多样性与检索准确性一样重要,从而提高用户体验。然而,大多数基于单点查询嵌入的跨模态图像检索方法语义多样性低,而多样化检索方法由于缺乏跨模态理解准确性低。
1.3 策略
提出了一种端到端的变分多示例图 (Variational multiple instance graph, VMIG):
1)学习一个连续的语义空间来捕获不同的查询语义;
2)将检索任务制定为一个多示例学习问题,以跨模态连接不同的特征。
具体地,使用查询引导的变分自编码器 (Variational autoencoder, VAE) 来对连续语义空间进行建模,而非学习单点嵌入。然后,通过在连续语义空间中采样和应用多头注意力分别获得图像和查询的多个实例。此后,构建实例图以去除噪声实例并对齐跨模态语义。最后,异构模式在多重损失下被稳健地融合。
1.4 Bib
@article{
Zeng:2022:110,
author = {
Zeng, Yawen and Wang, Yiru and Liao, Dongliang and Li, Gongfu and Huang, Weijie and Xu, Jin and Cao, Da and Man, Hong},
title = {
Keyword-based diverse image retrieval with variational multiple instance graph},
journal = {
{
IEEE} Transactions on Neural Networks and Learning Systems},
pages = {
1--10},
year = {
2022},
doi = {
10.1109/TNNLS.2022.3168431},
url = {
https://ieeexplore.ieee.org/abstract/document/9764824}
}
2 框架
图2展示了VMIG的总体框架,其包含三个部分:
1)语义特征投影:提取图像与查询的特征,并将其投影到各自的语义空间;
2)跨模特多样化生成器;学习一对多的语义分布以生成多个实例,并构建跨模特多示例图。图像与查询的多个实例分别通过查询导向的VAE以及多头注意力获得,而跨模型多示例图用于探索模式内语义相关性和跨模式对齐;
3)语义空间约束:多个损失用于约束跨模态语义空间。

2.1 语义特征投影
令 v v v和 t t t分别表示图像和基于关键词的查询。给定一个 t t t,我们的目标是保证相关性和多样性地检索到合适的图像。为了学习到更好的特征,首先使用ResNet提取图像特征 f v \mathbf{f}_v fv,以及使用Doc2Vec获取查询特征 f t \mathbf{f}_t ft。然后将这些特征分别投影到语义空间:
{ f ~ v = o v ( f v ) f ~ t = o t ( f t ) (1) \tag{1} \left\{ \begin{array}{l} \tilde{\mathbf{f}}_v&=&o_v(\mathbf{f}_v)\\ \tilde{\mathbf{f}}_t&=&o_t(\mathbf{f}_t) \end{array} \right. { f~vf~t==ov(fv)ot(ft)(1)其中 o v o_v ov和 o t o_t ot是通过全连接网络近似的投影函数。
2.2 跨模特多样化生成器
边栏推荐
猜你喜欢

Katalon框架测试web(二十)自定义关键字以及上传弹窗操作

数据库系列:有什么办法对数据库的业务表进行无缝升级

Realize an air conditioner with compose to bring you cool in summer

移动命令

Dataease installation upgrade

Realization of a springboard machine

fastposter v2.8.4 发布 电商海报生成器

Set up your own website (11)

Several methods of using ABAP to operate Excel

Training and recognition of handwritten digits through the lenet-5 network built by pytorch
随机推荐
MySQL (III)
Hystrix 部署
Realization of a springboard machine
DataEase安装升级
Transactions proof in appliedzkp zkevm (10)
【实战】1364- 实现一个完美的移动端瀑布流组件(附源码)
[NLP] this year's college entrance examination English AI score is 134. The research of Fudan Wuda alumni is interesting
File的io流与base64
Mongo数据库
压缩解压
MytipartFile与File的相互转换
What is the best way to learn machine learning
Redis database
广州海关支持保障食品、农产品和中药材等民生物资稳定供港
AGCO AI frontier promotion (6.28)
Fabric.js 笔刷到底怎么用?
sentinel
Fastposter v2.8.4 release e-commerce poster generator
Resolution: overview of decentralized hosting solution
阿里三面:LEFT JOIN关联表中用ON还是WHERE跟条件有什么区别