当前位置:网站首页>ECCV 2022 | AirDet: 无需微调的小样本目标检测方法
ECCV 2022 | AirDet: 无需微调的小样本目标检测方法
2022-08-03 12:35:00 【Tom Hardy】
作者丨[email protected]知乎(已授权)
来源丨https://zhuanlan.zhihu.com/p/545249730
编辑丨极市平台
导读
本文提出无需微调的小样本目标检测方法AirDet,针对机器人自主探索任务设计。基训练后,未经微调的AirDet表现甚至优于部分微调后的方法。论文、项目代码、ROS部署接口均已开源。
AirDet

项目网站:https://jaraxxus-me.github.io/ECCV2022_AirDet/
开源论文:https://arxiv.org/pdf/2112.01740.pdf
开源代码:https://github.com/Jaraxxus-Me/AirDet
ROS部署:https://github.com/Jaraxxus-Me/AirDet_ROS
引言
小样本目标检测(FSOD)是近年兴起的一项计算机视觉任务,其基本设定是,仅提供少量(通常少于等于10个)新类样本情况下,方法即需检测基训练集之外类别的目标。
由于其在自主探索中的重要作用,FSOD受到了机器人界越来越多的关注。这是因为我们通常期望机器人在未知环境中检测到(模型训练过程中未见过的)新物体,然而在线探索的过程中,用户只能在线标注提供少量的新类样本。譬如图一(a)中,用户提供少量标注后,方法需要检测钻孔机、头盔等未见过的新颖类别目标。
尽管FSOD最近有了很显著的发展,但是大多数现有的方法在应用前都遵循基训练、小样本微调两阶段范式。然而微调阶段并不适用于机器人在线探索的应用场合,因为:
探索过程中待检测的新类别是可以动态变化的(如不断增加的)。如果每次改变类别都重新微调模型,一方面对于时间紧迫的探索任务而言效率极低,另一方面也会为有限的机器人机载算力带来过高负荷。
微调阶段的许多超参数都需要验证集进行调节,如微调学习率、模型收敛epoch等。然而对于在线探索任务而言,验证集是不存在的,超参调节自然也就难以进行。
为此,我们提出了一种无需微调的小样本目标检测方法AirDet。如图一(b)所示,未经微调的AirDet甚至能取得比一些微调后的方法更好的结果。

贡献
本文提出在机器人自主探索任务中可行的,无需微调的小样本检测模型,AirDet。
本文提出“与类别无关的关联性(class-agnostic relation)”,包含空间关联性与通道关联性,这是AirDet的模型设计核心。
在COCO,VOC,LVIS数据集与DARPA Subt挑战赛真实数据中的详尽实验评估证明了AirDet的优越性与可行性。
我们也提供了AirDet的ROS接口与AGX上的部署指南。
方法介绍

图二展示了机器人自主探索任务的流程和AirDet的宏观模型结构。
任务流程
在探索未知环境过程中,机器人首先将可能包含重要物体(如头盔)的原始图片发送给用户。用户会在线给出标注并提供少量样本。此后,机器人便可_立即_ 通过对后续环境的感知检测这些新类样本。
宏观结构
AirDet宏观上包含四个模块
共享的骨干网络,用于特征提取
由支持样本引导的多层特征融合的区域建议网络,用于在测试图片上生成候选框
基于全局-局部联系的样本融合网络,用于生成更具表征能力,更可靠的类原型特征
基于关联性的检测头,分为分类分支和检测框回归分支
核心理念
AirDet的模块设计理念均基于“与类别无关的关联性(class-agnostic relation)”。
具体而言,我们定义了如下两种关联性:空间尺度关联性 和特征通道关联性
空间尺度关联性: 目标的类别与其外观紧密相关, 而目标的外观由特征的空间维度描述。因此, 两 个特征的空间关联性可以很大程度上反映两个特征的相关程度(如相似性)。我们定义 如下:
402 Payment Required
其中, 是两个任意张量。Flatten 意味着将特征在空间尺度下展平。MLP 是常用的多层感知机, 故而 可以生成带有 的空间 信息的核, 此后使用逐通道卷积 便可计算 间的空间关联性 。
特征通道关联性: 在以往的研究中表明, 图片的类别信息通常存于特征通道中。譬如, 考虑两辆汽 车的深度特征, 其沿通道的分布是相似的。受此启发, 我们提出特征通道关联性模块 :
其中, 代表沿通道维度串联两个特征。
与类别无关的关联性贯穿AirDet每个子模块的设计,这使得AirDet无需微调即可工作。每个子模块的设计细节请有兴趣的读者参阅我们的原文或代码。
实验
条件设定
基训练集:
COCO2017 train数据集中非VOC的60类数据(等价于COCO2014 trainval中剔除5k测试图片)
测试集:
COCO2017 val数据集中属于VOC的20个新类数据(提供1,2,3,5shot 支持样本)
Pascal VOC2012 val数据集
LVIS 数据集中四组非常规类别
DARPA Subt 挑战赛中的真实数据
值得一提的是,由于AirDet无需微调,在所有测试数据,不同shot的设定中,我们都可采用同一个基训练出来的模型(而不需要针对不同的场景调整不同的微调超参数)。
COCO

COCO上的结果显示,无需微调的AirDet已经比肩,甚至优于许多微调后的方案,微调后,AirDet的性能更加可观。无需微调的条件下,方法的结果对支持样本较敏感,故而我们随机采样了3-5组样本,展示了其平均结果和标准差,表中由 \dagger\dagger 表示。

得益于AirDet中由支持样本引导,可学习多层特征联系的SCS模块(详见原文),AirDet在多尺度目标检测中也比已有的方案更优(优于采纳FPN的方案)。
值得一提的是,对于多尺度目标的检测,微调后的模型表现不一定更好。

大多现有方案对于COCO数据集采纳10-shot场景,我们也给出AirDet 10-shot的结果如上表。(不过最新的CVPR2022中,COCO 10-shot已经能达到17-18 AP,不得不感慨CV发展的迅猛)
VOC

通常机器人的工作环境与训练集有较大差别,我们展示的跨领域性能(COCO训练,VOC测试)如上表。
Subt 挑战赛

感觉放了好多表,SUBT就放一些定性图。左侧是提供给AirDet的新类样本,右侧是AirDet的检测结果,可见AirDet对真实探索环境中的尺度变化、照度变化等挑战因素较为鲁棒。
局限性
无需微调的小样本目标检测研究甚少,目前可以不微调直接工作的仅有A-RPN和AirDet两个方法,而这个任务对机器人在位置环境中的探索感知又比较重要。为了这个领域未来能得到关注并发展的更好,我们也真诚摆出AirDet的局限性:
AirDet目前模型参数较多,运行速度不快,我们在AGX Xavier上如果不做TensorRT加速,运行速度仅有1~2FPS。更轻量化的模型是可优化的方向。
我们观察到AirDet的failure case主要是由分类导致的,具体问题有两个。第一,类间variance大,有些类AP高达30,有些类低至0.5。第二,AirDet对正样本分类不够好。举例来说,如果给猫(新类)的支持样本,AirDet在测试图片上:在猫的区域生成候选框,和将含有猫的候选框分类为猫,这两个任务表现不佳(体现为loss大)。所以设计更有效地分类策略是提升AirDet性能的可观方向。
AirDet对于多类检测的效率较低。AirDet的SCS和检测头内部会对支持类跑循环,最后在所有类下找到得分最高的,这种跑法会导致类别过多时推理速度变慢。(这应该也是大多数基于元学习(meta-learning)的FSOD的局限性)
最后坦白的说,未经微调的AirDet与微调的方法在某些情况下仍有一些差距,这也说明AirDet的性能仍有较大提升空间。
致谢
本文是我参加CMU RISS2021暑研期间的工作,从第一次讨论这个方向,到至今论文中稿已逾一年。非常感谢期间王晨博士和Scherer教授对我的指导帮助,也非常感谢pranay和Seungchan学长的协助合作。本文主要受A-RPN与《learning to compare》两篇文章启发,在此向文章的作者们致以真挚的谢意(代码基于FewX)。
本文仅做学术分享,如有侵权,请联系删文。
干货下载与学习
后台回复:巴塞罗那自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件
后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf
后台回复:3D视觉课程,即可学习3D视觉领域精品课程
计算机视觉工坊精品课程官网:3dcver.com
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
重磅!计算机视觉工坊-学习交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~
边栏推荐
- php microtime encapsulates the tool class, calculates the running time of the interface (breakpoint)
- self-discipline
- 字节最爱问的智力题,你会几道?
- An工具介绍之3D工具
- R语言ggplot2可视化:使用ggpubr包的ggsummarystats函数可视化箱图(通过ggfunc参数设置)、在可视化图像的下方添加描述性统计结果表格
- 【实战技能】单片机bootloader的CANFD,I2C,SPI和串口方式更新APP视频教程(2022-08-01)
- php microtime 封装工具类,计算接口运行时间(打断点)
- Image fusion SDDGAN article learning
- nacos应用
- The Yangtze river commercial Banks to the interview
猜你喜欢

YOLOv5训练数据提示No labels found、with_suffix使用、yolov5训练时出现WARNING: Ignoring corrupted image and/or label

shell编程条件语句

4500 words sum up, a software test engineer need to master the skill books

From the physical level of the device to the circuit level

AMS simulation

特征降维学习笔记(pca和lda)(1)

基于php志愿者服务平台管理系统获取(php毕业设计)

Key points for account opening of futures companies

实数取整写入文件(C语言文件篇)

层次分析法
随机推荐
Random forest project combat - temperature prediction
shell编程条件语句
Use %Status value
Chapter 15 Source Code File REST API Introduction
15. PARTITIONS「建议收藏」
【精品必知】Pod生命周期
622. 设计循环队列
pandas连接oracle数据库并拉取表中数据到dataframe中、生成当前时间的时间戳数据、格式化为指定的格式(“%Y-%m-%d-%H-%M-%S“)并添加到csv文件名称中
安防监控必备的基础知识「建议收藏」
GameFi 行业下滑但未出局| June Report
漫谈缺陷管理的自动化实践方案
别再用if-else了,分享一下我使用“策略模式”的项目经验...
利用ChangeStream实现Amazon DocumentDB表级别容灾复制
In order to counteract the drop in sales and explore the low-end market, Weilai's new brand products are priced as low as 100,000?
R language ggplot2 visualization: use the patchwork bag plot_layout function will be more visual image together, ncol parameter specifies the number of rows, specify byrow parameters configuration dia
How to build an overseas purchasing system/purchasing website - source code analysis
Win11怎么禁止软件后台运行?Win11系统禁止应用在后台运行的方法
从器件物理级提升到电路级
Sogou news-数据集
R语言ggplot2可视化:使用ggpubr包的ggsummarystats函数可视化箱图(通过ggfunc参数设置)、在可视化图像的下方添加描述性统计结果表格