当前位置:网站首页>目标检测学习笔记
目标检测学习笔记
2022-07-31 05:09:00 【Cheng-O】
研究背景
计算机三大热门方向:计算机视觉、自然语言处理(NLP)以及语音识别
计算机视觉研究方向:
物体识别和检测
找出图片中常见的物体,并将其类别和位置输出,比如:人脸检测,车辆检测
识别:分类出哪些样本是目标
检测:从随机有干扰的图片中检测出有信息的特征
词义分割
对图像中的每个像素点进行分类,相当于对图片中的目标进行分割
运动和跟踪
在视频开始时给出目标的位置以及尺寸,然后在视频后续中对其进行追踪
视觉问答
目的旨在根据输入图像,由用户进行提问,而算法自动根据提问内容进行回答
物体检测的意义
研究角度看,是计算机视觉的根本问题之一,是很多高层视觉任务的基础
高层视觉任务:人脸识别、行人再辨识、目标跟踪、图像分类
应用角度看,已经表示出广泛的应用需求
物体检测应用:人脸解锁、视频监控、出入口人数统计、辅助驾驶、自动驾驶
发展脉络
单阶段法只需要对锚框进行一次矫正就能得到最终结果,而多阶段法需要多次矫正。
传统方法
利用手工特征+分类器,以滑窗方式在图像金字塔上遍历所有位置和大小,进行物体检测
滑窗方式遍历所有的位置,图像金字塔遍历不同大小
常用数据集
通用物体检测数据集
人脸检测数据集
评价指标
检测精度
交除并重叠比(IoU)= 交集面积 / 并集面积
召回率 = 被召回的真实标注的数量(标注对的数量)/ 真实标注的数量(实际目标的数量)
精度 = 真正例的数量(标注对的数量) / 检测结果的数量(检测到的数量)
召回是看检测的是否全面,精度是看检测的是否准确
平均精度均值(mAP ) 所有种类平均精度(AP)的均值
平均精度 精度-召回率曲线下的面积
漏检率(Miss rate) = 漏检的数量 / 真实标注的数量
平均每张图的虚捡个数(FPPI)= 漏检个数 / 图片数
检测速度
前传耗时(ms) = 从输入一张图片到输出最终结果所消耗的时间
每秒帧数(FPS)= 每秒能处理的图像数量
作业
Overfeat:Integrated Recognition, Localization and Detection using Convolutional Networks
R-CNN:
R-CNN论文详解(论文翻译)_Cheese的博客-CSDN博客_r-cnn
fast RCNN:
Fast R-CNN论文详解_WoPawn的博客-CSDN博客_fasterrcnn论文
faster-RCNN
Faster R-CNN文章详细解读_Michael’s Blog-CSDN博客
FPN:feature pyramid networks for object detection
FPN(feature pyramid networks)算法讲解_AI之路-CSDN博客_feature pyramid
YOLO:
YOLO系列算法精讲:从yolov1至yolov4的进阶之路(2万字超全整理,建议收藏!)_不积跬步,无以至千里!-CSDN博客_yolo系列算法
SSD:
SSD原理解读-从入门到精通_QQ哥的专栏-CSDN博客_ssd原理
R-FCN:object detection via region-based fully convolutional networks
R-FCN算法及Caffe代码详解_AI之路-CSDN博客_fcn代码详解
DCN:Deep & Cross Network for Ad Click Predictions
推荐系统深度学习篇-DCN网络介绍(2)_来自Daisy和她的单程车票-CSDN博客_dcn网络
RetinaNet:Focal Loss for Dense Object Detection
RetinaNet论文理解_JustForYou的博客-CSDN博客_retinanet
Mask R-CNN:
【Mask RCNN】论文详解(真的很详细)_咖啡味儿的咖啡-CSDN博客_mask rcnn
召回率:4 / 5
精度:4 / 6
漏检率:1 / 6
边栏推荐
- ERROR 2003 (HY000) Can't connect to MySQL server on 'localhost3306' (10061)
- Interviewer: If the order is not paid within 30 minutes, it will be automatically canceled. How to do this?
- 面试官竟然问我怎么分库分表?幸亏我总结了一套八股文
- MySQL optimization: from ten seconds to three hundred milliseconds
- Go中间件
- Information System Project Manager Core Test Site (55) Configuration Manager (CMO) Work
- Doris学习笔记之监控
- DVWA shooting range environment construction
- Sql解析转换之JSqlParse完整介绍
- MYSQL下载及安装完整教程
猜你喜欢
ERROR 1064 (42000) You have an error in your SQL syntax; check the manual that corresponds to your
Distributed Transactions - Introduction to Distributed Transactions, Distributed Transaction Framework Seata (AT Mode, Tcc Mode, Tcc Vs AT), Distributed Transactions - MQ
STM32 - DMA
Why use Flink and how to get started with Flink?
mysql存储过程
【一起学Rust】Rust学习前准备——注释和格式化输出
sql语句之多表查询
Blockbuster | foundation for platinum, gold, silver gave nameboards donors
The monitoring of Doris study notes
MySQL database installation (detailed)
随机推荐
wx.miniProgram.navigateTo在web-view中跳回小程序并传参
Why use Flink and how to get started with Flink?
MySQL-如何分库分表?一看就懂
sql语句之多表查询
有了MVC,为什么还要DDD?
Numpy中np.meshgrid的简单用法示例
Minesweeper game (written in c language)
[Cloud Native] DevOps (5): Integrating Harbor
Duplicate entry 'XXX' for key 'XXX.PRIMARY' solution.
[py script] batch binarization processing images
Input length must be multiple of 8 when decrypting with padded cipher
Sql解析转换之JSqlParse完整介绍
A complete introduction to JSqlParse of Sql parsing and conversion
ES source code API call link source code analysis
MySQL常见面试题汇总(建议收藏!!!)
Reference code series_1. Hello World in various languages
MySQL8.0.26安装配置教程(windows 64位)
matlab abel变换图片处理
限流的原理
PCL calculates the point cloud coordinate maximum and its index