当前位置:网站首页>[阅读笔记] For:Object Detection with Deep Learning: The Definitive Guide
[阅读笔记] For:Object Detection with Deep Learning: The Definitive Guide
2022-07-28 16:33:00 【jsBeSelf】
文章指路:Object Detection with Deep Learning: The Definitive Guide
1 对比其他计算机视觉问题
1.1 图像分类
算是计算机视觉里比较著名的问题了,即一张图对应于多个类别概率,并取最高者为该图的标签。学术界内最为著名的一个数据集为 ImageNet 以及 它的竞赛 ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 。机遇与挑战并存。
1.2 目标定位
在解决生活中某些问题时比较实用,比如智能裁剪,裁剪出我们感兴趣的区域。
1.3 目标检测
将分类(对物体的分类)与定位结合起来,其实就是目标检测的任务。
1.4 实例分割
比目标检测更进一步,想要实现像素到像素的分类。
2 目标检测的一些应用场景
2.1 人脸检测
已经可以很方便地应用在摄像头上,检测人脸可以方便拍照时自动对焦,进一步可以实现人脸识别。
2.2 计数
比如人群计数,车流计数,农作物计数等等,可以将计算机视觉所见的原始数据转化为结构化数据。与无人机/卫星结合,可以看到更广更远,实现更丰富的计数应用。
2.3 搜索引擎
当你浏览某类商品时,它能自动化推荐出其他同类的商品,那么自然就是通过在各个地方检测出同类商品,并收集过来显示在页面上。
3 要实现目标检测所要面临的问题
1)多目标:不同于图像分类,目标检测面临的可能是大量的待检测的物体
2)多尺度:这些物体可能占据整张图片,也可能小到十几像素
3)多任务:一个模型要同时实现分类+定位的任务
4)数据集:数据集的好坏也决定了模型的好坏,但是构建数据集的成本较大
4 基于深度学习的目标检测
4.1 传统机器学习方法
1)定位:滑动窗口
2)提取特征:HOG,SIFT
3)分类:SVM
这里不进一步展开
4.2 深度学习模型
百家争鸣
1)OverFeat:提出了一种使用卷积神经网络 (CNN) 的多尺度滑动窗口算法。
2)R-CNN:将CNN应用到目标检测上的开山之作,主要方法为:
- 使用SS算法生成推荐区域
- 使用CNN提取特征
- 使用SVM作分类
问题:训练复杂;没有较好的分类方法;内部模型分离。
3)Fast R-CNN:R-CNN系列第二作,将分类与回归和特征提取网络耦合,接近于端到端(end-to-end)。
问题:区域框的生成算法是瓶颈。
4)Faster R-CNN:R-CNN系列第三作,其实就是RPN(Region Proposal Network)+Fast R-CNN。
5)YOLO系列:兼顾实时性和准确率的模型,是one-stage类型算法。
6)此外还有SSD,R-FCN等模型。
5 总结
总之,有问题存在,就意味着目标检测领域还有很大的上升空间,机遇与挑战并存,了解完前人的智慧后,站在巨人的肩膀上,将会有更多新方法诞生。
边栏推荐
- hgu95av2.在线安装失败
- ng-repeat在迭代最后一个元素时执行一个方法
- 新人如何入门学习软件测试
- 都说软件测试是IT行业最差的,是这样的吗?
- R语言画图/绘图/作图2
- Visual object class introduces Pascal VOC dataset
- Redis source code analysis, hold it hard, and code it quickly
- Esp-mqtt-at instruction connects Alibaba cloud Internet of things platform
- Database performance analysis and optimization (internal training materials of Aite future team)
- 将input type='file' 类型的图片文件转成base64
猜你喜欢

Please make sure you have the correct access rights and the repository exists.

The browser has no Internet, and wechat can connect to the Internet (solution)

Management of third-party technical services in product development

clang format

easyui tree

Sql Server STUFF与FOR XML PATH

PCA reports error in eigen (crossprod (t (x), t (x)), symmetric = true): 'x' has infinite value or missing value

In depth sharing of Ali (ant financial) technical interview process, with preliminary preparation and learning direction

No interactive operation of shell script

MySQL triggers
随机推荐
漫谈测试平台—平台建设思路(上)
Hgu95av2. Online installation failed
ggplot2地图
Ggplot2 map
Arya-专业web自动化测试平台
医学公共数据库
Vscode plug-in automatically adds comments
软件测试培训机构可靠吗?
Talking about test platform -- Discussion on construction mode
R中因子(factor)
No interactive operation of shell script
数据库性能分析与优化(爱测未来团队内训材料)
Kali installation configuration of penetration test killer
软件测试零基础小白学习需要掌握哪些技能?
Distinguish between the export of ES6 and the module.exports of nodejs
简单易用的APP专项测试工具iTest4.7.0发布啦
Deploy lamp platform -- compilation and installation of Linux, Apache, MySQL and PHP
新手通过自学转行软件测试难度大吗?
软件测试的培训机构靠谱吗
软件测试到底有没有前景和出路?