当前位置:网站首页>15+城市道路要素分割应用,用这一个分割模型就够了!
15+城市道路要素分割应用,用这一个分割模型就够了!
2022-06-21 10:44:00 【飞桨PaddlePaddle】

图像语义分割在计算机视觉中是一个经典且具有挑战性的任务。它旨在提供详细的像素级图像分类,相当于为每个像素分配语义标签。该技术目前被广泛应用于城市安防、路况判断等系统领域,比如地图导航的应用是通过分割识别建筑物、墙体、路面状况等道路要素,从而更准确地捕捉路面关键信息。
为了让大家能够更快速地上手技术,百度视觉技术部基于飞桨图像分割开发套件PaddleSeg提供了一套完整的城市街景道路要素分割产业实践范例,提供了从数据准备、模型训练及优化的全流程方案,降低产业落地门槛。这个项目中我们需要把19项关键目标分割出来,那么我们具体的方案思路是什么呢?

图1 分割示例
点击阅读原文GET项目链接
https://aistudio.baidu.com/aistudio/projectdetail/4038141?contributionType=1
所有源码及教程均已开源,欢迎大家使用。
项目难点
目标复杂
道路复杂:包含直行,转弯,红绿灯路口等;
环境复杂:要适应白天、黑夜、雾天和雨天等;
场景复杂:城市道路、乡村、高速公路等场景差异性较大。
样本不均衡
类别多:包含路面、人行道、建筑物、墙、栅栏、杆子、交通灯、交通标志、植被、地面、天空、人、骑车的人、车、卡车、巴士、火车、摩托车、自行车;
不均衡:每张图像中最多会出现15辆车和30个行人,少时会出现2辆车且无行人,以及各种程度的遮挡与截断。
模型选择
主流的语义分割方案包括如下几个系列:
FCN(Fully Convolution Network):即全卷积网络,作为使用深度学习做图像分割的先例,其象征意义更大于实际意义。
U-Net系列:在UNet之前,主要的分割网络都是直筒式的,只使用顶层或后几层信息来上采样重建。而UNet是直接连接到输入端的卷积层。
DeepLab系列:DeepLab在图像分割领域中是另一个系列,目前已经有多个版本,和之前的UNet系列比起来,主要差别是在对输入图像的处理和网络的结构上。DeepLab主要使用了图像金字塔、空洞卷积、SPP空间金字塔池化、可分离卷积等方法来提高分割的效果。
HRNet系列:HRNet是2019年由微软亚洲研究院提出的一种全新的神经网络,不同于以往的卷积神经网络,该网络在网络深层仍然可以保持高分辨率,因此预测的语义信息更准确,在空间上也更精确。
Transformer系列:自从Transformer被引入计算机视觉以来,催生了大量相关研究与应用。在图像分割方向,涌现了像SETR、TransUNet、SegFormer、MaskFormer等基于Transformer的语义分割网络模型。打破了卷积结构在图像全局信息访问限制的问题。
由于分割目标较复杂,我们选取了精度表现较好的HRNet系列中MscaleOCRNet 模型进行后续实验,它SOTA的mIoU达到了87%。相比于HRNet网络结构,它是在分割后的结果上计算每个像素与图像其他像素的一个关系权重,与原特征进行一个叠加构成OCRNet网络,再基于OCRNet进行分层多尺度训练形成最终的 MscaleOCRNet,多尺度训练与推理方式如下图所示。

图2 MscaleOCRNet 方案
算法优化
为了进一步提升精度,解决样本不均衡的问题,我们提供了以下优化思路:
修改预训练模型:将mapillary预训练改为Cityscapes预训练模型,迁移至KITTI-STEP数据集训练可以有效提升分割效果;
增加多尺度训练:由 [0.5,1.0] 两个尺度增加至 [0.5,1.0,2.0] 三个尺度;
修改输入尺寸:修改输入尺寸由1024x512变为原图尺寸1248x384。

使用工具
本项目使用PaddleSeg开发完成。PaddleSeg是基于飞桨PaddlePaddle开发的端到端图像分割开发套件,涵盖了高精度和轻量级等不同方向的大量高质量分割模型。通过模块化的设计,提供了配置化驱动和API调用两种应用方式,帮助开发者更便捷地完成从训练到部署的全流程图像分割应用。提供语义分割、交互式分割、全景分割、Matting四大图像分割能力。
模型部署
使用飞桨原生推理库Paddle Inference,用于服务端模型部署,总体上分为三步:
1. 创建PaddlePredictor,设置所导出的模型路径;
2. 创建输入用的PaddleTensor,传入到PaddlePredictor中;
3. 获取输出的PaddleTensor,将结果取出。

如果想了解更详细方案细节,欢迎关注我们的直播课程,手把手全流程教学等着你哦。
精彩课程预告
为了让小伙伴们更便捷地应用范例教程,百度高级研发工程师将于6月23日(周四)20:00点为大家深度解析从数据准备、方案设计到模型优化部署的开发全流程,手把手教大家进行代码实践。
扫码报名直播课
加入技术交流群

引用说明:图2引用自“Hierarchical Multi-Scale Attention for Semantic Segmentation”

关注【飞桨PaddlePaddle】公众号
获取更多技术内容~
边栏推荐
- Quickly analyze oom using mat tools
- On the corners of const
- DSP gossip: how to save the compiled variables on the chip when the variables are defined in the code
- 05. Redis core chapter: the secret that can only be broken quickly
- The bilingual live broadcast of Oriental selection is popular, and the transformation of New Oriental is beginning to take shape
- Original code, inverse code, complement calculation function applet; C code implementation;
- 芯片供给过剩迹象明显,ASML不再是香饽饽,投资机构大举做空
- Summary of embedded development -- General Catalog
- Use the spatial complexity of O (1) to flip the linked list
- leetcode:715. Range 模块【无脑segmentTree】
猜你喜欢

CAS central certification service

Will the thunderstorm of Celsius be the "Lehman moment" in the field of encryption?

Matplotlib two methods of drawing torus!

MySQL - library operation

MySQL - Database Foundation

MySQL 5.7 is about to be stopped and only maintained. It's time to learn a wave of MySQL 8

DSP gossip: how to save the compiled variables on the chip when the variables are defined in the code

2. MySQL index creation method and its optimization

TensorFlow,危!抛弃者正是谷歌自己

JS regular - comb
随机推荐
Research and implementation of embedded software framework based on multi process architecture
JS regular - comb
送分题,ArrayList 的扩容机制了解吗?
Is it safe for Guojin securities to open an account?
一行代码加速 sklearn 运算上千倍
The memory allocation of the program, the storage of local const and global const in the system memory, and the perception of pointers~
我国服装纺织制造业面临着异常严峻的挑战
04. New features of redis: Interpretation of multithreading model
ThreadLocal
中部“第一城”,网安长沙以何安网?
《Feature-metric Loss for Self-supervised Learning of Depth and Egomotion》论文笔记
support vector machine
程序员新人周一优化一行代码,周三被劝退?
Celsius 的暴雷,会是加密领域的“雷曼时刻”吗?
leetcode-94-二叉树的中序遍历
K-means introduction
CAS central certification service
The bilingual live broadcast of Oriental selection is popular, and the transformation of New Oriental is beginning to take shape
WCF RestFul+JWT身份验证
触摸按键控制器TTP229-BSF使用心得[原创cnblogs.com/helesheng]