当前位置:网站首页>Yolov6: un cadre de détection de cibles rapide et précis est Open Source
Yolov6: un cadre de détection de cibles rapide et précis est Open Source
2022-06-26 21:42:00 【Équipe technique meituan】
Les derniers jours,La Division de l'intelligence visuelle de la Mission a développé un cadre de détection d'objets dédié aux applications industrielles YOLOv6,Capacité de se concentrer à la fois sur la précision de détection et l'efficacité de raisonnement.Au cours de la recherche et du développement,La Division de l'intelligence visuelle a constamment exploré et optimisé,En même temps, tirer parti des progrès de pointe et des résultats de la recherche scientifique dans les milieux universitaires et industriels.Détecter l'ensemble de données faisant autorité sur la cible COCO Les résultats expérimentaux montrent que,YOLOv6 .Algorithmes qui surpassent d'autres quantités homogènes en termes de précision et de vitesse de détection,Prise en charge simultanée du déploiement de plusieurs plateformes différentes,Simplifier considérablement l'adaptation au déploiement des projets.Open Source hereby,J'espère pouvoir aider plus d'étudiants.
1. Généralités
YOLOv6 Il s'agit d'un cadre de détection d'objets développé par le Département d'intelligence visuelle de meituan,Dédié aux applications industrielles.Ce cadre se concentre à la fois sur la précision de détection et l'efficacité de raisonnement,Dans les modèles dimensionnels couramment utilisés dans l'industrie:YOLOv6-nano In COCO Jusqu'à 35.0% AP,In T4 La vitesse d'inférence supérieure peut atteindre 1242 FPS;YOLOv6-s In COCO Jusqu'à 43.1% AP,In T4 La vitesse d'inférence supérieure peut atteindre 520 FPS.En termes de déploiement,YOLOv6 Soutien GPU(TensorRT)、CPU(OPENVINO)、ARM(MNN、TNN、NCNN)Attendre le déploiement de différentes plateformes,Simplifier considérablement l'adaptation au déploiement des projets.
Pour l'instant,Le projet est ouvert àGithub,Porte de transfert:YOLOv6. Bienvenue dans le besoin. StarCollection,À tout moment.
Précision et vitesse beaucoup plus élevées YOLOv5 Et YOLOX Un nouveau cadre pour
Détection d'objets en tant que technologie de base dans le domaine de la vision par ordinateur , Largement utilisé dans l'industrie ,Parmi eux YOLO Algorithme de série en raison de sa meilleure performance globale , Devenir progressivement le cadre privilégié pour la plupart des applications industrielles .À ce jour, L'industrie a dérivé beaucoup de YOLO Cadre de détection,Dont: YOLOv5[1]、YOLOX[2] Et PP-YOLOE[3] Le plus représentatif,Mais en pratique, Nous avons constaté que les cadres ci - dessus ont encore beaucoup de place pour améliorer la vitesse et la précision .Sur cette base, Nous avons étudié et tiré des leçons des technologies de pointe de l'industrie , Un nouveau cadre de détection des cibles a été mis au point. ——YOLOv6. Ce cadre soutient la formation sur modèle 、 Exigences relatives à l'application industrielle de l'ensemble de la chaîne, y compris le raisonnement et le déploiement Multi - plateformes , Et dans la structure du réseau 、 Amélioration et optimisation de la stratégie de formation ,In COCO Sur l'ensemble de données,YOLOv6 Surpasse d'autres algorithmes d'homologie en précision et en vitesse , Les résultats pertinents sont présentés dans la figure ci - dessous. 1 Comme indiqué:

Fig.1-1 YOLOv6 Comparaison des performances de chaque modèle dimensionnel avec d'autres modèles

Fig. 1-1 La comparaison des performances des algorithmes de détection dans différents réseaux de taille est présentée. , Les points sur la courbe représentent l'algorithme de détection sous différents réseaux de taille (s/tiny/nano)Performance du modèle pour,Comme vous pouvez le voir sur l'image,YOLOv6 Surpasse les autres en précision et en vitesse YOLO Algorithme d'homologie de série .
Fig. 1-2 La comparaison des performances de chaque modèle de réseau de détection lorsque la résolution d'entrée change est présentée. , Les points de la courbe de gauche à droite indiquent que la résolution de l'image augmente successivement (384/448/512/576/640) Performance du modèle ,Comme vous pouvez le voir sur l'image,YOLOv6 À différentes résolutions , Maintenir un grand avantage de performance .
2. YOLOv6Introduction aux principales technologies
YOLOv6 Principalement dans Backbone、Neck、Head De nombreuses améliorations ont été apportées aux stratégies de formation, etc. :
Nous avons conçu de façon unifiée Backbone Et Neck : Inspiré par les idées de conception de réseaux neuronaux sensibles au matériel ,Basé sur RepVGG style[4] Une paramétrisation Reconfigurable a été conçue 、 Un réseau de base plus efficace EfficientRep Backbone Et Rep-PAN Neck.
La conception optimisée est plus simple et plus efficace Efficient Decoupled Head, Tout en maintenant la précision , Réduction supplémentaire des frais généraux de retard pour les têtes de découplage communes .
Sur la stratégie de formation ,Nous adoptonsAnchor-free Paradigme sans ancrage ,En même temps SimOTA[2] Stratégie d'attribution des étiquettes et SIoU[9] La perte de régression de la boîte limite améliore encore la précision de détection .
2.1 Hardware-friendly Conception du réseau de base
YOLOv5/YOLOX Utilisation Backbone Et Neck Tous basés sur CSPNet[5] Construction, La méthode Multi - branches et la structure résiduelle sont adoptées .Pour GPU Attendez le matériel. , Cette structure augmente le délai dans une certaine mesure , Réduit également l'utilisation de la bande passante de la mémoire .Ci - dessous 2 Dans le domaine de l'architecture informatique Roofline Model[8] Diagramme d'introduction , Affiche la relation entre la puissance de calcul et la largeur de bande de la mémoire dans le matériel .

Et donc,, Nos idées de conception de réseaux neuronaux basés sur la perception matérielle ,C'est exact. Backbone Et Neck Redessiné et optimisé . L'idée est basée sur les caractéristiques du matériel 、Cadre de raisonnement/ Caractéristiques du cadre de compilation , Principes de conception basés sur le matériel et une architecture conviviale pour la compilation , Lors de la construction du réseau , Compte tenu de la puissance de calcul du matériel 、Largeur de bande de la mémoire、 Compiler les propriétés d'optimisation 、 Capacité de représentation du réseau, etc. , Et obtenir une structure de réseau rapide et bonne . Deux éléments d'essai redessinés ci - dessus ,On est là. YOLOv6 Appelé respectivement EfficientRep Backbone Et Rep-PAN Neck, Son principal point de contribution est :
Introduit RepVGG[4] style Structure.
Redessiné sur la base de la perception matérielle Backbone Et Neck.
RepVGG[4] Style Une structure est une topologie Multi - branches qui est formée , Et peut être fusionné en un seul 3x3 Une structure paramétrique Reconfigurable de convolution ( Le processus de fusion est illustré comme suit: 3 Comme indiqué). Par fusion 3x3 Structure Convolutive, Peut utiliser efficacement la puissance de calcul du matériel intensif en calcul (Par exemple, GPU), Disponible en même temps GPU/CPU Très optimisé sur NVIDIA cuDNN Et Intel MKL Aide à la compilation des cadres .
Les expériences montrent que,Par la stratégie ci - dessus,YOLOv6 Réduction des retards matériels , Et améliore considérablement la précision de l'algorithme , Rendre le réseau de détection plus rapide et plus fort .Par nano Exemple de modèle dimensionnel ,Comparer YOLOv5-nano Structure du réseau adoptée , Cette méthode augmente la vitesse 21%, Amélioration simultanée de la précision 3.6% AP.

EfficientRep Backbone:In Backbone Conception, Sur la base de ce qui précède Rep L'opérateur a conçu un Backbone.Par rapport à YOLOv5 Adoption CSP-Backbone,Le Backbone Capacité d'utiliser efficacement le matériel (Par exemple: GPU) En même temps que le calcul de la force , Il possède également une forte capacité de caractérisation .
Ci - dessous 4 Pour EfficientRep Backbone Dessin détaillé de la structure de conception ,On va Backbone Moyenne stride=2 Ordinaire Conv La couche a été remplacée par stride=2 De RepConvCouche.En même temps,De l'original CSP-Block Sont redessinés pour RepBlock,Parmi eux RepBlock Le premier RepConv Je ferai channel Transformation et alignement des dimensions .En plus, Et nous allons aussi SPPF Conçu pour être plus efficace SimSPPF.

Rep-PAN:In Neck Conception, Pour le rendre plus efficace dans le raisonnement matériel , Pour un meilleur équilibre entre précision et vitesse , Nous concevons des idées basées sur des réseaux neuronaux sensibles au matériel ,Pour YOLOv6 Une architecture de réseau de fusion de fonctionnalités plus efficace a été conçue .
Rep-PAN Basé sur PAN[6] Mode topologique ,Avec RepBlock Remplacé YOLOv5 Utilisé dans CSP-Block, Dans l'ensemble Neck L'opérateur dans a été ajusté , L'objectif est d'obtenir un raisonnement efficace sur le matériel , Maintenir une meilleure capacité de fusion des caractéristiques à plusieurs échelles (Rep-PAN Le schéma de structure est le suivant: 5 Comme indiqué).

2.2 Plus simple et plus efficace Decoupled Head
In YOLOv6 Moyenne, Nous utilisons des têtes de couplage de compréhension (Decoupled Head)Structure, Et la conception simplifiée .Original YOLOv5 L'en - tête de détection est réalisé par fusion et partage des branches de classification et de régression ,Et YOLOX L'en - tête de détection est de découpler les branches de classification et de régression , Deux nouveaux 3x3 Couche de convolution, Bien que la précision de détection ait été améliorée , Mais dans une certaine mesure, le retard du réseau est augmenté .
Donc,, Nous avons simplifié la conception de la tête de découplage , L'équilibre entre la capacité de représentation de l'opérateur de corrélation et les frais généraux de calcul sur le matériel est également pris en considération. ,Adoption Hybrid Channels La stratégie redessine une structure de tête découplée plus efficace , Réduction des délais tout en maintenant la précision , Atténuation dans la tête de couplage 3x3 Frais généraux de retard supplémentaires dus à la convolution .En nano Expérience d'ablation sur modèle dimensionnel , Comparaison de la structure de la tête de découplage avec le même nombre de canaux ,Amélioration de la précision 0.2% AP En même temps,Augmentation de la vitesse6.8%.

2.3 Stratégies d'entraînement plus efficaces
Afin d'améliorer encore la précision des essais , Nous avons tiré parti des progrès de la recherche sur d'autres cadres d'essai dans le milieu universitaire et l'industrie. :Anchor-free Paradigme sans ancrage 、SimOTA Stratégie d'attribution des étiquettes et SIoU La boîte limite retourne à la perte.
Anchor-free Paradigme sans ancrage
YOLOv6 Plus concis Anchor-free Méthodes de détection.Parce que Anchor-based Le détecteur doit effectuer une analyse de regroupement avant la formation pour déterminer la meilleure Anchor Ensemble, Cela augmente la complexité du détecteur ;En même temps, Dans certaines applications Edge end , Pour manipuler un grand nombre de résultats d'essai entre le matériel , Il y a aussi des retards supplémentaires .Et Anchor-free Le paradigme sans ancrage a une forte capacité de généralisation , La logique de décodage est plus simple , Largement utilisé ces dernières années .Oui. Anchor-free Recherche expérimentale ,Nous avons découvert,Par rapport àAnchor-based Délai supplémentaire dû à la complexité du détecteur ,Anchor-free Le détecteur a 51%Promotion de.
SimOTA Politique d'attribution des étiquettes
Pour obtenir plus d'échantillons positifs de haute qualité ,YOLOv6 Introduit SimOTA [4] L'algorithme répartit dynamiquement les échantillons positifs , Amélioration de la précision de détection .YOLOv5 La politique d'attribution des étiquettes pour Shape Ça correspond, Et augmenter le nombre d'échantillons positifs grâce à une stratégie d'appariement entre les grilles , Ainsi, le réseau converge rapidement , Mais c'est une méthode d'allocation statique , Ne s'adapte pas au processus de formation en ligne .
Ces dernières années, De nombreuses méthodes basées sur l'attribution dynamique des étiquettes sont également apparues , Cette méthode répartit les échantillons positifs en fonction de la sortie du réseau pendant la formation. , Cela permet de produire plus d'échantillons positifs de haute qualité , Et ensuite promouvoir l'optimisation positive du réseau .Par exemple,OTA[7] En modélisant l'appariement des échantillons comme un problème de transmission optimal , Obtenir la meilleure stratégie d'appariement des échantillons sous l'information globale pour améliorer la précision ,Mais... OTA En raison de l'utilisation deSinkhorn-Knopp L'algorithme augmente le temps d'entraînement ,Et SimOTA[4]Utilisation de l'algorithme Top-K Stratégie approximative pour obtenir la meilleure correspondance des échantillons , L'entraînement s'est considérablement accéléré .Donc... YOLOv6 AdoptéSimOTA Politique d'allocation dynamique , Et combiné avec le paradigme sans ancrage ,In nano Amélioration de la précision moyenne de détection sur le modèle dimensionnel 1.3% AP.
SIoU La boîte limite retourne à la perte
Pour améliorer encore la précision de la régression ,YOLOv6 Adopté SIoU[9] La boîte limite régresse la fonction de perte pour surveiller l'apprentissage du réseau . La formation des réseaux de détection d'objets nécessite généralement au moins deux fonctions de perte définies :Classification des pertes et régression des limites, La définition de la fonction de perte a souvent une grande influence sur la précision de détection et la vitesse d'entraînement. .
Ces dernières années, Les pertes courantes de régression de la boîte de délimitation comprennent: IoU、GIoU、CIoU、DIoU lossAttendez un peu!, Ces fonctions de perte tiennent compte du degré de chevauchement entre la zone de prévision et la zone cible. 、Distance du point central、 Des facteurs comme le rapport d'aspect mesurent l'écart entre les deux , Pour guider le réseau à minimiser les pertes afin d'améliorer la précision de la régression , Mais aucune de ces méthodes ne tient compte de la correspondance directionnelle entre le cadre de prévision et le cadre cible. .SIoU La fonction de perte introduit l'angle vectoriel entre les régressions souhaitées , Perte de distance redéfinie , Réduit efficacement le degré de liberté de régression ,Accélérer la convergence du réseau, Amélioration de la précision de la régression .En YOLOv6s Appliquer sur SIoU loss Effectuer des expériences,Comparer CIoU loss, Amélioration de la précision moyenne de détection 0.3% AP.
3. Résultats expérimentaux
Grâce à la stratégie d'optimisation et à l'amélioration ci - dessus ,YOLOv6 Les modèles ont obtenu des performances exceptionnelles dans plusieurs tailles différentes .Tableau ci - dessous 1 A montré YOLOv6-nano Résultats des expériences d'ablation,Les résultats expérimentaux montrent que, Notre réseau de détection auto - conçu a apporté un grand gain de précision et de vitesse .

Tableau ci - dessous 2 A montré YOLOv6 Avec les autres courants actuels YOLO Résultats expérimentaux de la comparaison des algorithmes en série .Comme le montre le tableau:

YOLOv6-nano In COCO val Allez. Oui. 35.0% AP Précision,En même temps T4 Utilisation sur TRT FP16 batchsize=32 Pour raisonner,Accessible 1242FPS Performance,Par rapport à YOLOv5-nano Amélioration de la précision 7% AP,Augmentation de la vitesse 85%.
YOLOv6-tiny In COCO val Allez. Oui. 41.3% AP Précision, En même temps T4 Utilisation sur TRT FP16 batchsize=32 Pour raisonner,Accessible 602FPS Performance,Par rapport à YOLOv5-s Amélioration de la précision 3.9% AP,Augmentation de la vitesse 29.4%.
YOLOv6-s In COCO val Allez. Oui. 43.1% AP Précision, En même temps T4 Utilisation sur TRT FP16 batchsize=32 Pour raisonner,Accessible 520FPS Performance,Par rapport à YOLOX-s Amélioration de la précision 2.6% AP,Augmentation de la vitesse 38.6%;Par rapport à PP-YOLOE-s Amélioration de la précision 0.4% APDans les conditions de,InT4Utilisation sur TRT FP16 Feuille de route batch Raisonnement,Augmentation de la vitesse 71.3%.
4. Résumé et perspectives
Cet article présente l'optimisation du cadre de détection des cibles et l'expérience pratique du Département d'intelligence visuelle de meituan. ,Nous ciblons YOLO Cadre de la série, Stratégie d'entraînement 、Réseau de base、Fusion de caractéristiques à plusieurs échelles、 La tête de détection a été repensée et optimisée , Un nouveau cadre de détection a été conçu -YOLOv6, L'intention initiale est de résoudre les problèmes pratiques rencontrés lors de l'atterrissage des applications industrielles. .
En train de construire YOLOv6 En même temps que le cadre, Nous avons exploré et optimisé de nouvelles approches , Par exemple, l'idée de conception de réseaux neuronaux basés sur la perception matérielle a été auto - étudiée. EfficientRep Backbone、Rep-Neck Et Efficient Decoupled Head, Il s'appuie également sur les progrès et les réalisations des universités et de l'industrie. ,Par exemple Anchor-free、SimOTA Et SIoU Retour à la perte.In COCO Les résultats expérimentaux sur l'ensemble de données montrent,YOLOv6 Être le meilleur en termes de précision et de vitesse de détection .
À l'avenir, nous continuerons à construire et à améliorer YOLOv6 Écologie, Les principaux travaux sont les suivants: :
Parfait. YOLOv6 Série complète de modèles , Amélioration continue des performances de détection .
Sur plusieurs plateformes matérielles , Concevoir des modèles conviviaux pour le matériel .
Soutien ARM Déploiement de la plate - forme et adaptation complète de la chaîne comme la distillation quantitative .
Extension horizontale et introduction de technologies connexes , Comme la semi - supervision 、 Auto - supervision de l'apprentissage, etc. .
Explorer YOLOv6 Performance de généralisation sur des scénarios d'affaires plus inconnus .
Et bienvenue dans notre communauté. , Construire ensemble un cadre de détection des cibles plus rapide et plus précis pour les applications industrielles .( Ajout à la fin du document YOLOv6 La façon dont les groupes de communication technique )
5. Références
[1] YOLOv5, https://github.com/ultralytics/yolov5
[2] YOLOX: Exceeding YOLO Series in 2021, https://arxiv.org/abs/2107.08430
[3] PP-YOLOE: An evolved version of YOLO, https://arxiv.org/abs/2203.16250
[4] RepVGG: Making VGG-style ConvNets Great Again, https://arxiv.org/pdf/2101.03697
[5] CSPNet: A New Backbone that can Enhance Learning Capability of CNN, https://arxiv.org/abs/1911.11929
[6] Path aggregation network for instance segmentation, https://arxiv.org/abs/1803.01534
[7] OTA: Optimal Transport Assignment for Object Detection, https://arxiv.org/abs/2103.14259
[8] Computer Architecture: A Quantitative Approach
[9] SIoU Loss: More Powerful Learning for Bounding Box Regression, https://arxiv.org/abs/2205.12740
6. Profil de l'auteur
Chu Yi 、 Kai - Heng. 、Non.、 Cheng Meng 、 Qin Hao 、Un bruit、Rouge brillant、 Forest Garden, etc. ,Tous proviennent de la plateforme de recherche fondamentale de meituan/ Département de l'intelligence visuelle .
--- Bienvenue àYOLOv6Open Source Technology AC Group ---

Après avoir rejoint le Groupe, Vous pouvez communiquer directement avec les auteurs du projet Open Source , Nous espérons également que ce projet Open Source aidera plus d'étudiants .
---------- END ----------
Coopération scientifique entre les États - Unis et la Chine
La coopération scientifique de la Ligue des États - Unis se consacre à la construction de départements et d'universités de la Ligue des États - Unis、Instituts de recherche scientifique、Ponts et plates - formes de coopération pour les groupes de réflexion,S'appuyant sur le riche scénario d'affaires de meituan、Ressources de données et problèmes industriels réels,Ouvrir l'innovation,Rassembler les forces vers le haut,Autour de l'intelligence artificielle、Big Data、Internet des objets、Sans conducteur、Optimisation de la recherche opérationnelle、Économie numérique、Dans des domaines tels que les affaires publiques,Explorer ensemble les questions macroscopiques de pointe dans les domaines de la technologie et de l'industrie,Promouvoir la coopération et l'échange entre l'industrie, l'Université et la recherche et la transformation des résultats,Promouvoir la formation d'excellents talents.Vers l'avenir,Nous sommes impatients de travailler avec d'autres professeurs et étudiants d'universités et d'instituts de recherche.Les enseignants et les élèves sont invités à envoyer un courriel à:[email protected] .
Peut - être que tu veux le voir.
| Pratique de la technologie de détection des visages dans les scènes naturelles
| NeurIPS 2021 | Twins: Repenser la conception efficace du modèle d'attention visuelle
Lire la suite
---
边栏推荐
- 【连载】说透运维监控系统01-监控系统概述
- leetcode刷题:字符串03(剑指 Offer 05. 替换空格)
- 剑指 Offer II 098. 路径的数目 / 剑指 Offer II 099. 最小路径之和
- Is there any risk in opening a securities registration account? Is it safe?
- Application and Optimization Practice of 100 million level monthly live national karaoke feed service in Tencent cloud mongodb
- 网络爬虫2:抓取网易云音乐评论用户ID及主页地址
- [LeetCode]-链表-2
- 基于QT实现简单的连连看小游戏
- 基于Qt实现的“合成大西瓜”小游戏
- 中金证券经理给的开户二维码办理股票开户安全吗?我想开个户
猜你喜欢

Leetcode: String 04 (reverse the words in the string)

About appium trample pit: encountered internal error running command: error: cannot verify the signature of (solved)

Leetcode(763)——划分字母区间

CVPR 2022 | 美团技术团队精选论文解读

Leetcode question brushing: String 02 (reverse string II)

线性模型LN、单神经网络SNN、深度神经网络DNN与CNN测试对比

基于SSH框架的学生信息管理系统

Configure redis master-slave and sentinel sentinel in the centos7 environment (solve the problem that the sentinel does not switch when the master hangs up in the ECS)

【 protobuf 】 quelques puits causés par la mise à niveau de protobuf

leetcode刷题:字符串03(剑指 Offer 05. 替换空格)
随机推荐
Is there any risk in opening a securities registration account? Is it safe?
如何在 SAP BTP 平台上启用 HANA Cloud 服务
Installation avec homebrew dans un environnement Mac OS [email protected]
Web crawler 2: crawl the user ID and home page address of Netease cloud music reviews
【protobuf 】protobuf 升级后带来的一些坑
Twenty five of offer - all paths with a certain value in the binary tree
经典Wide & Deep模型介绍及tensorflow 2代码实现
QT based "synthetic watermelon" game
Treasure and niche cover PBR multi-channel mapping material website sharing
Application and Optimization Practice of 100 million level monthly live national karaoke feed service in Tencent cloud mongodb
Two methods of QT to realize timer
指南针能开户炒股吗?安全吗?
Implementation of collaborative filtering evolution version neuralcf and tensorflow2
不要做巨婴了
leetcode刷题:字符串05(剑指 Offer 58 - II. 左旋转字符串)
C: Reverse linked list
leetcode刷题:字符串03(剑指 Offer 05. 替换空格)
聊聊我的远程工作体验 | 社区征文
众多碎石3d材质贴图素材一键即可获取
curl: (35) LibreSSL SSL_ connect: SSL_ ERROR_ SYSCALL in connection