当前位置：网站首页>Augfpn: amélioration de l'apprentissage des caractéristiques à plusieurs échelles pour la détection des cibles

Augfpn: amélioration de l'apprentissage des caractéristiques à plusieurs échelles pour la détection des cibles

2022-06-29 09:10:00 【Tjmtaotao】

Chaoxu Guo1, Bin Fan1, Qian Zhang2, Shiming Xiang1, and Chunhong Pan1
1NLPR,CASIA
2Horizon Robotics
1{chaoxu.guo, bfan, smxiang, chpan}@nlpr.ia.ac.cn
[email protected]

Cet article est basé surFaster R-CNN Amélioration,La principale contribution est l'améliorationFPN,J'ai proposéAugFPNModule d'apprentissage des caractéristiques à plusieurs échelles

Abstract

Les détecteurs les plus avancés utilisent généralement Pyramide des caractéristiques Pour détecter des cibles à différentes échelles .Parmi eux,FPNEst l'une des œuvres représentatives de la construction de la pyramide des caractéristiques par la somme des caractéristiques à plusieurs échelles.Et pourtant,Les défauts de conception qui les sous - tendent empêchent la pleine utilisation des caractéristiques à plusieurs échelles.Cet article commence par une analyse deFPNDéfauts de conception de la pyramide des caractéristiques moyennes,Puis une nouvelle structure pyramidale caractéristique est proposéeAugFPN（AugFPN）.Plus précisément,,AugFPNIl se compose de trois parties：Surveillance de la conformité、 Amélioration des caractéristiques restantes EtDoux.RoISélectionner.AugFPNAdoption Surveillance de la conformité ,Réduire l'écart sémantique entre les caractéristiques à différentes échelles avant la fusion des caractéristiques.Dans la fusion des caractéristiques,Extraire l'information contextuelle avec un rapport constant par l'amélioration des caractéristiques résiduelles,Pour réduire la perte d'information sur la cartographie des caractéristiques au niveau pyramidal le plus élevé.Enfin,Utilisation de softRoISélectionner, Apprendre mieux de façon adaptative après la fusion des caractéristiques RoICaractéristiques.InFaster R-CNNMoyenne,AvecAugFPNRemplacerFPN,Chacun avecResNet50EtMobileNet-v2 En tant qu'épine dorsale , La précision moyenne des modèles a été augmentée respectivement 2.3Et1.6Un point.En outre,Lorsqu'il est utiliséResNet50En tant que tronc,AugFPNOui.RetinaNetAmélioration1.6- Oui.AP,FCOSAmélioration0.9- Oui.AP. Le Code sera fourni .

Fig.1. Trois défauts de conception du réseau pyramidal caractéristique ：1） Différences sémantiques entre les caractéristiques des différents niveaux avant la sommation des caractéristiques ;2） Perte d'information sur les caractéristiques du plus haut niveau pyramidal ;3）HeuristiqueRoIRépartition.

1. Introduction

Avec le réseau de convolution profonde （ConvNets）Développement, Des progrès remarquables ont été réalisés dans la détection des cibles d'images . Des détecteurs ont été proposés [10、33、9、25、30、12、21、22], Avec une progression constante des technologies de pointe . Dans ces détecteurs, ,FPN[21] Est un cadre simple et efficace de détection d'objets à deux niveaux .Plus précisément,,FPNOui.ConvNet Au niveau des caractéristiques intrinsèques , En propageant des caractéristiques sémantiques fortes de haut en bas , Construire une pyramide des caractéristiques .

En améliorant les caractéristiques à plusieurs échelles avec une forte sémantique , Amélioration significative des performances de détection des cibles .Et pourtant,FPN Quelques défauts de conception dans la pyramide des caractéristiques ,Comme le montre la figure1Comme indiqué.En gros,,FPN La pyramide des caractéristiques peut être divisée en trois étapes ：（1） Avant la fusion des caractéristiques ,（2） Fusion descendante des caractéristiques ,Et（3） Après la fusion des caractéristiques . Nous avons constaté qu'il y avait un défaut inhérent à chaque étape ,Comme indiqué ci - dessous：

Différences sémantiques entre les caractéristiques des différents niveaux . Avant la fusion des caractéristiques , Les caractéristiques des différents niveaux passent indépendamment 1×1 Couche de convolution pour réduire les canaux caractéristiques , Cela ne tient pas compte de l'énorme écart sémantique entre ces caractéristiques . En raison d'informations sémantiques incohérentes , La fusion directe de ces caractéristiques réduit la capacité de représentation des caractéristiques à plusieurs échelles .

Perte d'information sur la carte des caractéristiques de haut niveau .Dans la fusion des caractéristiques, Les caractéristiques se propagent de haut en bas , Les caractéristiques de bas niveau peuvent être améliorées en utilisant des informations sémantiques plus fortes des caractéristiques de haut niveau .Et pourtant, Les caractéristiques pyramidales les plus élevées perdent de l'information en raison de la réduction des canaux . Caractéristiques contextuelles globales extraites en combinaison avec le pool global [29], Réduit la perte d'information .Mais, Comme plusieurs cibles peuvent apparaître dans une image , Cette stratégie de fusion de la cartographie des caractéristiques en un seul vecteur peut perdre des relations spatiales et des détails .

RoIs La stratégie heuristique d'allocation de . Après fusion des caractéristiques , Affiner chaque schéma cible sur la base d'une grille de caractéristiques au niveau des caractéristiques , Et une sélection heuristique basée sur l'échelle du programme .Et pourtant, Les caractéristiques d'autres niveaux qui sont négligées peuvent faciliter la classification ou la régression des objets .Compte tenu de ce problème,PANet[24] Rassemble tous les niveaux pyramidaux roiCaractéristiques, Et après l'avoir adapté à une couche entièrement connectée indépendante ,Et l'aligner surmax Fusion des opérations .Malgré tout,max-fusion Les propriétés qui répondent moins sont ignorées , Ces caractéristiques peuvent également aider , Mais les autres niveaux de fonctionnalité ne sont toujours pas pleinement exploités .En même temps, L'ajout d'une couche de connectivité complète augmente considérablement les paramètres du modèle .

Cet article propose une pyramide des caractéristiques simple et efficace AugFPN, Il intègre trois composantes distinctes pour traiter chacune des questions ci - dessus .Tout d'abord,, Proposer un mécanisme de contrôle de la cohérence , En appliquant le même signal de surveillance sur ces cartes de caractéristiques , Faire en sorte que la cartographie des caractéristiques après une connexion horizontale contienne des informations sémantiques similaires .Deuxièmement,, Extraire différentes informations contextuelles à l'aide d'un pool adaptatif proportionnel invariant , Réduire la perte d'information sur les caractéristiques de haut niveau de la pyramide des caractéristiques par des résidus . Nous avons nommé ce processus amélioration des caractéristiques restantes .Troisièmement, Introduction de logiciels RoISélectionner, Mieux utiliser les différents niveaux pyramidaux RoICaractéristiques, Fournir de meilleurs résultats pour le raffinement et la classification subséquents des emplacements RoICaractéristiques.

Sans les cloches et les sifflets ,Lorsqu'il est utiliséResNet50EtResNet101En tant que tronc,Basé surAugFPNDeFaster R-CNNPrécision moyenne（AP） Respectivement plus que FPNVite!2.3Et1.7.En outre, Quand l'épine dorsale a été changée en MobileNet-V2Heure,AugFPN Amélioration globale des performances 1.6ap,MobileNet-V2 Est un réseau léger et efficace .Augfpn Il peut également être étendu au détecteur primaire , Avec quelques modifications .AvecAugFPNRemplacerFPN,Peut faireRetinaNetEtFCOS Augmentation prévue séparément 1.6Et0.9X, Pour vérifier AugFPNLa polyvalence de.

Notre contribution est résumée ci - dessous：

•Nous avons révéléFPN Questions en trois étapes , Ces problèmes empêchent la pleine utilisation des caractéristiques à plusieurs échelles .

• Un nouveau réseau pyramidal caractéristique est proposé AugFPN, Surveillance de la conformité séparément 、Amélioration et adoucissement des caractéristiques restantesRoI Choisir de résoudre ces problèmes .

•Nous avons évalué les résultats obtenus àMS COCO Il est équipé de différents détecteurs et troncs AugFPN,Et sur la baseFPN Comparé à , Il apporte toujours des améliorations significatives .

2. Related Work

Détecteur de cibles profondes . Les méthodes modernes de détection des cibles suivent presque deux modes , Deux étapes et une étape . Comme méthode de détection en deux étapes [10,9,33,4,21,1,35,19,20,28]Travaux novateurs,R-CNN[10] Utilisez d'abord la recherche sélective [37] Générer des recommandations régionales , Ces recommandations sont ensuite affinées par l'extraction des caractéristiques régionales à l'aide d'un réseau de convolution . Pour accélérer la formation et le raisonnement ,SPP[13]EtFast R-CNN[9] Extraire d'abord la cartographie des caractéristiques de l'image entière , Ensuite, nous utilisons la pyramide spatiale Pool et RoI Caractéristiques de la région génératrice de pools .Enfin, Compléter la proposition par un rituel régional .Faster R-CNN[33] Un réseau de conseils régionaux a été proposé , Et a développé un détecteur d'entraînement de bout en bout ,Amélioration significative des performances, Accélérer le raisonnement . Pour poursuivre l'Invariance de l'échelle de détection des cibles ,FPN[21] Sur la base de la hiérarchie des caractéristiques intrinsèques du réseau convolutif, une pyramide des caractéristiques du réseau est construite. , Et prévoir à différents niveaux pyramidaux selon l'échelle régionale recommandée .RoI Align[12]Par la résolutionRoI Problème de quantification du pool , De grandes améliorations ont été apportées à la détection des cibles et à la segmentation des instances . Réseau déformable [5,42] En modélisant la géométrie de la cible , Amélioration significative des performances de détection des cibles .Cascade R-CNN[1] Introduction de la raffinement Multi - niveaux à des R-CNNMoyenne, Pour obtenir une prévision plus précise de la position cible .

Contrairement au détecteur à deux étages , Détecteur primaire [25、30、6、31、22、17、23、32、39、41]Plus efficace, Mais avec moins de précision .SSD[25] Placer intensivement la boîte d'ancrage sur une caractéristique Multi - échelle , Et des prévisions basées sur ces ancres .RetinaNet[22]Tirer parti d'unFPN Pyramides caractéristiques comme épine dorsale , Et introduit un nouveau focal loss Pour résoudre le déséquilibre entre les exemples simples et difficiles .ExtremeNet〔41〕 Modéliser le problème de détection des cibles comme étant 4Points extrêmes. Ces travaux ont permis de réaliser des progrès significatifs sous différents angles. . Cet article étudie comment mieux exploiter les caractéristiques à plusieurs échelles .

Surveillance approfondie .Surveillance approfondie[15,18,40,7] Est une représentation caractéristique qui résout la disparition du gradient ou améliore la couche intermédiaire .HuangEt al..[15] Par la formation simultanée à différents niveaux , Intégration de plusieurs classificateurs ayant des besoins en ressources différents dans un seul réseau profond .PSPNet[40] Une perte supplémentaire au niveau des pixels est introduite dans la couche intermédiaire , Pour réduire la difficulté d'optimisation .RécemmentNas-FPN[7] Tous les réseaux pyramidaux intermédiaires sont suivis d'un classificateur et d'un en - tête de régression , L'objectif est de permettre la détection à tout moment . Contrairement à ces travaux , Nous appliquons des signaux de surveillance au niveau de l'Instance aux caractéristiques de tous les niveaux pyramidaux après une connexion latérale , Le but est de réduire l'écart sémantique entre eux , Rendre les caractéristiques plus appropriées pour la sommation ultérieure des caractéristiques .

Utilisation du contexte . Il existe plusieurs façons de démontrer que le contexte est détecté dans la cible [8,29,38]Et la Division[16,26,40]Importance.Deeplab-v2[3] Une méthode d'extraction de contexte à plusieurs échelles basée sur la convolution d'arthros est proposée. ,PSPNet[40] Utiliser le pool pyramidal pour obtenir un contexte global hiérarchique , Les deux méthodes améliorent considérablement la qualité de la segmentation sémantique .La différence est,Nous adoptons Pool adaptatif à taux constant Pour générer différentes informations contextuelles spatiales , Et les utiliser pour réduire la perte d'information des caractéristiques dans les canaux au niveau pyramidal le plus élevé .

Stratégie de répartition du rendement des investissements .FPN[21] Converger à partir d'un niveau pyramidal spécifique RoICaractéristiques,SelonRoI Le choix de l'échelle .Et pourtant,Avec cette stratégie, Deux scénarios de taille similaire peuvent être assignés à différents niveaux de caractéristiques , Cela peut donner des résultats sous - optimaux .Pour résoudre ce problème,PANet Ça viendra de tous les niveaux pyramidaux RoI Les caractéristiques convergent ,Et à traversmax L'opération les ajuste indépendamment des couches entièrement connectées et les fusionne .PANet C'est très différent de notre travail , Nous proposons une méthode adaptative de génération de poids basée sur des données , Et absorbe les caractéristiques de chaque niveau en fonction des poids . Cela permet une meilleure utilisation des différents niveaux de fonctionnalité .En outre, Notre travail exige moins de paramètres , Parce qu'aucune couche de connexion complète supplémentaire n'est nécessaire pour s'adapter RoICaractéristiques.

Fig.2.Basé surAugFPN Ligne totale du détecteur .（1） -（3）- Oui.AugFPNLes trois principales composantes de：Surveillance de la conformité、Amélioration et adoucissement des caractéristiques restantesRoISélectionner.Par souci de simplicité, Ne pas afficher la somme des caractéristiques 3×3Couche de convolution.

3 Méthodologie

AugFPNLe cadre général de2Comme indiqué.InFPN[21]Après le réglage de, Les caractéristiques utilisées pour construire la pyramide des caractéristiques sont représentées comme suit: {C2、C3、C4、C5}, Ils correspondent à la hiérarchie des caractéristiques w.r.t. Avec des travées {4、8、16、32} Cartographie des caractéristiques des pixels .{M2、M3、M4、M5} Est la caractéristique de la réduction du canal caractéristique après la connexion transversale .{P2,P3,P4,P5} Est une caractéristique générée par une pyramide de caractéristiques .AugFPN Les trois composantes de .

3.1 Surveillance constante

FPN Construire la pyramide des caractéristiques en utilisant la hiérarchie des caractéristiques pour générer la cartographie des caractéristiques à différentes résolutions dans le réseau . Pour intégrer des informations contextuelles à plusieurs échelles ,FPN Échantillonnage vers le haut et somme par chemin descendant ,Fusion de caractéristiques à différentes échelles.Et pourtant, Les caractéristiques à différentes échelles contiennent des informations à différents niveaux d'abstraction , Il y a un grand fossé sémantique entre eux .Bien queFPN La méthode utilisée est simple et efficace , Mais la fusion de plusieurs caractéristiques avec un grand écart sémantique conduit à une pyramide de caractéristiques sous - optimales . Cela nous a incités à proposer une surveillance cohérente , Le même signal de surveillance est appliqué aux caractéristiques à plusieurs échelles avant la fusion , Le but est de réduire l'écart sémantique entre eux .Plus précisément,, Nous commençons par les caractéristiques à plusieurs échelles de l'épine dorsale {C2,C3,C4,C5}Construire une pyramide des caractéristiques.Et puis,Réseau régional de conseils（RPN） Les pyramides caractéristiques qui sont attachées à la production {P2、P3、P4、P5} Pour générer un grand nombre de roi. Pour une surveillance cohérente ,ChaqueRoI Mappé à tous les niveaux de fonctionnalité ,RoI Align[12]J'ai{M2、M3、M4、M5} Pour chaque niveau de RoICaractéristiques.Après, Plusieurs en - têtes de classification et de régression en boîte sont reliés à ces caractéristiques , Pour générer des pertes accessoires . Les paramètres de ces en - têtes de classification et de régression sont partagés à différents niveaux , En plus du même signal de surveillance , Il peut également forcer différentes cartes de caractéristiques à apprendre des informations sémantiques similaires . Pour une optimisation plus stable , Les droits d'utilisation sont utilisés pour équilibrer les pertes accessoires résultant de la surveillance de la conformité et des pertes initiales. .Formellement,rcnn La formule de la fonction de perte finale pour l'eau est la suivante ：