当前位置：网站首页>Cvpr2022 | domaine compact adaptable

Cvpr2022 | domaine compact adaptable

2022-06-24 14:33:00 【Nouvelles technologies】

Contexte

Les réseaux neuronaux profonds sont généralement utilisés pour l'acquisition d'images hors ligne（Données sources marquées）Formation,Puis incorporé dans le périphérique Edge,Pour tester les images acquises à partir de la nouvelle scène（Données cibles non marquées）.Dans la pratique,Ce modèle réduit les performances du réseau en raison du transfert de domaine.Ces dernières années,De plus en plus de chercheurs s'adaptent aux domaines non surveillés（UDA）Une étude approfondie a été réalisée,Pour résoudre ce problème.

Vanilla UDAVise à aligner les données source et cible sur l'espace de représentation fédéré,Afin que le modèle formé à partir des données sources puisse être étendu aux données cibles.Mais,L'écart entre la recherche universitaire et les besoins de l'industrie persiste：La plupart desUDAMéthodes l'adaptation du poids n'a été effectuée qu'à l'aide d'une structure neuronale fixe.,Mais il ne peut pas répondre efficacement aux exigences de divers équipements dans le monde réel.

Fig.1Exemples de scénarios d'application largement utilisés présentés,Dans ce cas,,FréquentUDALes méthodes doivent former à plusieurs reprises une série de modèles ayant des capacités et des architectures différentes.,Pour répondre aux besoins en matériel avec différents budgets de calcul,C'est cher et long..

Pour résoudre les problèmes susmentionnés,L'auteur proposeSlimmable Domain Adaption（SlimDA）,C'est - à - dire que le modèle n'est formé qu'une seule fois,Cela vous donne la flexibilité d'extraire des modèles personnalisés avec différentes capacités et architectures,Pour répondre aux besoins des différents appareils budgétaires.

Fig.1 SlimDA

Lorsque le réseau neuronal mince satisfait à l'auto - adaptation non supervisée,Deux défis demeurent：

1）Adaptation du poids： Comment améliorer simultanément la performance adaptative de tous les modèles dans la Bibliothèque de modèles .

2） Adaptation de l'architecture ： Compte tenu d'un budget de calcul spécifique , Comment rechercher le modèle approprié sur les données cibles non marquées .

Pour le premier défi, L'auteur propose une distillation intégrée aléatoire （SEED） Pour interagir avec les modèles de la Bibliothèque de modèles , Pour supprimer l'incertitude des données cibles non marquées dans le modèle adaptatif .Tableau1Montre.SEED Différences avec la distillation des savoirs traditionnels .

Tableau1 Distillation des savoirs traditionnels （CKD） Distillation intégrée aléatoire （SEED）

Pour le deuxième défi, L'auteur propose un indice d'évaluation du rendement non supervisé , Peut atténuer les différences de sortie entre le modèle candidat et le modèle d'ancrage .Plus la mesure est petite, Supposons que le rendement soit meilleur .

Contribution

1.J'ai proposéSlimDA,Un“Une fois pour toutes”Le cadre de, Pour s'adapter ensemble à la performance adaptative et au budget des équipements à ressources limitées .

2.J'ai proposéSEED, Améliore simultanément la performance adaptative de tous les modèles de la Bibliothèque de modèles .

3. Un tri - classificateur optimisé et séparé est conçu pour optimiser l'adaptation à l'intérieur du modèle et l'interaction entre les modèles. .

4. Un indice d'évaluation du rendement non supervisé est proposé. , Pour faciliter l'adaptation structurelle .

Méthodes pertinentes

1.Adaptation non supervisée du domaine（UDA）

ExistantUDA La méthode est conçue pour améliorer la performance du modèle sur un domaine cible non marqué .Au cours des dernières années, Une méthode basée sur la différence et une méthode d'optimisation antagoniste sont proposées. , Résoudre ce problème en alignant les domaines .SymNet Une architecture de double classificateur est développée , Pour faciliter la confusion au niveau des catégories .Récemment,Li Quelqu'un essaie d'apprendre la meilleure architecture , Pour améliorer encore les performances du domaine cible , Cela prouve que l'architecture du réseau UDAL'importance de.CesUDA L'approche met l'accent sur la mise en oeuvre de modèles spécifiques avec une meilleure performance dans le domaine cible. .

2. Recherche d'architecture neuronale（NAS）

NAS L'approche vise à renforcer l'apprentissage 、Une approche évolutive、 Recherche automatique de l'architecture optimale basée sur le gradient .Récemment, Les méthodes jetables sont très populaires , Parce qu'il suffit de former un super réseau , En même temps, plusieurs sous - réseaux de partage de poids de différentes architectures sont optimisés. .Voilà., Vous pouvez rechercher la structure optimale du réseau à partir de la base de modèles .Dans cet article,L'auteur souligne queUDAPourNAS C'est un scénario inoubliable mais significatif , Parce qu'ils peuvent travailler ensemble sans supervision pour optimiser des architectures légères spécifiques au scénario .

3. Compression du Réseau inter - domaines

Chen Une méthode de cisaillement transversal non structuré a été proposée. .Y u Adopté par d'autres MMD Pour minimiser les différences de domaine , Et couper les filtres dans une stratégie basée sur Taylor ,Yang Et d'autres se concentrent sur les réseaux neuronaux graphiques compressés .Feng Quelqu'un d'autre s'entraîne à la confrontation entre un réseau de taille de canal et un réseau à grande échelle .Et pourtant, Il reste encore beaucoup à faire pour améliorer les performances des méthodes existantes. .En outre, Leur approche n'est pas assez flexible , Impossible d'obtenir de nombreux modèles optimaux sous différentes contraintes de ressources .

Méthodes

1. SlimDACadre

Il a été démontré dans des réseaux neuronaux simplifiés , Différentes largeurs （ Canal de couche ） De nombreux réseaux peuvent être couplés à une bibliothèque de modèles de partage de poids , Et optimisé en même temps . Commencer par une base de référence , Dans cette ligne de base ,SymNet Fusion directe avec un réseau neuronal mince .

Par souci de simplicité,SymNet L'objectif global de Ldc.Dans chaque itération d'entraînement, Disponible à partir de la Bibliothèque de modèles {（Fj,Csj,Ctj）}mj=1 Plusieurs modèles d'échantillonnage aléatoire moyen ∈（F,Cs,Ct）, Nommé modèle Batch ,Parmi euxm Représente la taille du lot modèle .Ici.（F、Cs、Ct） Peut être considéré comme le plus grand modèle , Le reste du modèle peut être échantillonné à partir d'un partage de poids .

Pour s'assurer que la Bibliothèque de modèles est bien formée , Les modèles les plus grands et les plus petits doivent être échantillonnés à chaque itération de formation. , Et faire partie d'un lot modèle .

Ce niveau de référence peut être considéré comme Eqn Deux processus alternatifs . Afin d'encourager l'interaction entre les modèles dans les lignes de base ci - dessus ,L'auteur proposeSlimDACadre,Comme le montre la figure2Comme indiqué. Le cadre est distillé par intégration aléatoire （SEED） Tri de séparation et optimisation （OSTC）Composition de la conception.

SEED L'objectif est d'utiliser les connaissances complémentaires de la base de modèles pour l'interaction Multi - modèles. .CsEtCt Les flèches rouges sur le classificateur représentent l'entraînement à la confusion de domaine Ldc Et l'agrégation des connaissances dans la base de modèles .Ca Les flèches violettes sur le classificateur représentent l'optimisation des semences Lseed.

Fig.2 SlimDACadre

2. Distillation intégrée aléatoire （SEED）

SEED L'objectif est d'utiliser les connaissances complémentaires de la base de modèles pour l'interaction Multi - modèles. . Différents modèles dans la base de modèles peuvent apprendre intuitivement des connaissances supplémentaires sur les données cibles non marquées . Inspiré par l'apprentissage bayésien avec perturbation du modèle , Les auteurs utilisent les modèles de la base de modèles pour supprimer l'incertitude des données cibles non marquées par échantillonnage Monte Carlo. .

Définition de la confiance du modèle ：

Fonction d'affûtage pour induire une réduction implicite de l'entropie pendant l'entraînement des semences ：

3. Trieur de séparation optimisé （OSTC）

Les deux premiers sont utilisés pour la formation à la confusion de domaine , Le dernier pour recevoir la connaissance de la polymérisation aléatoire pour la distillation . La perte de distillation est calculée comme suit: ：