当前位置:网站首页>Cvpr2022 | domaine compact adaptable
Cvpr2022 | domaine compact adaptable
2022-06-24 14:33:00 【Nouvelles technologies】
Contexte
Les réseaux neuronaux profonds sont généralement utilisés pour l'acquisition d'images hors ligne(Données sources marquées)Formation,Puis incorporé dans le périphérique Edge,Pour tester les images acquises à partir de la nouvelle scène(Données cibles non marquées).Dans la pratique,Ce modèle réduit les performances du réseau en raison du transfert de domaine.Ces dernières années,De plus en plus de chercheurs s'adaptent aux domaines non surveillés(UDA)Une étude approfondie a été réalisée,Pour résoudre ce problème.
Vanilla UDAVise à aligner les données source et cible sur l'espace de représentation fédéré,Afin que le modèle formé à partir des données sources puisse être étendu aux données cibles.Mais,L'écart entre la recherche universitaire et les besoins de l'industrie persiste:La plupart desUDAMéthodes l'adaptation du poids n'a été effectuée qu'à l'aide d'une structure neuronale fixe.,Mais il ne peut pas répondre efficacement aux exigences de divers équipements dans le monde réel.
Fig.1Exemples de scénarios d'application largement utilisés présentés,Dans ce cas,,FréquentUDALes méthodes doivent former à plusieurs reprises une série de modèles ayant des capacités et des architectures différentes.,Pour répondre aux besoins en matériel avec différents budgets de calcul,C'est cher et long..
Pour résoudre les problèmes susmentionnés,L'auteur proposeSlimmable Domain Adaption(SlimDA),C'est - à - dire que le modèle n'est formé qu'une seule fois,Cela vous donne la flexibilité d'extraire des modèles personnalisés avec différentes capacités et architectures,Pour répondre aux besoins des différents appareils budgétaires.
Fig.1 SlimDA
Lorsque le réseau neuronal mince satisfait à l'auto - adaptation non supervisée,Deux défis demeurent:
1)Adaptation du poids: Comment améliorer simultanément la performance adaptative de tous les modèles dans la Bibliothèque de modèles .
2) Adaptation de l'architecture : Compte tenu d'un budget de calcul spécifique , Comment rechercher le modèle approprié sur les données cibles non marquées .
Pour le premier défi, L'auteur propose une distillation intégrée aléatoire (SEED) Pour interagir avec les modèles de la Bibliothèque de modèles , Pour supprimer l'incertitude des données cibles non marquées dans le modèle adaptatif .Tableau1Montre.SEED Différences avec la distillation des savoirs traditionnels .
Tableau1 Distillation des savoirs traditionnels (CKD) Distillation intégrée aléatoire (SEED)
Pour le deuxième défi, L'auteur propose un indice d'évaluation du rendement non supervisé , Peut atténuer les différences de sortie entre le modèle candidat et le modèle d'ancrage .Plus la mesure est petite, Supposons que le rendement soit meilleur .
Contribution
1.J'ai proposéSlimDA,Un“Une fois pour toutes”Le cadre de, Pour s'adapter ensemble à la performance adaptative et au budget des équipements à ressources limitées .
2.J'ai proposéSEED, Améliore simultanément la performance adaptative de tous les modèles de la Bibliothèque de modèles .
3. Un tri - classificateur optimisé et séparé est conçu pour optimiser l'adaptation à l'intérieur du modèle et l'interaction entre les modèles. .
4. Un indice d'évaluation du rendement non supervisé est proposé. , Pour faciliter l'adaptation structurelle .
Méthodes pertinentes
1.Adaptation non supervisée du domaine(UDA)
ExistantUDA La méthode est conçue pour améliorer la performance du modèle sur un domaine cible non marqué .Au cours des dernières années, Une méthode basée sur la différence et une méthode d'optimisation antagoniste sont proposées. , Résoudre ce problème en alignant les domaines .SymNet Une architecture de double classificateur est développée , Pour faciliter la confusion au niveau des catégories .Récemment,Li Quelqu'un essaie d'apprendre la meilleure architecture , Pour améliorer encore les performances du domaine cible , Cela prouve que l'architecture du réseau UDAL'importance de.CesUDA L'approche met l'accent sur la mise en oeuvre de modèles spécifiques avec une meilleure performance dans le domaine cible. .
2. Recherche d'architecture neuronale(NAS)
NAS L'approche vise à renforcer l'apprentissage 、Une approche évolutive、 Recherche automatique de l'architecture optimale basée sur le gradient .Récemment, Les méthodes jetables sont très populaires , Parce qu'il suffit de former un super réseau , En même temps, plusieurs sous - réseaux de partage de poids de différentes architectures sont optimisés. .Voilà., Vous pouvez rechercher la structure optimale du réseau à partir de la base de modèles .Dans cet article,L'auteur souligne queUDAPourNAS C'est un scénario inoubliable mais significatif , Parce qu'ils peuvent travailler ensemble sans supervision pour optimiser des architectures légères spécifiques au scénario .
3. Compression du Réseau inter - domaines
Chen Une méthode de cisaillement transversal non structuré a été proposée. .Y u Adopté par d'autres MMD Pour minimiser les différences de domaine , Et couper les filtres dans une stratégie basée sur Taylor ,Yang Et d'autres se concentrent sur les réseaux neuronaux graphiques compressés .Feng Quelqu'un d'autre s'entraîne à la confrontation entre un réseau de taille de canal et un réseau à grande échelle .Et pourtant, Il reste encore beaucoup à faire pour améliorer les performances des méthodes existantes. .En outre, Leur approche n'est pas assez flexible , Impossible d'obtenir de nombreux modèles optimaux sous différentes contraintes de ressources .
Méthodes
1. SlimDACadre
Il a été démontré dans des réseaux neuronaux simplifiés , Différentes largeurs ( Canal de couche ) De nombreux réseaux peuvent être couplés à une bibliothèque de modèles de partage de poids , Et optimisé en même temps . Commencer par une base de référence , Dans cette ligne de base ,SymNet Fusion directe avec un réseau neuronal mince .
Par souci de simplicité,SymNet L'objectif global de Ldc.Dans chaque itération d'entraînement, Disponible à partir de la Bibliothèque de modèles {(Fj,Csj,Ctj)}mj=1 Plusieurs modèles d'échantillonnage aléatoire moyen ∈(F,Cs,Ct), Nommé modèle Batch ,Parmi euxm Représente la taille du lot modèle .Ici.(F、Cs、Ct) Peut être considéré comme le plus grand modèle , Le reste du modèle peut être échantillonné à partir d'un partage de poids .
Pour s'assurer que la Bibliothèque de modèles est bien formée , Les modèles les plus grands et les plus petits doivent être échantillonnés à chaque itération de formation. , Et faire partie d'un lot modèle .
Ce niveau de référence peut être considéré comme Eqn Deux processus alternatifs . Afin d'encourager l'interaction entre les modèles dans les lignes de base ci - dessus ,L'auteur proposeSlimDACadre,Comme le montre la figure2Comme indiqué. Le cadre est distillé par intégration aléatoire (SEED) Tri de séparation et optimisation (OSTC)Composition de la conception.
SEED L'objectif est d'utiliser les connaissances complémentaires de la base de modèles pour l'interaction Multi - modèles. .CsEtCt Les flèches rouges sur le classificateur représentent l'entraînement à la confusion de domaine Ldc Et l'agrégation des connaissances dans la base de modèles .Ca Les flèches violettes sur le classificateur représentent l'optimisation des semences Lseed.
Fig.2 SlimDACadre
2. Distillation intégrée aléatoire (SEED)
SEED L'objectif est d'utiliser les connaissances complémentaires de la base de modèles pour l'interaction Multi - modèles. . Différents modèles dans la base de modèles peuvent apprendre intuitivement des connaissances supplémentaires sur les données cibles non marquées . Inspiré par l'apprentissage bayésien avec perturbation du modèle , Les auteurs utilisent les modèles de la base de modèles pour supprimer l'incertitude des données cibles non marquées par échantillonnage Monte Carlo. .
Définition de la confiance du modèle :
Fonction d'affûtage pour induire une réduction implicite de l'entropie pendant l'entraînement des semences :
3. Trieur de séparation optimisé (OSTC)
Les deux premiers sont utilisés pour la formation à la confusion de domaine , Le dernier pour recevoir la connaissance de la polymérisation aléatoire pour la distillation . La perte de distillation est calculée comme suit: :
4. Indice d'évaluation du rendement non surveillé
Mesure du rendement non supervisée (UPEM):
边栏推荐
- Win10 system problems
- R语言实战应用精讲50篇(二十三)-贝叶斯理论重要概念: 可信度Credibility, 模型Models, 和参数Parameters
- 09_一种比较高效的记忆方法
- 高薪程序员&面试题精讲系列115之Redis缓存如何实现?怎么发现热key?缓存时可能存在哪些问题?
- MySQL日志管理、备份与恢复
- Six stones Management: garbage dump effect: if you don't manage your work, you will become a garbage dump
- [sdx62] wcn685x IPA registration failure analysis and solution
- R语言plotly可视化:可视化模型在整个数据空间的分类轮廓线(等高线)、meshgrid创建一个网格,其中每个点之间的距离由mesh_size变量表示、使用不同的形状标签表征、训练、测试及分类标签
- 数据库一些基本操作(提供了原数据库信息)
- 日常知识科普
猜你喜欢

Go language concurrency model mpg model

Daily knowledge popularization

GO语言并发模型-MPG模型

Development of digital Tibetan product system NFT digital Tibetan product system exception handling source code sharing
![[untitled]](/img/6c/df2ebb3e39d1e47b8dd74cfdddbb06.gif)
[untitled]

laravel 8 实现Auth登录

Method of inputting dots under letters in markdown/latex

Second, the examinee must see | consolidate the preferred question bank to help the examinee make the final dash

成功解决:selenium.common.exceptions.SessionNotCreatedException: Message: session not created: This versi

Linux 安装 CenOS7 MySQL - 8.0.26
随机推荐
六月集训(第23天) —— 字典树
ssh-keygen 配置无需每次输入密码
R语言实战应用精讲50篇(二十三)-贝叶斯理论重要概念: 可信度Credibility, 模型Models, 和参数Parameters
【Pytorch】量化
C language ---18 function (user-defined function)
在CVS中恢复到早期版本
The function and principle of key in V-for
[deep learning] storage form of nchw, nhwc and chwn format data
leetcode:1504. Count the number of all 1 sub rectangles
A common defect management tool - Zen, which teaches you from installation to using the handle
update+catroot+c000021a+critical service failed+drivers+intelide+viaide+000000f
Mots clés pour la cartographie es; Ajouter une requête par mot - clé à la requête term; Changer le type de mot - clé de cartographie
Go language -init() function - package initialization
leetcode. 12 --- integer to Roman numeral
Defeat the binary tree!
R语言plotly可视化:可视化模型在整个数据空间的分类轮廓线(等高线)、meshgrid创建一个网格,其中每个点之间的距离由mesh_size变量表示、使用不同的形状标签表征、训练、测试及分类标签
Chapter 8 operation bit and bit string (4)
成功解决:selenium.common.exceptions.SessionNotCreatedException: Message: session not created: This versi
怎样评价国产报表工具和BI软件
leetcode 139. Word break word split (medium)