当前位置:网站首页>Apprentissage comparatif non supervisé des caractéristiques visuelles par les assignations de groupes de contrôle

Apprentissage comparatif non supervisé des caractéristiques visuelles par les assignations de groupes de contrôle

2022-07-07 11:15:00 InfoQ


null
Adresse de la thèse:
Unsupervised Learning of Visual Features by Contrasting Cluster Assignments http://arxiv.org/abs/2006.09882

Code adresse:
https://github.com/facebookresearch/swav

Il est préférable de passer aux deux premiers articles..Ça pourrait être un peu dur si tu regardes directement..À moins que vous ne compreniez déjà ce qu'est l'apprentissage comparatif..Ça n'a pas d'importance si vous ne voulez pas lire ces deux articles..Je ferai de mon mieux.,C'est facile à comprendre..Après tout, je suis débutant.,Donc j'ai l'impression que je comprends facilement Xiaobai aussi..S'il y a une erreur, vous êtes les bienvenus..Nous appelons ce document
SwAV
.

  • L'étude comparative des dieux au crépuscule 
  • “La course aux armements”L'étude comparative de la période est bonne.

L'apprentissage comparatif consiste simplement à trouver des échantillons positifs et négatifs qui se comparent les uns aux autres..Dans ce travail d'apprentissage précédent,,Nous avons proposé diverses méthodes de sélection des échantillons gouvernementaux.,Par exemple,:

  • ToutimagenetFaire un dictionnaire,En extraire unmini batchComme échantillon positif. Ensuite, nous choisissons au hasard 4096 Barre comme échantillon négatif .
  • Extraire un mini batch Pour l'agrandir , En utilisant un réseau jumeau , Mettre l'image originale sur un réseau , Placez le graphique amélioré dans un autre réseau , Les deux s'entraînent en même temps , Utilisez un NCE lossOuinfoNCE loss. Une image et son élargissement comme échantillon positif , Les images restantes et leur agrandissement en tant qu'échantillons négatifs .
  • Extraire un mini batch Il a été agrandi deux fois , En utilisant un réseau jumeau , Mettre un ensemble d'améliorations d'image sur un réseau , Mettre un autre ensemble d'améliorations d'image sur un autre réseau , Les deux s'entraînent en même temps , Utilisez un NCE lossOuinfoNCE loss.

À première vue, il ne semble pas y avoir de problème avec l'approche ci - dessus , Le résultat final est également très bon , Mais à ce moment - là, un type qui fait du Clustering a sauté . Il a dit que peu importe ce que vous choisissez par rapport à l'échantillon négatif , Tout votre mini matchDeimagenet Au hasard , Donc votre échantillon négatif est aléatoire .

  • Il peut être extrait à plusieurs reprises dans les mêmes données . Bien que votre ensemble de données ait beaucoup d'images , Mais vous pouvez en tirer la même image .Dans des cas extrêmes, Si vous prenez un ensemble d'images comme échantillon positif , Ensuite, vous prenez le même ensemble d'images répétées comme échantillon négatif . Ça pourrait avoir un impact sur l'entraînement. .
  • Ou peut ne pas être représentatif de l'ensemble des données . Par exemple, il y a beaucoup d'animaux dans ces données , Mais tu fumes des chiens , De cette façon, les données ne sont pas représentatives .
  • Bien sûr, plus la sélection est complète, mieux c'est. , Mais si vous choisissez trop d'échantillons négatifs, vous risquez de gaspiller des ressources informatiques .

J'ai donc proposé d'utiliser le regroupement .

null
Regardez l'image ci - dessus .

Sur la gauche se trouve l'apprentissage contrastif régulier . Améliorer les données avec différentes intensités internes , Les deux données améliorées sont ensuite placées dans des modèles différents pour obtenir la représentation correspondante , Enfin, comparez .

A droite se trouve le réseau proposé par l'auteur . C'est aussi une amélioration différente de l'entrée , Les données améliorées entrent également dans un réseau , Une fois la représentation obtenue, elle ne sera pas directement comparée . Il y a un CModule, Ce module est un module de regroupement . Les données que vous obtenez doivent être comparées au Centre du cluster .

Le Centre du cluster est le c,C'est unprototype, C'est vraiment une matrice ,Ses dimensions sontd Multiplié par k,dEst une dimension caractéristique,Ici.d Et caractéristiques d C'est pareil, Comme je l'ai déjà dit 128Vi,C'estk C'est combien de centres de regroupement . Dans cet article, il a choisi 3,000,ImageNet Un paramètre couramment utilisé sur les ensembles de données pour regrouper les paramètres .

Adoptionclustering Caractéristiques zEtprototype c Générer une cible ,C'est - à - dire queq1、q2.

x1、x2 Si c'est un échantillon positif ,C'est...z1 Et z2 Les caractéristiques devraient être très similaires , C'est la même chose qu'avant ,z1Etz2 Pour être aussi proche que possible . Si les deux caractéristiques sont très similaires , C'est censé être prévisible l'un pour l'autre ,C'est - à - dire,Si vous prenezz1 Cette caractéristique va avec c Pour faire un peu de multiplication , Il est raisonnable de prévoir q2;Et vice versa,z2Et ça.c Faire une multiplication ponctuelle peut aussi prédire q1, Donc le résultat après la multiplication des points est la prédiction . Grâce à cette transposition (Swapped prediction)Méthode,SwAV Il est possible de former le modèle .

La dernière fonction objective est celle - ci :$$-\frac{1}{N} \sum_{n=1}^{N} \sum_{s, t \sim \mathcal{T}}\left[\frac{1}{\tau} \mathbf{z}
{n t}^{\top} \mathbf{C} \mathbf{q}
{n s}+\frac{1}{\tau} \mathbf{z}
{n s}^{\top} \mathbf{C} \mathbf{q}
{n t}-\log \sum_{k=1}^{K} \exp \left(\frac{\mathbf{z}
{n t}^{\top} \mathbf{c}
{k}}{\tau}\right)-\log \sum_{k=1}^{K} \exp \left(\frac{\mathbf{z}
{n s}^{\top} \mathbf{c}
{k}}{\tau}\right)\right]$$

ImageNetNon.1000Catégorie, Donc ici, les grappes se regroupent en 3000 Un est très suffisant . Voyons ce que le regroupement peut faire .

  • Commençons par les questions répétitives : Parce que vous utilisez des centres de regroupement pour comparer . Bien que différents centres de regroupement , Il n'y a donc aucune chance qu'il se répète .
  • Encore une fois, il n'y a pas de représentation : Le regroupement consiste à regrouper de nombreuses images dans différentes catégories . Comparaison avec le Centre de chaque catégorie , Est absolument représentatif .
  • Encore une fois, il y a eu trop d'échantillons négatifs dans le passé, ce qui a entraîné un gaspillage de ressources . Si vous voulez faire une analogie avec beaucoup d'échantillons négatifs , Il faudrait des milliers d'échantillons négatifs , Et même ainsi, ce n'est qu'une approximation , Et si on le compare au centre de regroupement , Vous pouvez utiliser des centaines ou un maximum de 3,000Centres de regroupement, Ça suffit pour dire . Réduction significative de la consommation de ressources informatiques .

Sauf le regroupement,SwAV Il y a aussi une proposition muti cropMéthode, Si vous êtes intéressé, allez voir par vous - même .

Enfin, regardons ses effets .

null
Parce que cet article est BYOL Il est sorti avant , Donc ça ne fait qu'une comparaison avec le modèle précédent ,Nous pouvons clairement voir. Il est meilleur que les méthodes d'apprentissage contrasté non supervisé que nous avons mentionnées précédemment , L'effet pousse vers une approche supervisée . En fait, c'est encore plus BYOL Et SimSiam Ça marche aussi bien .

Et quand on utilise des modèles plus grands , C'est ce que tury a dit ,Prends - en un.Res50Élargissement, Et c'est ici que 2X、4X、5 Si large ,SwAV Et les résultats continuent d'augmenter . Avec le plus grand modèle (5Modèle double)Quand,SwAV Déjà avec des modèles supervisés , L'écart est très faible ,EtSwAV C'est mieux que SimCLR *2、SimCLR 4Plus haut.. Cet article vaut encore la peine d'être lu , Et l'auteur nous a donné une méthode d'amélioration d'un autre point de vue , Pour rendre l'échantillon plus représentatif . Cet article est très recommandé à tous de jeter un coup d'oeil .
原网站

版权声明
本文为[InfoQ]所创,转载请带上原文链接,感谢
https://yzsam.com/2022/188/202207070909198832.html