当前位置:网站首页>Apprentissage comparatif non supervisé des caractéristiques visuelles par les assignations de groupes de contrôle
Apprentissage comparatif non supervisé des caractéristiques visuelles par les assignations de groupes de contrôle
2022-07-07 11:15:00 【InfoQ】

Adresse de la thèse:
Unsupervised Learning of Visual Features by Contrasting Cluster Assignments http://arxiv.org/abs/2006.09882
Code adresse:
https://github.com/facebookresearch/swav
Il est préférable de passer aux deux premiers articles..Ça pourrait être un peu dur si tu regardes directement..À moins que vous ne compreniez déjà ce qu'est l'apprentissage comparatif..Ça n'a pas d'importance si vous ne voulez pas lire ces deux articles..Je ferai de mon mieux.,C'est facile à comprendre..Après tout, je suis débutant.,Donc j'ai l'impression que je comprends facilement Xiaobai aussi..S'il y a une erreur, vous êtes les bienvenus..Nous appelons ce document
SwAV
.
- L'étude comparative des dieux au crépuscule
- “La course aux armements”L'étude comparative de la période est bonne.
L'apprentissage comparatif consiste simplement à trouver des échantillons positifs et négatifs qui se comparent les uns aux autres..Dans ce travail d'apprentissage précédent,,Nous avons proposé diverses méthodes de sélection des échantillons gouvernementaux.,Par exemple,:
- ToutimagenetFaire un dictionnaire,En extraire unmini batchComme échantillon positif. Ensuite, nous choisissons au hasard 4096 Barre comme échantillon négatif .
- Extraire un mini batch Pour l'agrandir , En utilisant un réseau jumeau , Mettre l'image originale sur un réseau , Placez le graphique amélioré dans un autre réseau , Les deux s'entraînent en même temps , Utilisez un NCE lossOuinfoNCE loss. Une image et son élargissement comme échantillon positif , Les images restantes et leur agrandissement en tant qu'échantillons négatifs .
- Extraire un mini batch Il a été agrandi deux fois , En utilisant un réseau jumeau , Mettre un ensemble d'améliorations d'image sur un réseau , Mettre un autre ensemble d'améliorations d'image sur un autre réseau , Les deux s'entraînent en même temps , Utilisez un NCE lossOuinfoNCE loss.
À première vue, il ne semble pas y avoir de problème avec l'approche ci - dessus , Le résultat final est également très bon , Mais à ce moment - là, un type qui fait du Clustering a sauté . Il a dit que peu importe ce que vous choisissez par rapport à l'échantillon négatif , Tout votre mini matchDeimagenet Au hasard , Donc votre échantillon négatif est aléatoire .
- Il peut être extrait à plusieurs reprises dans les mêmes données . Bien que votre ensemble de données ait beaucoup d'images , Mais vous pouvez en tirer la même image .Dans des cas extrêmes, Si vous prenez un ensemble d'images comme échantillon positif , Ensuite, vous prenez le même ensemble d'images répétées comme échantillon négatif . Ça pourrait avoir un impact sur l'entraînement. .
- Ou peut ne pas être représentatif de l'ensemble des données . Par exemple, il y a beaucoup d'animaux dans ces données , Mais tu fumes des chiens , De cette façon, les données ne sont pas représentatives .
- Bien sûr, plus la sélection est complète, mieux c'est. , Mais si vous choisissez trop d'échantillons négatifs, vous risquez de gaspiller des ressources informatiques .
J'ai donc proposé d'utiliser le regroupement .

Regardez l'image ci - dessus .
Sur la gauche se trouve l'apprentissage contrastif régulier . Améliorer les données avec différentes intensités internes , Les deux données améliorées sont ensuite placées dans des modèles différents pour obtenir la représentation correspondante , Enfin, comparez .
A droite se trouve le réseau proposé par l'auteur . C'est aussi une amélioration différente de l'entrée , Les données améliorées entrent également dans un réseau , Une fois la représentation obtenue, elle ne sera pas directement comparée . Il y a un CModule, Ce module est un module de regroupement . Les données que vous obtenez doivent être comparées au Centre du cluster .
Le Centre du cluster est le c,C'est unprototype, C'est vraiment une matrice ,Ses dimensions sontd Multiplié par k,dEst une dimension caractéristique,Ici.d Et caractéristiques d C'est pareil, Comme je l'ai déjà dit 128Vi,C'estk C'est combien de centres de regroupement . Dans cet article, il a choisi 3,000,ImageNet Un paramètre couramment utilisé sur les ensembles de données pour regrouper les paramètres .
Adoptionclustering Caractéristiques zEtprototype c Générer une cible ,C'est - à - dire queq1、q2.
x1、x2 Si c'est un échantillon positif ,C'est...z1 Et z2 Les caractéristiques devraient être très similaires , C'est la même chose qu'avant ,z1Etz2 Pour être aussi proche que possible . Si les deux caractéristiques sont très similaires , C'est censé être prévisible l'un pour l'autre ,C'est - à - dire,Si vous prenezz1 Cette caractéristique va avec c Pour faire un peu de multiplication , Il est raisonnable de prévoir q2;Et vice versa,z2Et ça.c Faire une multiplication ponctuelle peut aussi prédire q1, Donc le résultat après la multiplication des points est la prédiction . Grâce à cette transposition (Swapped prediction)Méthode,SwAV Il est possible de former le modèle .
La dernière fonction objective est celle - ci :$$-\frac{1}{N} \sum_{n=1}^{N} \sum_{s, t \sim \mathcal{T}}\left[\frac{1}{\tau} \mathbf{z}
{n t}^{\top} \mathbf{C} \mathbf{q}
{n s}+\frac{1}{\tau} \mathbf{z}
{n s}^{\top} \mathbf{C} \mathbf{q}
{n t}-\log \sum_{k=1}^{K} \exp \left(\frac{\mathbf{z}
{n t}^{\top} \mathbf{c}
{k}}{\tau}\right)-\log \sum_{k=1}^{K} \exp \left(\frac{\mathbf{z}
{n s}^{\top} \mathbf{c}
{k}}{\tau}\right)\right]$$
ImageNetNon.1000Catégorie, Donc ici, les grappes se regroupent en 3000 Un est très suffisant . Voyons ce que le regroupement peut faire .
- Commençons par les questions répétitives : Parce que vous utilisez des centres de regroupement pour comparer . Bien que différents centres de regroupement , Il n'y a donc aucune chance qu'il se répète .
- Encore une fois, il n'y a pas de représentation : Le regroupement consiste à regrouper de nombreuses images dans différentes catégories . Comparaison avec le Centre de chaque catégorie , Est absolument représentatif .
- Encore une fois, il y a eu trop d'échantillons négatifs dans le passé, ce qui a entraîné un gaspillage de ressources . Si vous voulez faire une analogie avec beaucoup d'échantillons négatifs , Il faudrait des milliers d'échantillons négatifs , Et même ainsi, ce n'est qu'une approximation , Et si on le compare au centre de regroupement , Vous pouvez utiliser des centaines ou un maximum de 3,000Centres de regroupement, Ça suffit pour dire . Réduction significative de la consommation de ressources informatiques .
Sauf le regroupement,SwAV Il y a aussi une proposition muti cropMéthode, Si vous êtes intéressé, allez voir par vous - même .
Enfin, regardons ses effets .

Parce que cet article est BYOL Il est sorti avant , Donc ça ne fait qu'une comparaison avec le modèle précédent ,Nous pouvons clairement voir. Il est meilleur que les méthodes d'apprentissage contrasté non supervisé que nous avons mentionnées précédemment , L'effet pousse vers une approche supervisée . En fait, c'est encore plus BYOL Et SimSiam Ça marche aussi bien .
Et quand on utilise des modèles plus grands , C'est ce que tury a dit ,Prends - en un.Res50Élargissement, Et c'est ici que 2X、4X、5 Si large ,SwAV Et les résultats continuent d'augmenter . Avec le plus grand modèle (5Modèle double)Quand,SwAV Déjà avec des modèles supervisés , L'écart est très faible ,EtSwAV C'est mieux que SimCLR *2、SimCLR 4Plus haut.. Cet article vaut encore la peine d'être lu , Et l'auteur nous a donné une méthode d'amélioration d'un autre point de vue , Pour rendre l'échantillon plus représentatif . Cet article est très recommandé à tous de jeter un coup d'oeil .
边栏推荐
- Wallhaven壁纸桌面版
- [untitled]
- When initializing 'float', what is the difference between converting to 'float' and adding 'f' as a suffix?
- 关于在云服务器上(这里用腾讯云)安装mysql8.0并使本地可以远程连接的方法
- Deeply understand the characteristics of database transaction isolation
- 2021 summary and 2022 outlook
- [untitled]
- [untitled]
- Array object sorting
- 基于DE2 115开发板驱动HC_SR04超声波测距模块【附源码】
猜你喜欢
随机推荐
Input type= "password" how to solve the problem of password automatically brought in
PostgreSQL中的表复制
A case of compiling QT file qmake compiling script
Template initial level template
Eth trunk link switching delay is too high
从色情直播到直播电商
electron添加SQLite数据库
The use of list and Its Simulation Implementation
软件设计之——“高内聚低耦合”
通过 Play Integrity API 的 nonce 字段提高应用安全性
使用引用
Project ERROR: Unknown module(s) in QT: core gui
【pyqt】tableWidget里的cellWidget使用信号与槽机制
Go-Redis 中间件
什么是高内聚、低耦合?
[untitled]
Unity websocket server
RationalDMIS2022阵列工件测量
2022.7.4DAY596
毕业季|与青春作伴,一起向未来!