当前位置:网站首页>Avez - vous vraiment compris l'entropie (y compris l'entropie croisée)

Avez - vous vraiment compris l'entropie (y compris l'entropie croisée)

2022-06-09 06:19:00 Godgump

1.Entropie(Entropy)

1.1 Plusieurs façons de dire l'entropie

Différentes personnes、..L'entropie est interprétée différemment dans différents domaines:Degré de confusion,Incertitude,Degré d'émerveillement,Imprévisibilité,Quantité d'informations, etc.

1.2 Présenté pour la première fois

Le concept d'entropie en théorie de l'information a été proposé pour la première fois par Shannon,Le but est de trouver un moyen efficace de/Méthode de codage de l'information sans perte:Mesure de l'efficacité par la longueur moyenne des données codées,Plus la longueur moyenne est petite, plus elle est efficace;En même temps, il faut satisfaire“Sans dommage”Conditions,C'est - à - dire qu'il ne doit pas y avoir de perte d'information originale après le codage.Voilà.,Shannon a proposé la définition de l'entropie:Longueur moyenne minimale d'encodage de l'information sur les événements encodés sans perte.

1.3 Calcul direct de l'entropie

Nous savons que1- Oui.2Tous les deux en décimales01La séquence peut représenter deux nombres,Comme les hommes.0Femme1.C'est - à - dire chaqueN- Oui.01La séquence peut représenter2DeNLe nombre de fois.Supposons qu'un événement d'information ait8Statut possible,Et la possibilité de chaque état,C'est - à - dire que toutes les possibilités sont12.5%=1/8.Combien de bits faut - il coder8Et les valeurs??1Les bits peuvent être encodés2Valeurs(0Ou1),2Les bits peuvent être encodés2×2=4Valeurs(00,01,10,11),Et8 Les valeurs nécessitent 3Bits,2×2×2=8(000,001,010,011,100,101,110,111).
On ne peut pas réduire 1Bits, Parce que ça crée de l'ambiguïté , De même, nous ne devons pas être plus 3 Codage de bits 8Valeurs possibles.En résumé,,Pour lesN Informations sur l'état de probabilité des espèces , La possibilité de chaque état P = 1/N, La longueur minimale de codage requise pour encoder cette information est :
1/N*logPar2En bas8Cumul
La formule pour obtenir des probabilités inégales à partir de tels graphiques :
Insérer la description de l'image ici

2.Entropie croisée(Cross-Entropy)

2.1 L'origine de l'entropie croisée

Je répète ce qui est important:“ L'entropie est la longueur de codage moyenne minimale théorique qui suit un événement de distribution de probabilité spécifique ”, Tant qu'on connaît la distribution de probabilité de n'importe quel événement , On peut calculer son entropie ; Donc si nous ne connaissons pas la distribution de probabilité des événements , Pour calculer l'entropie ,Comment faire? Alors faisons une estimation de l'entropie , Le processus d'estimation de l'entropie conduit naturellement à l'entropie croisée .

2.2 L'estimation de l'entropie est affectée par

Calculer la distribution de probabilité attendue est Q, Avec une distribution de probabilité réelle PC'est différent..
La probabilité de calculer la longueur minimale du Code est -logQ, Avec la longueur minimale réelle du Code -logP C'est différent..
C'est - à - dire pour les attentes , Nous utilisons la distribution de probabilité réelle PPour calculer; Pour la longueur codée , Nous utilisons une distribution de probabilité hypothétique QPour calculer, Parce qu'il est estimé pour encoder l'information . Parce que l'entropie est la longueur minimale théorique du codage , Donc l'entropie croisée ne peut être que supérieure ou égale à l'entropie .En d'autres termes,, Si nos estimations sont parfaites ,C'est - à - dire:Q=P,Alors oui.H(P,Q) = H§,Sinon,H(P,Q) > H§.

2.3 Fonction de perte d'entropie croisée

.Ceux qui connaissent bien l'apprentissage automatique savent que l'entropie croisée est utilisée comme fonction de perte dans les modèles de classification , Vous devez également être impressionné par l'entropie croisée dichotomique utilisée par le classificateur de chats dans la vidéo d'apprentissage automatique de Wu Enda . Mais les profs portent toujours un stylo ,Tu comprends vraiment?
Supposons que l'ensemble de données d'une photo d'animal ait 5Espèces animales, Et il n'y a qu'un seul animal sur chaque photo , L'étiquette de chaque photo est one-hotCodage. La première photo montre un chien avec une probabilité de 100%, La probabilité que d'autres animaux soient 0; La deuxième photo est la probabilité que le renard soit 100%, La probabilité que d'autres animaux soient 0, Les autres photos sont identiques ; On peut donc calculer , L'entropie de chaque photo est 0.En d'autres termes,,Parone-hot Chaque photo codée comme étiquette a 100%La certitude de, Contrairement à d'autres façons de décrire les probabilités : La probabilité d'un chien est 90%, La probabilité d'un chat est 10%.

Formule

Insérer la description de l'image ici

原网站

版权声明
本文为[Godgump]所创,转载请带上原文链接,感谢
https://yzsam.com/2022/160/202206090614049516.html