当前位置:网站首页>Principe de l'algorithme d'extraction de l'ensemble d'éléments fréquents associés à l'alarme dans le cadre de l'exploitation et de l'entretien intelligents

Principe de l'algorithme d'extraction de l'ensemble d'éléments fréquents associés à l'alarme dans le cadre de l'exploitation et de l'entretien intelligents

2022-06-10 06:26:00 Cloud Smart aiops Community

Dans le domaine de l'exploitation et de la maintenance intelligentes,Extraction fréquente d'éléments dans l'Association d'alarme(Aussi connu sous le nom d'extraction de règles d'association)Algorithmes,Dans l'analyse de corrélation d'alarme、Souvent utilisé dans la localisation des causes profondes et la réduction du bruit d'alarme.Dans cet article, nous présentons un algorithme d'extraction d'éléments fréquents typique:FP-Growth Algorithmes.

Un.、Introduction à l'Association des alarmes

Avec la complexité de l'architecture des systèmes des grandes entreprises、L'évolution rapide de l'hétérogénéité,L'efficacité de la localisation des défaillances et l'exactitude de la surveillance des comportements anormaux déterminent directement la stabilité du système d'affaires de l'entreprise.,Et affecte indirectement les avantages économiques réels de l'entreprise. Donc,,De plus en plus d'entreprises développent des centres de surveillance suffisamment puissants,Capable de gérer efficacement、Surveillance et suivi des défaillances potentielles et des défaillances survenues dans le système,Et l'envoyer comme alarme au personnel d'exploitation et d'entretien.Et pourtantComment gérer efficacement un grand nombre d'alertes,C'est devenu un nouveau défi pour le personnel d'exploitation et d'entretien..

En théorie,,Si la localisation des causes profondes de chaque alarme peut être réalisée en temps réel et avec précision à 100%,Pour résoudre ce problème..Cependant, selon les progrès actuels de la recherche universitaire,Il sera difficile d'atteindre cet objectif dans les années à venir.,La raison principale n'est pas seulement la difficulté de l'étude elle - même.,Est également lié au mécanisme d'envoi des alertes,Dans de nombreux cas,La racine est déclenchée après une alerte dérivée en raison d'une alerte,Cela rend impossible l'analyse des causes profondes en temps réel pour obtenir les meilleurs résultats.Donc,,Les universitaires et les ingénieurs sont finalement plus enclins àTemps、Texte、Relation d'association entre les alertes minières isodimensionnelles spatiales,Et mettre en œuvre le regroupement des alertes en fonction de cette relation d'association, Prioriser les alertes en fonction de la quantité et de la gravité de l'information contenue , Pour accélérer le processus de localisation des défauts .

À cette fin,, Nous proposons une architecture de réduction du bruit d'alarme , Le problème de l'Association des alarmes est défini en détail. ,Les définitions sont les suivantes:: Selon le scénario associé ,Oui.Temps Plusieurs alarmes dans la fenêtre sont chronométrées 、 Pertinence spatiale et sémantique , Associé à une collection qui décrit un problème particulier dans le scénario actuel , Chaque collection est appelée un événement . Sur la base de cette définition, Nous avons développé de nombreux algorithmes pour analyser les caractéristiques de corrélation entre les alertes ,Parmi eux FP-Growth L'algorithme est une méthode typique d'analyse de la corrélation temporelle .

2.、 Introduction à l'exploitation minière fréquente

L'exploration fréquente des ensembles d'articles est souvent utilisée dans l'analyse des dossiers d'achat. , Réaliser la fonction de recommandation de produit en analysant les produits que les utilisateurs achètent souvent ensemble .Dans ce scénario,, L'exploitation fréquente des ensembles d'articles est un terme technique pour trouver des combinaisons d'articles fréquemment achetés ensemble. , Et dans le scénario de corrélation d'alarme , On peut penser que l'extraction fréquente d'ensembles d'éléments est la recherche de combinaisons d'alarmes qui se produisent souvent ensemble. , Chacune de ces alarmes et chacune des marchandises ci - dessus peuvent être appelées “Item (s)”, Comme les alarmes ID “A”、“B” Ou la marchandise “Bière”、“Oeufs” Peut être considéré comme un seul élément . Plusieurs éléments peuvent être combinés en un seul ensemble d'éléments , Comme les alarmes ID Ensemble d'éléments composés ["A"、"B"], Collection d'articles ["Bière"、"Oeufs"].

Les données brutes de ce type de problème sont une base de données composée de plusieurs ensembles d'éléments. , L'objectif de l'exploration fréquente des ensembles d'éléments est d'identifier les combinaisons fréquentes d'éléments et d'éléments à l'aide d'algorithmes rapides et efficaces. , La solution la plus facile à imaginer est de traverser tous les éléments , Liste de tous les ensembles d'éléments possibles , Cela prend évidemment beaucoup de temps , Nous avons donc besoin de meilleures solutions .

Trois、Apriori Principe de l'algorithme

FP-Growth L'algorithme est l'un des algorithmes les plus avancés dans ce domaine , Mais pour mieux comprendre FP-Growth Algorithmes, Nous commencerons par les algorithmes les plus fondamentaux dans ce domaine ,C'est - à - dire: Apriori Algorithmes, Certains concepts de base dans le domaine de l'extraction fréquente d'ensembles d'éléments sont dérivés. .

In 1994 Articles présentés en 《Fast Algorithms for Mining Association Rules》Moyenne,L'auteur propose Apriori Algorithme utilisé pour résoudre ces problèmes , Cet algorithme comprend principalement: 7 Étapes:

  1. Calculer le soutien de l'élément

Algorithme d'extraction d'ensembles d'éléments fréquents basé sur le concept de soutien , Le niveau de soutien peut être compris comme étant dans tous les éléments , Probabilité d'occurrence de l'élément à calculer , La méthode de calcul spécifique consiste à compter les éléments à calculer dans plusieurs ensembles d'éléments. , Et le nombre total d'éléments originaux , Calculer le rapport comme support de l'élément courant à calculer .

Supposons que la bière 、 Les couches sont 4 Achats personnels, Les œufs ne sont que 2 Achats personnels, Par étapes 1, Nous pouvons calculer le soutien pour trois produits .

  1. Détermination du seuil de soutien

Après avoir déterminé le niveau de soutien pour chaque élément , Nécessite une norme pour filtrer les éléments inhabituels , Cette norme est appelée seuil de soutien . Par exemple, pour les étapes 1 Données dans, Supposons que nous ne voulions pas nous concentrer sur l'achat insuffisant 3 Marchandises par personne , Le seuil de soutien peut être fixé à 0.3.

  1. Filtrer les entrées fréquentes

Après avoir déterminé le seuil de soutien , Les éléments qui ne sont pas pris en charge par ce critère seront filtrés comme des éléments inhabituels , Ne pas participer aux étapes d'analyse suivantes . Dans le cas ci - dessus, L'oeuf est un élément rare qui est filtré .

  1. Calculer la prise en charge des ensembles d'éléments fréquents

L'analyse qui suit est la même que ci - dessus. , Mais l'unit é analysée est passée d'un seul élément à une combinaison d'éléments, c'est - à - dire un ensemble d'éléments. . Par exemple, la combinaison de bière et d'oeufs mentionnée ci - dessus peut être considérée comme un ensemble d'éléments .J'imagine., Filtrer les éléments fréquents , Le nombre de combinaisons d'ensembles d'éléments à générer est beaucoup plus faible que lorsque les éléments fréquents ne sont pas filtrés . Pour ces nouvelles combinaisons d'éléments , Nous pouvons encore compter leur fréquence. , Calculer la somme des fréquences de toutes les combinaisons , Et déterminer leur soutien .

  1. Répétez les étapes ci - dessus pour le nouvel ensemble d'éléments

Après les étapes 1-4, Nous avons réalisé le filtrage et la combinaison d'éléments fréquents , Et statistiques de soutien ,Répétez les étapes ci - dessus, Nous obtenons un ensemble d'éléments fréquents avec plus d'éléments .

  1. Générer des règles d'association et calculer la confiance

Nous avons maintenant un ensemble d'éléments fréquents ,Dans un scénario particulier, Les ensembles d'éléments fréquents ne répondent pas aux besoins des consommateurs. , Vous devez également les convertir en règles d'association , Et évaluer la crédibilité de ces règles d'association . Les règles d'association sont formatées comme suit: :Item (s) X = > Item (s) Y, Ça veut dire qu'on a une règle. , La règle a le sens suivant: X En présence, Il y a un grand terme de probabilité Y Il y aura aussi. La confiance est une considération de la crédibilité de cette règle. ,Degré de confiance 100% Ça veut dire que X En présence,Item (s) Y Pour toujours.,Et 50% Signifie l'élément X Existe seulement 50% Probabilité d'occurrence simultanée Y. Cet indicateur peut être calculé en calculant X Et Y Nombre d'occurrences et d'éléments pour X Le rapport des occurrences individuelles est obtenu .

  1. Calculer le degré de levage

Dans des scénarios tels que la recommandation de produits , Il y a un concept d'Ascension , Cet indicateur est utilisé pour évaluer l'intensité de la corrélation entre les éléments. ,Par exemple, " Tout produit =>X" Avec un degré de confiance de 10%,"A=>X" Avec un degré de confiance de 75%, Le degré de levage est 75%/10% = 7.5. Si le résultat final est inférieur à 1, Cette règle d'association peut être considérée comme non valable. , Les éléments de la règle sont indépendants les uns des autres .

Par l'introduction ci - dessus, Nous avons appris les concepts de base de l'Association des alarmes et de l'exploitation fréquente des ensembles d'éléments. ,Et présente Trois indices d'évaluation de base de l'algorithme de classe d'exploitation des ensembles d'éléments fréquents , C'est - à - dire le soutien 、Degré de confiance、Degré de levage. En tant que l'un des algorithmes les plus avancés d'extraction d'éléments fréquents FP-Growth,Par rapport à Apriori Quelles sont les améliorations apportées à l'algorithme? ?

Quatre、FP-Growth Algorithmes

Avec Apriori Algorithme similaire,FP-Growth La pierre angulaire de l'algorithme est également de trouver des ensembles d'éléments fréquents à partir d'ensembles de données. , Et filtrer les parties moins fréquentes , Mais pour accélérer le processus ,FP-Growth L'algorithme introduit la structure de l'arbre au lieu de l'ensemble d'éléments , Cette structure peut être plus courte Temps Numérisation interne des ensembles de données et génération de règles d'association . Les étapes spécifiques de l'algorithme sont les suivantes: :

  1. Calculer le soutien de l'élément

FP-Growth Étapes initiales de l'algorithme et Apriori Algorithme similaire, Mais pour rendre le processus plus intuitif, , Nous commencerons par les exemples de données suivants: :

Statistiques à l'appui des éléments des données brutes , Pour une présentation plus intuitive de l'effet réel , Nous avons un total d'articles dans plusieurs ensembles d'articles comme support pour cet article , Comme pour un article “A”, Dans l'ensemble des éléments 1、2、4、5、7、8、9、10 Les deux sont apparus, Il est apparu 8 Ensemble d'éléments ,Et A Est supporté par 8, Le soutien pour les autres éléments est le suivant: .

  1. Détermination du seuil de soutien

La même chose.,FP-Growth L'algorithme doit également déterminer le seuil de soutien , Supposons que le seuil de soutien soit fixé à 2.

  1. Filtrer les entrées fréquentes

Les éléments qui ne satisfont pas aux seuils de soutien seront supprimés. , Les articles conservés et le soutien sont les suivants: :

  1. Trier les ensembles d'éléments en fonction de leur soutien

Pour construire une structure arborescente , Les éléments restants doivent être triés par niveau de soutien ,C'est - à - dire selon A、C、E、G、B、D、F Trier l'ensemble d'éléments dans cet ordre .( Les éléments de soutien peuvent être triés dans l'ordre dans lequel ils apparaissent , Les éléments avec différents niveaux de soutien sont triés par niveau de soutien ,Par exemple, G Est supporté par 5,Moins de E Le soutien de,Et dans la rangée E Après).

  1. Créer des arbres et ajouter des ensembles d'éléments un par un

Après avoir obtenu un ensemble d'éléments fréquents triés , La table d'en - tête de l'élément et FP Arbre, La table d'en - tête des éléments peut être considérée comme une combinaison d'éléments fréquents et de listes de liens de noeuds ,FP Un arbre peut être considéré comme une cartographie des noeuds d'un ensemble d'éléments un par un dans l'arbre , Chaque noeud de l'arbre est un élément , Ces noeuds sont accessibles par une liste de liens de noeuds dans la table d'en - tête de l'élément , Il est également accessible par le noeud racine de l'arbre .La même chose., Pour une explication intuitive , Nous montrons ce qui suit: , Scan Itemset No. 1 Ensemble d'éléments pour [A、C、E、B、F] Après, L'en - tête de l'élément et l'arbre peuvent être créés , Numéro de l'article dans la première colonne du tableau d'en - tête de l'article , La deuxième colonne indique le niveau de soutien de cet article. , La troisième colonne est le point de départ de la liste des noeuds .

Répétez les étapes ci - dessus, Jusqu'à ce que la numérisation soit terminée pour tous les ensembles d'éléments ,Les résultats sont les suivants, Certains de ces éléments ne peuvent pas être représentés par un seul noeud ,Par exemple, G, Dans l'ensemble des éléments 2 Et 5 Moyenne, Les ensembles d'articles sont [A、C、G] Et [A、C、E、G、D], Il est donc nécessaire de lier deux noeuds avec une liste liée :

  1. Scan FP Arbre et obtenir les règles d'association

Établissement FP Derrière l'arbre, Comment extraire les règles d'association ?Ici, nous devons introduire FP-Growth Concept de base de modèle conditionnel spécifique à l'algorithme , Une base de schéma conditionnelle est une collection de chemins préfixés pour un élément , La compréhension populaire est un nouvel arbre formé par le chemin parcouru du noeud racine à tous les noeuds de l'élément .Exemples, Supposons que nous voulions D Règles pertinentes ,Et D La base du mode conditionnel est la partie rouge du graphique .

Obtenir D Après la base du mode conditionnel pour , Nous pouvons voir qu'il y a deux branches principales ,C'est - à - dire: A-C-E-G-D Et A-C-D, Parce que le noeud d'extrémité D Le nombre d'occurrences de 1, Par conséquent, le nombre d'occurrences des deux branches ci - dessus est également 1, Cela se voit également dans les données brutes. . Nous pouvons alors juger que la branche commune est A-C-D, Apparaît dans les deux branches 1 Une fois,Ça arrive. 2 Une fois, Parce que notre seuil de soutien est 2,Donc, [A、C、D] Est l'un des ensembles d'éléments fréquents , Son Sous - ensemble [A,C], [A,D], [C,D] C'est un ensemble d'éléments fréquents. . Jusqu'à présent, nous avons montré comment extraire des ensembles d'éléments fréquents .

  1. Générer des règles d'association et calculer la confiance

Méthode de calcul de la fiabilité des règles d'association , Les algorithmes de classe minière des ensembles d'éléments fréquents sont essentiellement cohérents ,Références Apriori Dans l'algorithme 6 Étapes,Je n'en parlerai plus ici..

Cinq、Résumé

Dans cet article, Nous introduisons un algorithme d'extraction d'éléments fréquents , Expliquer l'algorithme de base Apriori Et les algorithmes les plus avancés FP-Growth, Les concepts connexes et les étapes de mise en oeuvre sont décrits en détail. , Dans la prochaine phase, nous discuterons de la façon d'appliquer cet algorithme aux scénarios de corrélation des alarmes. , Ensuite, la fonction de réduction du bruit d'alarme est expliquée plus en détail. ,Attendez avec impatience..

Open Source Benefits

Cloud Smart open source Data Visualization orchestration Platform FlyFish .Fournir à l'utilisateur des centaines de composants graphiques visuels en configurant le modèle de données,Le codage zéro peut réaliser un grand écran de visualisation cool qui répond aux besoins de votre entreprise. En même temps,Les poissons volants offrent également une capacité d'expansion flexible,Soutenir le développement de composants、Configuration des fonctions personnalisées et des événements globaux, .Des scénarios d'exigences complexes peuvent assurer un développement et une prestation efficaces.

Cliquez sur le lien d'adresse ci - dessous,Bienvenue àFlyFishC'est bon. Star. Participer au développement de composants , Plus de 10 000 $en liquide. .

GitHub Adresse: https://github.com/CloudWise-OpenSource/FlyFish

Gitee Adresse:https://gitee.com/CloudWise/fly-fish

Activités de trésorerie de 10 000 RMB :http://bbs.aiops.cloudwise.com/t/Activity

Wechat Scan identifie le Code QR ci - dessous,Remarques【Poissons volants】Adhésion AIOps Community Flying Fish Developer Exchange Group ,Avec FlyFish Projets PMC Communication face à face~

原网站

版权声明
本文为[Cloud Smart aiops Community]所创,转载请带上原文链接,感谢
https://yzsam.com/2022/161/202206100618255863.html