当前位置:网站首页>Comment les entreprises gèrent - elles les données? Partager les leçons tirées des quatre aspects de la gouvernance des données
Comment les entreprises gèrent - elles les données? Partager les leçons tirées des quatre aspects de la gouvernance des données
2022-07-07 06:48:00 【Le Bureau d'Hugo.】
Dans l'industrie,Tout le monde est confus sur la façon de bien gérer les données.Le travail de gouvernance des données doit d'abord comprendre le fond des données,Planifier la Feuille de route,Avant de prendre une décision.
Cet article est tiré deErreurs de gouvernance des données、Gestion des métadonnées、Gestion de la qualité des données、Gestion des normes de donnéesAttendez.4Résumé de l'expérience de la gouvernance des données sous différents aspects,Donner quelques références aux collègues qui travaillent sur la gouvernance des données.
Cet article contient14351Un mot,Le temps de lecture est d'environ15Minutes.
01 Quelles sont les erreurs de gouvernance des données?
L'ère du Big Data,Les données deviennent un atout précieux pour la société et l'Organisation,Comme le pétrole et l'électricité à l'ère industrielle qui alimentent tout,Mais si l'huile contient trop d'impuretés,Tension instable du courant,La valeur des données n'est - elle pas fortement réduite,Même pas du tout disponible,Ne t'en sers pas.,Donc,,La gouvernance des données est le choix inévitable pour nous d'utiliser de grandes quantités de données à l'ère du Big Data.
Mais tout le monde sait,La gouvernance des données est une entreprise longue et complexe,On peut dire que le travail sale dans le domaine du Big Data,La plupart du temps, les fournisseurs de gouvernance des données font beaucoup de travail,Mais le client pense qu'il n'a rien vu.La plupart des projets de consultation sur la gouvernance des données fournissent une réponse qui satisfait suffisamment les clients,Mais quand les résultats de la consultation sont mis en pratique,Pour toutes sortes de raisons,Probablement un autre paysage très différent.Comment éviter cela,C'est une question qui mérite réflexion de la part de toutes les entreprises qui gèrent des données.
On peut dire que dans l'industrie,Tout le monde est confus sur la façon de bien gérer les données.
L'auteur s'intéresse au domaine de la gouvernance des mégadonnées6Plus d'années,Responsable du Gouvernement、Industrie militaire、Aviation、 Projet de gouvernance des données dans les grandes et moyennes entreprises manufacturières . Expérience réussie dans la pratique , Bien sûr, il y a eu beaucoup de leçons d'échec ,Dans ces processus, L'auteur a réfléchi à la gouvernance des mégadonnées. ? Quels sont les objectifs raisonnables à atteindre ? Comment éviter quelques détours au milieu ? Voici la fosse que l'auteur a traversé , J'espère qu'il y aura une certaine référence pour tout le monde. .
Erreur 1:Les besoins des clients ne sont pas clairs
Le client a demandé au fabricant de l'aider à gérer les données , J'ai dû voir des problèmes avec mes données . Mais quoi? ,Comment?, Quelle portée ,Qu'est - ce qu'on fait d'abord?,Quel genre d'objectifs,Secteur d'activité、Département technique、 Comment coopérer entre les fabricants …… Beaucoup de clients ne pensent pas vraiment à ce qu'ils veulent vraiment résoudre .Gouvernance des données, Difficile de trouver un point d'entrée .
Selon l'expérience de l'auteur, Si le client ne pense pas clairement à la demande pour le moment , Il est recommandé de demander au fabricant de l'aider à réaliser un petit projet de consultation. , Grâce à une équipe professionnelle , Trouvez le point d'entrée ensemble . Ce projet de consultation devrait se concentrer sur l'étude de l'état actuel des données. . Grâce à l'architecture des données d'enquête 、 Normes de données existantes et mise en œuvre , Situation actuelle et points douloureux de la qualité des données , Situation actuelle des capacités de gouvernance des données des clients , Pour avoir une idée de la famille des données. .
Sur la base de l'identification de la famille , Une équipe professionnelle de gouvernance des données aide les clients à concevoir une feuille de route pratique pour la gouvernance des données , Sur la base d'un accord entre les parties , Mise en œuvre de la gouvernance des données conformément à la Feuille de route .
En fait, la plupart du temps, les clients n'ont pas besoin , C'est juste que la demande est assez générale. , Flou et imprécis , Les deux parties peuvent consacrer du temps et de l'énergie à trouver un véritable objectif ,Meuleuse, coupeuse de bois., Pour ne pas dépenser plus d'argent pour payer les frais de scolarité. .
Résumé: Gouvernance des données , Assurez - vous d'avoir une idée claire de la famille des données. ,Planifier la Feuille de route, Ne montez pas sur la plate - forme .
Erreur numéro deux: La gouvernance des données relève du secteur technique
À l'ère du Big Data, De nombreuses organisations reconnaissent la valeur des données , Des équipes spéciales ont également été mises sur pied pour gérer les données. , Certains s'appellent le Département de la gestion des données. , Certains s'appellent Big Data Center. , Certains s'appellent data applications. , Les noms varient . Ces organismes sont souvent composés de techniciens , Son positionnement appartient également au secteur technique. ,Ils ont en commun:Forte technologie, Faible activité . Quand un projet de gouvernance des données doit être mis en œuvre , C'est souvent ces services techniques qui dirigent . La plupart des services techniques sont basés sur des centres de données ou des plateformes de Big Data , Limité à l'échelle de l'Organisation , Ne pas vouloir s'étendre aux systèmes d'affaires , J'espère juste que je m'occuperai de mes responsabilités .
Mais... Causes des problèmes de données , Souvent des affaires. >Technique. On peut dire que la plupart des problèmes de qualité des données , Tout vient des affaires ,Par exemple:: Sources de données multiples ,Responsabilité imprécise, Fait en sorte que les mêmes données soient exprimées différemment dans différents systèmes d'information ;Les besoins opérationnels ne sont pas clairs, Données non standard ou manquantes ,Attendez un peu!. Beaucoup de problèmes techniques superficiels ,Par exemple:ETL Erreur de traitement des données causée par un changement de code dans le processus , Affecter l'exactitude des données dans le rapport, etc. , En fait, c'est une irrégularité dans la gestion des affaires. .
Lorsque j'ai communiqué avec de nombreux clients sur la gouvernance des données , Il a été constaté que la plupart des clients ne connaissaient pas les causes profondes des problèmes de qualité des données. , Pour résoudre unilatéralement les problèmes de données d'un point de vue technique , Cette façon de penser conduit les clients à planifier la gouvernance des données , Il n'a pas été envisagé de créer un groupe technique 、 Une structure organisationnelle solide pour les groupes d'affaires , Processus institutionnel efficace , Ce qui réduit considérablement l'effet .
Résumé: La gouvernance des données est une question technique , C'est le Département des affaires. , Il est nécessaire de mettre en place une structure organisationnelle et un processus institutionnel participatifs. , Le travail de gouvernance des données peut vraiment être réalisé par les gens , Ne pas flotter à la surface .
Mythe 3: Grande et complète gouvernance des données
Pour le retour sur investissement , Les clients ont tendance à avoir un , Grands et complets projets de gouvernance des données .De la production de données, Traitement des données ,Application,Destruction, Tout le cycle de vie des données qu'ils espèrent gérer .Du système d'affaires,Au centre de données, Aux applications de données , Chaque donnée qu'ils veulent inclure dans la gouvernance des données .
Mais au sens large Gouvernance des donnéesC'est un grand concept., Y compris beaucoup de choses , Il est souvent impossible de terminer en un seul projet ,Mais... Mise en œuvre progressive , Donc, si le fabricant cède à l'idée du client, , Il est facile de finir par ne rien faire de bien , Ça ne marchera pas. .Alors..., Nous devons guider nos clients , Du système central , Les données les plus importantes commencent à être gérées .
Comment guider les clients ? Il s'agit d'introduire un concept bien connu :28 Principes.En fait,, Le principe 28 s'applique également à la gouvernance des données :80% Services de données , C'est pas vrai. 20% Les données de ;La même chose.,80% Problèmes de qualité des données , C'est en fait ça. 20% Des systèmes et des êtres humains . Dans le processus de gouvernance des données , Si vous pouviez trouver ça, 20%Données,Et ça.20% Systèmes et personnes ,Sans aucun doute,Ça fera deux fois plus d'efforts.
Mais comment convaincre les clients , Commencez par les données les plus importantes. ? C'est ce dont nous avons parlé dans le mythe 1. : Avant de toucher le fond de la maison avec les données claires , Ne vous précipitez pas pour commencer .Par la recherche,Analyse, Trouve ça. 20%Données et20% Systèmes et personnes , Fournir des rapports d'analyse véridiques et fiables , Pour impressionner les clients , Amener les clients à accepter d'abord le système de base , Début des données de base , Et s'étend progressivement à d'autres domaines. .
Résumé: Gouvernance des données , Ne convoitez pas la perfection , Et à partir du système central , Les données importantes commencent .
Erreur 4: Les outils sont universels
Beaucoup de clients pensent , La gouvernance des données coûte de l'argent , Acheter des outils , Penser que l'outil est un filtre , Le filtre est prêt. , Les données passent du milieu ,Pas de problème..Le résultat est: D'une part, plus il y a de fonctionnalités , D'autre part, en fait, une fois en ligne, ,Fonctions complexes, Les utilisateurs ne veulent pas utiliser .
En fait, l'idée ci - dessus est une pensée simple , La gouvernance des données elle - même contient beaucoup de contenu ,Structure organisationnelle、Processus institutionnel、 Outils matures 、 Mise en œuvre sur place et o & M , Ces quatre éléments sont indispensables , L'outil n'en fait qu'une partie . Ce que vous ignorez le plus dans la gouvernance des données, c'est la structure organisationnelle et la dotation en personnel. , Mais en fait, tous les flux d'activités 、 Les normes institutionnelles ont besoin de gens pour les appliquer 、 Mise en œuvre et promotion , Il n'y a pas d'arrangement pour le personnel , Le suivi est difficile à garantir .
D'une part, personne ne fait de promotion de la gouvernance , L'exécution du processus n'est pas garantie . D'autre part, il n'y a pas de formation pertinente sur la gouvernance des données. , Ce qui a conduit à ne pas prêter attention à la gouvernance des données , Ça n'a rien à voir avec moi. , Ce qui rend l'ensemble du projet de gouvernance des données voué à l'échec . Il est recommandé de mettre l'architecture organisationnelle au premier plan de la gouvernance des données. , Présence organisée , Quelqu'un va penser à ce travail , Comment pousser , Continuer à faire les choses bien , Gouvernance des données axée sur l'être humain , C'est plus facile de promouvoir l'atterrissage. .
Un expert étranger en gouvernance des données a raison. ,Data Governance is governance of people; Data behaves what people behave.La traduction est: La gouvernance des données est la gouvernance du comportement humain .Pour les organisations,Qu'il s'agisse d'entreprises ou de gouvernements, La gouvernance des données est essentiellement une question qui concerne tout le personnel 、 Concernant les données “ Gestion du changement ”, Cela implique une structure organisationnelle , Changements dans les processus de gestion .
Bien sûr., C'est un état idéal. .En fait..., Regardons la situation intérieure , Dans le secteur financier et quelques grandes entreprises , Des organisations spécialisées pourraient être créées pour assurer la gouvernance des données. , Mais certains gouvernements et petites et moyennes entreprises , Pour des raisons de coût , Souvent, il n'y a pas de budget pour cela. . C'est un moment de compromis. , Que quelqu'un dans un poste existant , Responsable à temps partiel d'un processus ou d'une fonction de gouvernance des données . Cela alourdira la charge de travail des titulaires de postes existants. , Mais c'est un compromis. , L'accent est mis sur la responsabilité. .
La mise en œuvre et l'exploitation et l'entretien du site sont également très importants. , Malgré la tendance à l'automatisation de la gouvernance des données ,MaisJusqu'à présent, La gouvernance des données est plus ou moins un travail de service , Pas seulement un ensemble de produits .Donc,, Des conseillers en mise en œuvre et du personnel de mise en œuvre suffisamment solides , Aider les clients à développer progressivement leurs propres capacités de gouvernance des données , C'est un travail très important. .
Résumé:N'oublie pas, La gouvernance des données n'est pas une promenade shopping mall, Choisissez quelques bons outils et tout ira bien. . La bonne gouvernance des données ne doit pas être une superstition des outils ,Structure organisationnelle、Processus institutionnel、 La mise en œuvre et l'exploitation et l'entretien du site sont également très importants. ,Il ne manque rien.
Mythe 5: Les normes de données sont difficiles à mettre en œuvre
Beaucoup de clients parlent de gouvernance des données , Nous avons beaucoup de normes de données. , Mais toutes ces normes n'ont pas été respectées ,Donc,, Nous devons d'abord mettre en place des normes de données . Les normes de données sont vraiment en place , La qualité des données est naturellement bonne .
Mais cela confond les normes de données et la normalisation des données. .Il faut d'abord comprendre une chose.: Les normes de données sont obligatoires , Mais la normalisation des données , C'est - à - dire l'atterrissage des normes de données , Doit être mis en œuvre au cas par cas .
Pour faire la norme de données , Nous devons d'abord passer en revue les normes de données . Et le tri complet des normes de données ,La gamme est vaste,Y compris les normes nationales,Normes de l'industrie, Normes internes de l'Organisation, etc. , Il faut beaucoup d'énergie. , Vous pouvez même faire un seul projet .Alors..., Le client doit d'abord voir l'étendue et la difficulté de trier les normes de données. .
Deuxièmement,, Même s'il faut beaucoup d'énergie , Et c'est difficile à voir. , Le résultat est souvent que les clients ne voient qu'un tas WordEtExcelDocumentation,Un long moment., Personne ne se souciera de ces vieux documents. . C'est le problème le plus courant. .
Dans le secteur financier , Ou des industries spéciales comme la sécurité nationale. , La mise en œuvre des normes relatives aux données est bonne , Et dans les entreprises ordinaires, , La norme de données est essentiellement un appareil .
Il y a deux raisons à ce problème :
Premièrement, les gens n'ont pas prêté attention aux normes de données. .
Deuxièmement, les normes de données des entreprises nationales , Souvent, la motivation n'est pas de bien gérer les données , Il s'agit d'une inspection par un superviseur. , Beaucoup sont des sociétés de conseil , Modifié à partir de la localisation standard des entreprises de la même industrie , Une fois que le consultant a quitté , Les entreprises elles - mêmes n'ont pas la capacité d'établir des normes de données .
Mais l'atterrissage des normes de données , C'est - à - dire la normalisation des données , En fait, il faut faire attention à la situation. , Il y a au moins deux scénarios. :
L'un est un système qui fonctionne déjà en ligne. , Pour cette partie du système d'information ,Pour des raisons historiques, Il est difficile de mettre en place des normes de données . Parce que la transformation des systèmes existants , En plus des coûts , Il y a souvent des risques énormes et imprévisibles .
La deuxième catégorie concerne les systèmes nouvellement mis en service. , Il est tout à fait possible d'exiger que ses éléments de données soient mis en place en stricte conformité avec les normes de données. .
Bien sûr., Si les normes de données peuvent être mises à la terre en douceur , Il est également directement lié aux autorisations accordées aux ministères responsables de la gouvernance des données. , S'il n'y a pas de leadership et de soutien solide , Tu ne peux pas pousser de toute façon. “Un livre, une voiture, une piste”De,Pour ce faire, S'il vous plaît assurez - vous d'abord qu'il y a un Qin Shihuang dans votre dos. , Ou vous êtes l'empereur QIN Shihuang. .Ne te plains pas., C'est ce qui se passe avec chaque équipe de gouvernance des données. .
Résumé: La difficulté d'établir des normes de données est un problème universel dans la gouvernance des données , La mise en oeuvre exige la séparation des systèmes existants et des nouveaux systèmes , Exécuter différentes stratégies d'atterrissage séparément .
Erreur 6: Problème de qualité des données trouvé ,Et alors??
Plate - forme laborieuse , Le personnel d'affaires et le personnel technique travaillent ensemble , Règles de vérification configurées pour la qualité des données , Il y a aussi beaucoup de problèmes de qualité des données. ,Et alors??Six mois plus tard,Un an plus tard, Les mêmes problèmes de qualité des données persistent .
La cause profonde de ce problème est qu'il n'y a pas de boucle fermée pour la responsabilisation en matière de qualité des données. . Responsabilité en matière de qualité des données , Tout d'abord, la responsabilité des problèmes de qualité des données . Le principe de base de la responsabilité est : Qui produit ,Qui est responsable?. D'où viennent les données? , Qui est responsable de la qualité des données? .
Ce type de boucle fermée n'a pas besoin d'un processus en ligne , Mais assurez - vous que quelqu'un soit responsable de chaque problème , Chaque question doit être traitée en retour , Le meilleur résultat du traitement est une évaluation du rendement. , Comme dans le classement , Pour exhorter les personnes et les services responsables à traiter les problèmes de qualité des données .
Ça remonte à ce qu'on a dit dans la zone d'erreur 2. : Établir une structure organisationnelle et un processus institutionnel , Sinon, tout ce qui se passe dans la gouvernance des données , Personne n'est responsable. , Personne n'y va. .
Résumé: Résolution des problèmes de qualité des données , Il existe un mécanisme en boucle fermée et un mécanisme de rétroaction pour déterminer la personne responsable à chaque étape. .
Erreur 7: On dirait que vous n'avez rien fait ?
De nombreux projets de gouvernance des données sont difficiles à accepter , Les clients ont souvent des questions : Qu'avez - vous fait pour la gouvernance des données ? Vous avez fait beaucoup de choses. , On ne voit rien. ?Ça arrive, La raison en est souvent l'imprécision de la demande du client mentionnée dans l'erreur 1 ci - dessus. , Erreur 3: il est difficile de mettre fin à l'erreur en raison de la grande et complète gestion des données. , Mais il y a une autre raison à ne pas négliger , C'est que les clients ne sont pas conscients des résultats de la gouvernance des données . Manque de sensibilisation des utilisateurs aux résultats de la gouvernance des données , Le manque de présence dans la gouvernance des données , En particulier, le leadership et la prise de décisions des utilisateurs , Naturellement, l'acceptation du projet ne sera pas facile .
Dans ce cas,,Une phrase.“Le bébé souffre., Mais le bébé ne le dit pas. ”Ça n'aide pas.. Un article de la vente 、Avant Vente、 Mise en œuvre par l'équipe organisationnelle , Combien de personnes ont travaillé dur . Il est important de sensibiliser les clients à la valeur importante du projet. , Pour payer tout le monde. .
A mon avis, Au stade des besoins du projet en matière de gouvernance des données , Nous devrions nous en tenir à l'orientation de la valeur de l'entreprise , L'objectif de la gouvernance des données est de gérer efficacement les actifs de données. , Assurez - vous qu'il est exact 、Crédible、Perception、Compréhensible、Facile d'accès, Fournir un soutien en matière de données pour l'application des mégadonnées et la prise de décisions en matière de leadership .EtDans ce processus,, Il est nécessaire d'accorder de l'importance et de concevoir l'effet de présentation visuelle de la gouvernance des données. ,Par exemple::
Nombre de métadonnées gérées , Est - ce qu'une carte des actifs de données devrait être utilisée pour montrer .
Combien d'actifs de données ont été gérés ,Quelles sources?,Quels sujets, De quelle source de données , Devrait - il être affiché sous la forme d'un portail d'actifs de données? .
Comment les actifs de données servent - ils les applications de haut niveau? , Comment ces services externes sont - ils gérés? , Qui utilise les données , Combien de données ont été utilisées , Si les statistiques et les représentations doivent être graphiques .
Combien de règles ont été établies pour nettoyer les données , Combien de types de données ont été nettoyés , Est - ce que ça devrait être illustré par un graphique .
Combien de données problématiques ont été trouvées , Combien de données problématiques ont été traitées , Devrait - il y avoir des statistiques constamment mises à jour pour indiquer .
Tendance à la baisse mensuelle des problèmes de qualité des données , Devrait - il être représenté par un diagramme de tendance? .
Problèmes de qualité des données par département 、 Classement du système , Doit être ajouté au rapport sur la qualité des données , Mise à la disposition des décideurs , Aider les clients à évaluer le rendement .
Analyse des données、 Applications telles que les rapports , Nombre de fois où la source et le processus doivent être retracés en raison de problèmes de données , Devrait - on tenir compte de la tendance à la baisse d'un mois à l'autre? ; Méthode de rétrosuivi précédente , Et maintenant, grâce à la gestion des lignées sanguines, il est plus facile de localiser les liens dans lesquels les données problématiques sont générées. , Entre les deux. , Combien de temps et d'efforts le client a - t - il économisé? , Devrait - il y avoir une évaluation équitable , Et soumettre au client .
Le temps moyen que l'utilisateur a passé à chercher des données , Le temps moyen de recherche des données est maintenant , Est - il possible d'obtenir une conclusion équitable au moyen d'entrevues? , Soumettre au client .
……
Ce sont des moyens d'améliorer le sens de l'existence de la gouvernance des données. .En plus de ça,, Organiser régulièrement des échanges et une formation , Sensibiliser les clients à l'importance de la gouvernance des données , Sensibiliser les clients au rôle de la gouvernance des données dans la promotion de leur entreprise , Transférer progressivement la capacité de gouvernance des données aux clients, etc. , Ce sont des tâches auxquelles il faut prêter attention en temps normal. .
Résumé: La gouvernance traditionnelle des données ne met pas l'accent sur la présentation des résultats , Nous travaillons sur la gouvernance des données , Assurez - vous de commencer par la demande , Trouver un moyen de faire en sorte que les clients voient les résultats visuellement .
Dans un marché très concurrentiel, Les fournisseurs de Big Data proposent diverses idées de gouvernance des données , Certains proposent une gouvernance des données couvrant l'ensemble du cycle de vie des données , Certains proposent une gouvernance des données axée sur l'utilisateur , Certains proposent de réduire l'intervention manuelle 、 Gestion automatisée des données fondée sur l'intelligence artificielle , Face à ces concepts, , D'une part, nous devons avoir une idée claire de l'état actuel des données , Un appel clair à l'objectif de la gouvernance des données , D'autre part, nous devons connaître toutes sortes d'erreurs courantes dans la gouvernance des données. , Traverser ces pièges , Ce n'est qu'alors que nous pourrons réellement mettre en œuvre la gouvernance des données. , Résultats du projet , Rendre les données plus précises , Meilleur accès aux données , Les données sont plus utiles , Utiliser réellement les données pour améliorer le niveau d'affaires .
02 Gestion des métadonnées pour la gouvernance des données
Commencez par trois concepts sur les métadonnées , Parler de la portée de la distribution des métadonnées et de la façon d'obtenir les métadonnées , Enfin, à partir de quelques applications communes , Quelques scénarios d'application pratique des métadonnées .
Un.、 Qu'est - ce que les métadonnées ?
Les métadonnées sont assez abstraites 、 Concepts difficiles à comprendre , Donc le premier chapitre , Commençons par comprendre ce que sont les métadonnées. . Ce chapitre propose trois concepts .
1、Métadonnées(Meta Data)Est les données qui décrivent les données.
C'est la définition standard des métadonnées , Mais c'est un peu abstrait , Les étudiants en technologie peuvent comprendre , Si le public n'a pas l'expérience technique appropriée , Peut - être qu'il était inconscient sur place . La racine du problème est en fait une malédiction de la connaissance : On sait quelque chose , Il est difficile de le décrire à quelqu'un qu'il ne comprend pas. .
Pour briser cette malédiction , Nous pourrions utiliser une métaphore pour décrire les métadonnées : Les métadonnées sont le registre des données . Réfléchissons à ce qu'est le livret de compte d'une personne. , C'est le registre de cette personne. : Il y a son nom dessus. ,Âge,Sexe、Numéro d'identification,Adresse、 Origine 、 Quand, où, et ainsi de suite , En plus de ces descriptions de base , Et la parenté de cet homme avec sa famille. , Comme père et fils. , Frère et sœur, attendez. . Toutes ces informations réunies , Une description complète de cette personne . Donc toutes ces informations , On pourrait tous appeler ça les métadonnées de cette personne. .
La même chose., Si nous voulons décrire une donnée réelle , Prenez un tableau par exemple ,Nous devons connaître le nom de la table、Alias de table、Propriétaire de la table、 Emplacement physique du stockage des données 、Clé primaire、Index、Quels champs sont disponibles dans le tableau、 La relation entre ce tableau et les autres tableaux, etc . Toutes ces informations réunies , C'est les métadonnées de ce tableau .
Cette analogie , Notre conception des métadonnées pourrait être beaucoup plus claire : Les métadonnées sont le registre des données .
2、Gestion des métadonnées, Est au cœur et à la base de la gouvernance des données .
Pourquoi disons - nous que la gestion des métadonnées est au cœur et à la base de la gouvernance des données? ? Pourquoi la gestion des métadonnées est - elle la première étape de la gouvernance des données? ? Pourquoi est - ce si spécial? ?
Imaginons, Un général va se battre , Il est indispensable. , Quelles sont les informations à saisir ?C'est exact., C'est une carte du champ de bataille. . Il est difficile de croire qu'un général sans carte militaire puisse gagner. . Et les métadonnées sont une carte de toutes les données .
Dans cette carte des données ,On peut savoir:
Quelles données avons - nous? ?
Où les données sont - elles réparties? ?
Quel type de données sont - elles? ?
Quelle est la relation entre les données??
Quelles données sont fréquemment citées ? Quelles données n'ont pas été consultées ?
……
Toutes ces informations, Peut être trouvé dans les métadonnées . Si nous voulons faire de la gouvernance des données , Mais je n'ai pas cette carte dans ma main , La gouvernance des données, c'est comme être aveugle . Dans les articles suivants, nous allons parler de la gestion des actifs de données ,Carte des connaissances, En fait, la plupart d'entre eux sont basés sur des métadonnées. .Alors on a dit:: Les métadonnées sont des cartes de données au sein d'une organisation , Il est au cœur et au fondement de la gouvernance des données .
3、Les métadonnées sont des données qui décrivent les données, Y a - t - il des données décrivant les métadonnées? ?
Oui.. Les données décrivant les métadonnées sont appelées métamodèles (Meta Model).Métamodèle、Métadonnées、Relations entre les données, Cette image peut être utilisée pour décrire .
Pour le concept de métamodèle , On ne va pas en discuter en profondeur . Tout ce qu'il nous faut, c'est savoir ce qui suit :
La structure des métadonnées elle - même doit également être définie et normalisée. , C'est le métamodèle qui définit et normalise les métadonnées , Les critères du métamodèle international sont les suivants: CWM(Common Warehouse Metamodel, Métamodèle d'entrepôt public ), Un outil de gestion des métadonnées mature ,Besoin de soutienCWMCritères.
2.、 D'où viennent les métadonnées ?
Dans la plateforme Big Data, Métadonnées tout au long du flux de données de la plateforme Big Data , Comprend principalement les métadonnées des sources de données 、 Métadonnées du processus de traitement des données 、 Bibliothèque de sujets de données métadonnées de la Bibliothèque de sujets 、 Métadonnées du niveau de service 、 Métadonnées de la couche d'application, etc. . La figure ci - dessous illustre un centre de données , Montre l'étendue de la distribution des métadonnées :
Les métadonnées sont généralement classées dans les types suivants dans l'industrie :
Métadonnées techniques:Structure de la table de la bibliothèque、Contraintes de champ、Modèle de données、ETLProcédure、SQLProcédures, etc..
Métadonnées commerciales:Indicateurs opérationnels、Code d'entreprise、 Termes commerciaux, etc. .
Gérer les métadonnées:Propriétaire des données、 Responsabilité en matière de qualité des données 、 Niveau de sécurité des données, etc. .
La collecte de métadonnées fait référence à l'acquisition de métadonnées dans le cycle de vie des données. , Organisation des métadonnées , Le processus d'écriture des métadonnées dans la base de données .
Pour obtenir des métadonnées , Plusieurs approches sont nécessaires , En mode acquisition , L'utilisation comprend la connexion directe à la base de données 、Interface、 Moyens techniques tels que les fichiers journaux , Dictionnaire de données pour les données structurées 、 Information sur les métadonnées pour les données non structurées 、Indicateurs opérationnels、Code、 Collecte automatique et manuelle d'informations sur les métadonnées telles que le processus de traitement des données .
Une fois la collecte des métadonnées terminée , Organisé pour correspondre CWMStructure du modèle, Stocké dans une base de données relationnelle .
Trois、 Avec les métadonnées ,Que pouvons - nous faire?
Dans cette section, nous nous concentrons sur plusieurs applications typiques des métadonnées. .
Regardez d'abord un diagramme de l'architecture fonctionnelle globale de la gestion des métadonnées , Avec les métadonnées ,Que pouvons - nous faire, D'un coup d'oeil sur cette photo :
1.Vue des métadonnées
En général, les métadonnées sont organisées dans une structure arborescente , Parcourir et extraire les métadonnées par type . Si nous pouvions parcourir la structure de la table 、Pendant la session、Modèle de données、 Informations sur les indicateurs, etc. . Par une répartition raisonnable des pouvoirs , La visualisation des métadonnées améliore considérablement le partage de l'information au sein de l'Organisation. .
2.Analyse de la consanguinité et de l'influence des données
L'analyse du sang et de l'influence des données porte principalement sur“Quelle est la relation entre les données?”La question de.En raison de sa valeur, Certains fournisseurs extraient séparément de la gestion des métadonnées ,En tant que fonction indépendante et importante. Mais l'auteur considère que l'analyse du sang et de l'influence des données provient de l'information sur les métadonnées. ,Il est donc préférable de le décrire dans la gestion des métadonnées..
L'analyse de la consanguinité fait référence à la consanguinité des données obtenues. ,Enregistrement des sources de données sous forme de faits historiques,Processus de traitement, etc..
Prenons l'exemple de la consanguinité d'un tableau , L'analyse du sang montre les informations suivantes: :
L'analyse du sang des données a une valeur importante pour les utilisateurs,Par exemple:: Lorsque des données problématiques sont trouvées dans l'analyse des données ,Peut dépendre du sang,Retracer la source, Localiser rapidement la source et le processus des données problématiques ,Réduire le temps et la difficulté de l'analyse.
Scénarios d'application typiques pour l'analyse de la consanguinité des données : Un homme d'affaires a découvert “ Analyse mensuelle du marketing ” Problèmes de qualité des données du rapport ,Et donc,IT Objection du Ministère , Les techniciens ont découvert par l'analyse du sang des métadonnées “ Analyse mensuelle du marketing ” Rapport soumis en amont FDM Effet des quatre tableaux de données différents , Pour localiser rapidement la source du problème , Résoudre les problèmes localement à faible coût .
En plus de l'analyse du sang , Et une analyse d'impact ,Il peut analyser la direction en aval des données.Lorsque le système est mis à niveau,Si la structure des données est modifiée、ETLInformations sur les métadonnées telles que les programmes,Analyse d'impact fondée sur les données,Permet de localiser rapidement les systèmes en aval touchés par les modifications des métadonnées,Réduire les risques liés à la mise à niveau du système.La description ci - dessus montre que: L'analyse de l'impact des données est l'inverse de l'analyse du sang. , L'analyse du sang indique la source en amont des données , L'analyse d'impact pointe vers l'aval des données .
Scénarios d'application typiques pour l'analyse d'impact : Mise à niveau du système opérationnel d'une organisation ,In“FINAL_ZENT ” Champs modifiés dans le tableau :TRADE_ACCORDLongueur par8Modifier comme suit:64, L'impact de cette mise à niveau sur les systèmes connexes suivants doit être analysé. .Pour les métadonnées“FINAL_ZENT” Effectuer une analyse d'impact , Découverte en aval DW Tableaux relatifs aux couches et ETL Les procédures ont une incidence ,IT Une fois que le Ministère est positionné pour influencer , Modifier en temps opportun les procédures et la structure des tableaux correspondants en aval , Éviter les problèmes .On peut voir que, L'analyse de l'impact des données est utile pour verrouiller rapidement l'impact des changements de métadonnées. , Éliminer à l'avance les problèmes qui pourraient survenir dans les germes .
3.Analyse du refroidissement et de la chaleur des données
L'analyse de la chaleur et du froid consiste principalement à faire des statistiques sur l'utilisation des fiches techniques.,Par exemple::Tableau etETLProcédure、Tableau et application analytique、Relation entre le tableau et les autres tableaux, etc.,Du point de vue de la fréquence d'accès et des besoins opérationnels,Effectuer une analyse de la chaleur et du froid des données,Graphique, Afficher l'indice d'importance du tableau .
L'analyse de la chaleur et du froid des données a une grande valeur pour les utilisateurs ,Scénario d'application typique: Nous observons que certaines ressources de données sont inactives depuis longtemps , Non appelé par aucune application , Il n'y a pas d'autre programme à utiliser. ,À ce moment - là., L'utilisateur peut se référer au rapport de chaleur et de froid des données ,Combiné à une analyse manuelle,Stockage stratifié des données avec différents degrés de chaleur et de froid,Pour mieux utiliserHDFSRessources,Ou évaluer si la partie des données qui perd de la valeur est déconnectée, Pour économiser de l'espace de stockage de données .
4.Carte des actifs de données
Par le traitement des métadonnées , Peut former des applications telles que la carte des actifs de données . Les cartes des actifs de données sont généralement utilisées pour organiser l'information au niveau macro , Intégration de l'information dans une perspective globale 、Organiser, Afficher la quantité de données 、 Variation des données 、 Stockage des données 、 Qualité globale des données, etc. , Fournir des références aux gestionnaires de données et aux décideurs .
5. Autres applications de gestion des métadonnées
Il existe d'autres fonctions importantes dans la gestion des métadonnées. ,Par exemple::
Gestion du changement de métadonnées.Interrogation de l'historique des modifications apportées aux métadonnées, Comparer les versions avant et après le changement, etc .
Analyse comparative des métadonnées.Comparer des métadonnées similaires.
Analyse statistique des métadonnées.Utilisé pour compter la quantité de chaque type de métadonnées,Par exemple, le type de données,Nombre, etc.,Faciliter l'accès des utilisateurs à l'information sommaire sur les métadonnées.
Des applications comme ça ,Longueur limitée,Pas un par un.
Quatre、Résumé
Les métadonnées correspondent donc au Registre des ménages et à la carte des données , Est au cœur et à la base de la gouvernance des données .
Les métadonnées proviennent de la production de données 、Accès aux données、Traitement des données、 Services de données à toutes les étapes de l'application de données , Dans l'ensemble, il peut être divisé en trois catégories :Métadonnées techniques、Métadonnées opérationnelles et métadonnées administratives.
Après la collecte et l'entreposage des métadonnées , Peut produire une analyse de la chaleur et du froid 、 Analyse de la consanguinité 、 Analyse d'impact , Cartes des actifs de données et autres applications . La gestion des métadonnées peut rendre les données plus claires ,Plus facile à comprendre,A été retracé, Il est plus facile d'évaluer sa valeur et son impact . La gestion des métadonnées peut également grandement faciliter le partage de l'information à l'intérieur et à l'extérieur de l'Organisation. .
03 Gestion de la qualité des données pour la gouvernance des données
La théorie et la pratique de la gouvernance des données progressent constamment , Mais la gestion de la qualité des données a toujours été l'objectif initial de la gouvernance des données , Et le but le plus important . Les objectifs de la gestion de la qualité des données sont les suivants: , Causes profondes des problèmes de qualité ,Critères d'évaluation de la qualité, Processus de gestion de la qualité , Le choix et l'abandon de la gestion de la qualité sont expliqués .
Un.、 Objectifs de la gestion de la qualité des données
Gestion de la qualité des données “Quel est l'état actuel de la qualité des données?,Qui peut améliorer,Comment améliorer,Comment évaluer”La question de.
Le début de l'ère des bases de données relationnelles , Le but principal de la gouvernance des données , Pour améliorer la qualité des données , Faire un rapport 、Analyse、 Application plus précise .Aujourd'hui, Bien que la portée de la gouvernance des données se soit considérablement élargie , Commençons par la gestion des actifs de données 、Carte des connaissances、 Des concepts tels que la gouvernance automatisée des données , Mais améliorer la qualité des données , Demeure l'un des objectifs les plus importants de la gouvernance des données .
Pourquoi la question de la qualité des données est - elle si importante ?
Parce que pour que les données soient utiles , La clé réside dans la qualité de ses données , Des données de haute qualité sont à la base de toutes les applications de données .
Si une organisation analyse ses activités à partir de données de mauvaise qualité 、Prendre des décisions, Autant ne pas avoir de données. , Parce que les résultats d'une mauvaise analyse des données ont tendance à produire “ Erreur de précision ”,Pour toute organisation,Ce genre de“ Erreur de précision ” C'est un désastre. .
Selon les statistiques, Les scientifiques et les analystes des données 30% Le temps perdu pour déterminer si les données sont “Mauvaises données”Allez., Dans un environnement où la qualité des données est faible , L'analyse des données est effrayante. . Les problèmes de qualité des données visibles ont gravement affecté le fonctionnement normal des activités de l'Organisation. . Grâce à la gestion scientifique de la qualité des données , Amélioration continue de la qualité des données , Est devenu une priorité urgente au sein de l'Organisation .
2.、 Causes profondes des problèmes de qualité des données
Gestion de la qualité des données,Tout d'abord, nous devons comprendre les raisons des problèmes de qualité des données.. Il y a plusieurs raisons , Comme dans la technologie 、Gestion、 Tous les aspects du processus . Mais fondamentalement, , Une grande partie des problèmes de qualité des données se posent dans les entreprises , C'est une mauvaise gestion. . De nombreux problèmes techniques apparents ,Allez - y., C'est toujours un problème d'affaires .
L'auteur donne des conseils sur la gouvernance des données aux clients , Il a été constaté que de nombreux clients ne reconnaissent pas les causes profondes des problèmes de qualité des données. , Se limiter à résoudre les problèmes d'un point de vue technique , J'espère pouvoir résoudre les problèmes de qualité en achetant un outil , Bien sûr que non. . Après communication avec le client et analyse conjointe , La plupart des organisations reconnaissent les véritables causes des problèmes de qualité des données , Pour commencer à résoudre les problèmes de qualité des données de l'entreprise .
Résoudre les problèmes de qualité des données du point de vue opérationnel , Il est important de construire un ensemble de sciences 、 Critères d'évaluation de la qualité des données et processus de gestion réalisables .
Trois、Critères d'évaluation de la qualité des données
Quand on parle de gestion de la qualité des données , Nous devons avoir un critère d'évaluation de la qualité des données ,Avec ce critère, Pour savoir comment évaluer la qualité des données , Pour quantifier la qualité des données ,Et connaître la direction de l'amélioration, Comparer les effets améliorés .
Les normes actuelles de qualité des données reconnues dans l'industrie sont les suivantes: :
“
Précision: Indique si les données correspondent aux caractéristiques de l'entité objective correspondante .
Intégrité: Décrit si les données ont des enregistrements manquants ou des champs manquants.
Cohérence: Indique si les valeurs des mêmes attributs d'une même entité sont cohérentes dans différents systèmes .
Efficacité: Décrit si les données répondent aux critères définis par l'utilisateur ou se situent dans une plage de valeurs de champ .
Unicité: Décrire si les données sont enregistrées en double.
Délais: Décrire si les données sont produites et fournies en temps opportun.
Stabilité: Décrire si les fluctuations des données sont stables ,Est dans sa plage de validité.
Les normes de qualité des données ci - dessus ne sont que quelques règles générales. , Ces normes peuvent être élargies en fonction des données réelles et des exigences opérationnelles. , Comme la vérification des tableaux croisés, etc. .
Quatre、 Processus de gestion de la qualité des données
Améliorer la qualité des données,Besoin de données problématiques comme point d'entrée,Analyse axée sur les problèmes、Résolution、Suivi、Optimisation continue、Accumulation de connaissances,Former une boucle fermée pour une amélioration continue de la qualité des données.
Il faut d'abord trier et analyser les problèmes de qualité des données., Comprendre l'état actuel de la qualité des données ; Ensuite, choisissez la bonne solution pour différents problèmes de qualité , Développer des solutions détaillées ;Ensuite, il y a la question de la responsabilité.,Suivi de l'exécution du programme,Surveillance et inspection,Optimisation continue; Enfin, former une base de connaissances pour résoudre les problèmes de qualité des données ,Pour référence ultérieure. Les étapes ci - dessus sont itératives ,Former une boucle fermée pour la gestion de la qualité des données.
C'est évident., Gérer la qualité des données , Les outils seuls ne suffisent pas. , Doit organiser la structure 、 Participation des processus institutionnels , Rendre compte des données , Responsabilité des données .
Cinq、 Sélection et acceptation de la gestion de la qualité des données
Les entreprises aussi,Le Gouvernement aussi, Ne jamais vivre dans le vide , C'est la société qui l'entoure. . Résoudre tout problème épineux , Doit tenir compte des facteurs sociaux , Faites les bons choix .
Premier choix :Processus de gestion de la qualité des données. Le processus de gestion de la qualité des données décrit précédemment , Est un état relativement idéal , Mais au sein de différentes organisations , La force de sa mise en œuvre est différente , Exemple de responsabilité en matière de données : Il est également possible de le faire au sein de l'entreprise. , Mais c'est difficile à appliquer au Gouvernement. . Parce que le projet Big Data du Gouvernement , Unit é chef de file , Probablement sans autorisation .
J'ai rencontré ce genre de problème, On ne peut que faire des détours , Essayez de compenser les effets négatifs de l'absence d'un lien , Par exemple, travailler avec les fournisseurs de données pour établir des règles de nettoyage des données , Nettoyage des données sources , Essayez de respecter les normes disponibles .
Deuxième choix : Les données de différentes dimensions temporelles sont traitées différemment . De la dimension temporelle , Il existe trois grandes catégories de données: :Données futures、Données actuelles、Données historiques. Dans la résolution de différents types de problèmes de qualité des données , Il faut réfléchir aux compromis. ,Adopter une approche différente.
1.Données historiques
Quand vous prenez un tas de données historiques , Demandez à la personne responsable du système d'information de vous corriger. , D'habitude, ils ne te regardent pas. ,Peut - être avec“ Les problèmes de données actuels ne peuvent pas être résolus , Quand avez - vous le temps de traiter les données historiques? ”Pourquoi?, À des milliers de kilomètres de toi. . À ce stade, même si vous cherchez la coordination des dirigeants , En général, ça ne marche pas trop , Parce que c'est la réalité. : Les données historiques d'une organisation s'accumulent généralement au fil des ans. , C'est déjà une énorme échelle , C'est difficile à gérer. .
Il n'y a pas de meilleur moyen ?—— Traitement des données historiques , Nous pouvons utiliser les avantages des techniciens , Résoudre avec le nettoyage des données , Pour ceux qui ne peuvent vraiment pas être nettoyés , Nous voulons que les décideurs jugent le rapport entre les intrants et les extrants , Le résultat est souvent d'accepter le statu quo .
D'un autre point de vue: La fraîcheur des données varie , Leur valeur est souvent différente .En général, Plus les données historiques sont anciennes , Plus sa valeur est faible .Alors..., Nous ne devrions pas mettre l'accent sur l'amélioration de la qualité des données historiques. , Il faudrait plutôt se concentrer davantage sur les données actuelles et futures. .
2.Données actuelles
Problèmes avec les données actuelles , Les problèmes doivent être triés et identifiés à partir de ce que nous avons dit au chapitre 4 ci - dessus. ,Analyse des problèmes,Résoudre le problème, Responsabilité en cas de problème 、 Suivi et évaluation , Le processus de gestion doit être strictement suivi , Éviter le flux continu de données sales vers l'analyse des données et l'application .
3.Données futures
Gérer les données futures , Assurez - vous de commencer par la planification des données , Du point de vue de l'informatisation de l'ensemble de l'Organisation , Planifier une architecture de données unifiée pour l'Organisation , Élaboration de normes harmonisées en matière de données . Nouveau système d'emprunt 、 Le moment de la transformation ou de la reconstruction , Créer un modèle physique 、Construction de montres、ETLDéveloppement、Services de données、 L'utilisation des données et d'autres liens doivent être conformes à des normes de données uniformes. , Améliorer fondamentalement la qualité des données . C'est aussi l'idéal. 、 Le meilleur modèle de gestion de la qualité des données .
Voilà., En traitant les données de différentes périodes , La prévention préalable peut être réalisée 、Surveillance en cours、 Amélioration après coup , Résoudre fondamentalement le problème de la qualité des données .
Résumé
Améliorer la qualité des données, Est l'un des objectifs les plus importants de la gouvernance des données .Gestion de la qualité des données, Tout d'abord, il faut comprendre que la cause profonde des problèmes de qualité des données est en grande partie un problème de gestion des affaires. .
Deuxièmement,, Selon la structure organisationnelle , Établir un ensemble de critères d'évaluation de la qualité des données et un processus de gestion de la qualité des données .
Enfin, Dans le processus de gestion de la qualité des données , Nous devons tenir pleinement compte de la situation actuelle. , Données historiques 、Données actuelles、 Différentes stratégies de traitement des données seront élaborées à l'avenir. .
04 Gestion des normes de données pour la gouvernance des données
Un.、 Système standard de Big Data
Le système de normes Big Data élaboré par le Groupe de travail sur les normes Big Data du Comité national de normalisation des technologies de l'information , Le cadre du système standard pour les mégadonnées comprend sept catégories de normes ,Respectivement::Normes de base、Normes relatives aux données、Normes techniques、Normes relatives aux plates - formes et aux outils、Normes de gestion、 Normes de sécurité et de confidentialité 、 Normes d'application de l'industrie . Cet article traite principalement de la deuxième catégorie :Normes relatives aux données.
2.、 Quelques idées fausses sur la compréhension des normes de données
Le terme standard de données , D'abord dans le secteur financier. , En particulier dans le secteur bancaire . La normalisation des données a toujours été un élément essentiel de la gouvernance des données. . Mais pour les normes de données , Différentes personnes ont des points de vue différents :
Les normes de données sont considérées comme extrêmement importantes , Tant que les normes de données sont établies , Tous les travaux liés aux données sont effectués conformément à la norme. , La plupart des objectifs de la gouvernance des données sont atteints .
D'autres pensent que les normes de données sont peu utiles , J'ai fait beaucoup de toilettage. , Un ensemble complet de normes a été construit , Ce n'est pas fini. ,Oublié, Ça n'a pas fait grand - chose. .
Tout d'abord, faites ressortir le point de vue de l'auteur. : Ni l'un ni l'autre n'est juste. , Du moins partial. .En fait,, Le travail de normalisation des données est complexe , Très vaste ,Systématique, Travail à long terme . Ça ne marche pas très vite , Résoudre rapidement la plupart des problèmes de gouvernance des données , Et ce n'est certainement pas totalement inutile , Il ne reste plus qu'un tas de documents. —— Si c'est ce qui s'est passé avec les normes de données, , Ça veut juste dire que le travail n'est pas fait correctement. , Pas vraiment. . Le but principal de cet article est de , C'est l'analyse de la raison pour laquelle cela se produit ,Et comment y faire face. La première chose à faire est de clarifier la définition des normes de données .
Trois、 Définition des normes de données
Qu'est - ce qu'une norme de données , Il n'y a pas d'uniformité entre les organisations concernées , Définitions acceptées par toutes les parties . Combiné à l'élaboration de normes de données par chaque pays , Du point de vue de la gouvernance des données , J'ai essayé de définir une norme de données :La norme de données est l'expression des données、Accord sur le format et les définitions,Inclure les propriétés de l'entreprise de données、Définition uniforme des attributs techniques et administratifs; Objet de la norme de données , Il s'agit d'harmoniser les données utilisées et échangées à l'intérieur et à l'extérieur de l'Organisation. ,Exact..
Quatre、 Comment établir des normes de données
En général,Pour le Gouvernement, Mesures standard de gestion des données publiées par les autorités nationales ou locales , Il détaillera les normes de données pertinentes . C'est pourquoi il s'agit principalement de la façon dont les entreprises établissent des normes de données. .
Les sources de données standard pour les entreprises sont très riches , Exigences réglementaires externes , Normes générales de l'industrie , Il faut également tenir compte de la situation réelle des données au sein de l'entreprise. , Trier les indicateurs commerciaux 、Éléments de données、Code, etc., Il n'est pas nécessaire d'inclure toutes les sources ci - dessus dans les normes de données. , La portée des normes de données devrait se concentrer sur la partie la plus importante des données de l'entreprise. , Certaines entreprises sont également appelées données commerciales essentielles ou données de base. , Il suffit d'établir des critères pour ces données de base , Pour soutenir la qualité des données de l'entreprise 、Gestion des données de base、 Analyse des données, etc. .
Cinq、 Le défi de la normalisation des données
Les normes de données sont bien établies , Mais les normes de données sont beaucoup plus difficiles à mettre en place . La normalisation des données au pays s'est développée au fil des ans ,Divers secteurs, Les organisations élaborent leurs propres normes de données , Mais vous avez rarement entendu parler d'une organisation qui fait la promotion de ses normes de données. ,En d'autres termes,, Il n'y a pas beaucoup de cas où les normes de données ont donné des résultats significatifs .Pourquoi cela se produit - il?,Il y a deux raisons principales:
Premièrement, les normes de données elles - mêmes sont problématiques..Certaines normes poursuivent aveuglément le progrès, Alignement sur les leaders de l'industrie ,Standard large et complet,Déconnecter des données réelles,Ce qui rend l'atterrissage difficile.
Deuxième raison, C'est un problème de normalisation. . C'est pourquoi nous nous concentrons sur ,Les principales conditions sont les suivantes::
L'objet de la norme de données de construction n'est pas clair. Certaines normes de données sur la construction organisationnelle , L'objectif n'est pas de guider la construction du système d'information ,Améliorer la qualité des données, Faciliter le traitement et l'échange des données , Il s'agit d'un contrôle réglementaire. , Ce qu'il faut, c'est une pile de documents standard et institutionnels. , Il n'y a pas de plan d'exécution. .
Dépendance excessive à l'égard des consultants. Certaines organisations n & apos; ont pas les moyens de mettre en place des normes en matière de données. , Demandez donc à un consultant d'aider à la planification et à l'exécution . Une fois que le consultant a quitté , L & apos; organisation n & apos; a toujours pas les moyens et les conditions nécessaires pour appliquer ces normes. .
Sous - estimation de la difficulté de normaliser les données. Beaucoup d'entreprises sont venues et ont dit qu'elles devaient faire des normes de données , Mais ne sachant pas que la gamme des normes de données est vaste , C'est dur de finir un projet comme ça , Il s'agit d'un processus à long terme qui se poursuit , Le résultat est que plus le client fait, plus la résistance est grande ,Plus c'est difficile, Je n'ai plus confiance en moi. , Au lieu de cela, il a mis en place une pile de réalisations , C'est le problème le plus courant. .
Manque de planification des systèmes et des processus d'atterrissage. Mise à la terre des normes de données , Nécessite plusieurs systèmes 、 La coopération du Département ne peut être achevée que . Si seulement les critères de données sont triés , Mais il n'y a pas de plan pour atterrir. ,Manque de technologie、Secteur d'activité、 Soutien des développeurs de systèmes , En particulier, le manque de soutien des dirigeants , C'est impossible. .
Insuffisance du niveau de gestion de l'Organisation : Long Term of data standard Landing 、Complexité、 Caractéristiques systématiques , La capacité de gestion de l'Organisation qui détermine l'atterrissage doit être maintenue à un niveau élevé , Et l'architecture doit rester stable , Pour continuer à avancer dans l'ordre . Ces raisons , Ce qui rend difficile la normalisation des données , Plus difficile d'obtenir de meilleurs résultats . Normalisation des données , Est la situation actuelle de l'industrie de la gouvernance des données , C'est inévitable. .
Six、 Comment faire face à ces défis
Relever ces défis ,Le plus économique、 Le modèle idéal, bien sûr, : Construire des mégadonnées , Commençons par les normes. , Encore une fois, la plate - forme Big Data ,Entrepôt de données, etc. Mais en général, il est peu probable qu'il y ait une telle reconnaissance , La plupart du temps, tout le monde construit avant de gouverner . Mettez d'abord le système d'information 、 Centre de données construit , Puis il y a un problème avec les normes ,Mauvaise qualité, Reconstruire la norme de données , Mais en fait, c'est le moment de revenir en arrière et de faire quelque chose de plus dur. , Une partie de l'investissement du client doit être gaspillée .
Parce qu'il est trop idéalisé. , Donc ce schéma est à peine visible .Dans la pratique, Nous devons souvent réfléchir davantage à la façon d'intégrer les normes de données dans les systèmes et les plateformes de Big Data existants. .
Il existe trois formes d'atterrissage standard des données :
Transformation du système source : La modification du système source est le moyen le plus direct d'établir la norme de données. , Aide à contrôler la qualité des données futures , Mais la charge de travail et la difficulté sont élevées , Ce n'est pas souvent le cas en réalité. , Par exemple, il y a un numéro de client dans ce champ , Impliquant plusieurs systèmes ,Fan Weiguang、Importance élevée、Grande influence, Une fois le champ modifié , Tous les systèmes concernés devront être modifiés . Mais ce n'est pas totalement impossible. , Peut emprunter la transformation du système , Une chance de revenir en ligne , Alignement partiel des données du système source concerné .
Atterrissage du Centre de données : Construction d'un centre de données conformément aux exigences des normes de données (Ou entrepôt de données), Les données du système source sont cartographiées au centre de données , S'assurer que les données transférées au centre de données sont normalisées . Cette approche est plus réalisable , Est le choix de la grande majorité des organisations .
Normalisation des interfaces de données : Modification de l'interface de transmission de données entre les systèmes existants , Quand les données sont transmises entre les systèmes , Tous selon les normes de données . C'est aussi une approche viable .
Lors de l'atterrissage de la norme de données ,Ça doit être fait.6Une chose.,Comme le montre la figure ci - dessous:
Déterminer à l'avance la portée de l'atterrissage : Quelles normes de données doivent être mises à la terre , Ce qui est impliqué ITSystème, Il faut y réfléchir. .
Effectuer une analyse des écarts à l'avance : Entre les données existantes et les normes de données , Quelles sont les différences? , Quelle est la différence , Analyse des différences .
Analyse d'impact préalable : Si ces normes de données sont appliquées , Quel sera l'impact sur la salle de jeux? , Ces effets sont - ils contrôlables? . L'analyse d'impact dans la gestion des métadonnées peut aider les utilisateurs à déterminer l'ampleur de l'impact. .
Élaboration d'un plan d'exécution pour l'atterrissage :Le programme de mise en œuvre devrait être axé sur la disponibilité au sol.. Plan sans atterrissage , Il ne peut être abandonné qu'en fin de compte . Un plan d'atterrissage , Il faut une structure organisationnelle et une division du personnel ,Qu'est - ce que tout le monde est responsable?,Comment évaluer,Comment réglementer, Tout ce qui doit être intégré dans le programme de mise en œuvre .
Mise en oeuvre concrète du Programme d'atterrissage : Conformément au programme de mise en œuvre , Mise en œuvre de la norme de données .
Évaluation ex post: Suivi après coup 、 Évaluer l'effet de l'atterrissage des données , Ce qui est bien fait , Ce qui n'est pas fait assez ,Comment améliorer.
Sept、Résumé
La construction d'une norme de données peut être divisée en deux étapes. :
1、 Trier et élaborer des normes de données .
2、 Mise en place et application de normes de données .
Ce dernier est un problème reconnu . Cet article analyse les raisons , Fournit des façons de rendre les normes de données plus rapides et plus efficaces .
Source du contenu:Data School;Source de cet article:CDOLa maison
(En cas d'infraction, veuillez contacter le rédacteur en chef pour supprimer,Merci beaucoup.)
边栏推荐
- Common problems of caching in high concurrency scenarios
- POI导出Excel:设置字体、颜色、行高自适应、列宽自适应、锁住单元格、合并单元格...
- Abnova 膜蛋白脂蛋白体技术及类别展示
- 隐马尔科夫模型(HMM)学习笔记
- Matlab / envi principal component analysis implementation and result analysis
- RuntimeError: CUDA error: CUBLAS_STATUS_ALLOC_FAILED when calling `cublasCreate(handle)`问题解决
- MySQL (x)
- 快速定量,Abbkine 蛋白质定量试剂盒BCA法来了!
- Leite smart home longhaiqi: from professional dimming to full house intelligence, 20 years of focus on professional achievements
- Shared memory for interprocess communication
猜你喜欢
Ant manor safety helmet 7.8 ant manor answer
如何给目标机器人建模并仿真【数学/控制意义】
RuntimeError: CUDA error: CUBLAS_STATUS_ALLOC_FAILED when calling `cublasCreate(handle)`问题解决
string(讲解)
ICML 2022 | 探索语言模型的最佳架构和训练方法
港科大&MSRA新研究:关于图像到图像转换,Fine-tuning is all you need
博士申请 | 上海交通大学自然科学研究院洪亮教授招收深度学习方向博士生
Common problems of caching in high concurrency scenarios
Shared memory for interprocess communication
MySQL installation
随机推荐
Abnova 膜蛋白脂蛋白体技术及类别展示
impdp的transform参数的测试
程序员的日常 | 每日趣闻
Problems and precautions about using data pumps (expdp, impdp) to export and import large capacity tables in Oracle migration
MATLAB小技巧(29)多项式拟合 plotfit
LM11丨重构K线构建择时交易策略
Symmetric binary tree [tree traversal]
Tkinter window selects PCD file and displays point cloud (open3d)
企業如何進行數據治理?分享數據治理4個方面的經驗總結
学术报告系列(六) - Autonomous Driving on the journey to full autonomy
matlab / ENVI 主成分分析实现及结果分析
如何解决数据库插入数据显示SQLSTATE[HY000]: General error: 1364 Field ‘xxxxx‘ doesn‘t have a default value错误
反射(二)
Unable to debug screen program with serial port
Wechat applet hides the progress bar component of the video tag
Programmers' daily | daily anecdotes
MySQL installation
The difference between string constants and string objects when allocating memory
隐马尔科夫模型(HMM)学习笔记
Postgresql中procedure支持事务语法(实例&分析)