Configuration de la détection des anomalies et génération d’informations - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Configuration de la détection des anomalies et génération d’informations

La Qualité des données d’AWS Glue évalue vos données en fonction des règles de qualité des données que vous écrivez et fournit des informations et des observations sur vos données au fil du temps afin que vous puissiez prendre des mesures immédiates. Étant donné que DQ analyse vos données, DQ calcule des métriques statistiques telles que le nombre de lignes, le maximum ou le minimum, puis les compare à des expressions de seuil.

Parmi les avantages de la détection des anomalies dans Qualité des données, citons :

  • analyse automatique et continue des données

  • détection d’anomalies pouvant indiquer un événement imprévu ou une anomalie statistique

  • proposition de recommandations de règles pour prendre des mesures sur les observations trouvées par la détection des anomalies dans Qualité des données

Cela est utile si vous :

  • souhaitez détecter automatiquement les anomalies dans vos données, sans avoir à écrire de règles de qualité des données

  • souhaitez établir le profil de vos données et obtenir des représentations visuelles de ces données

  • souhaitez suivre l’évolution de vos données au fil du temps

Quelles observations puis-je consulter à propos de mes données ?

DQ identifie les valeurs aberrantes dans les statistiques de données rassemblées, les modifications des formats de données, les dérives des données et les modifications de schéma. Sur la base de ces observations, la Qualité des données propose des règles de qualité de données que les utilisateurs peuvent facilement mettre en œuvre. Les statistiques incluent l'exhaustivité, l'unicité, la moyenne, la somme StandardDeviation DistinctValuesCount, l'entropie et. UniqueValueRatio

Activation de la détection des anomalies dans AWS Glue Studio

Pour activer la détection des anomalies, vous pouvez ouvrir une tâche AWS Glue Studio et sélectionner l’option « Activer la détection des anomalies ». L’activation de cette option permet la détection d’anomalies dans vos données en analysant celles-ci au fil du temps et en fournissant des statistiques et observations sur vos données sur lesquelles vous pouvez agir.

Pour activer la détection d’anomalies dans AWS Glue Studio :
  1. Choisissez le nœud Qualité des données dans votre tâche, puis cliquez sur l’onglet Détection des anomalies. Sélectionnez l’option « Activer la détection des anomalies ».

    La capture d’écran montre la sélection de l’option « Activer la détection des anomalies ».
  2. Définissez les données à surveiller pour détecter les anomalies en choisissant Ajouter un analyseur. Vous pouvez remplir deux champs : statistiques et sonnées.

    Les statistiques sont des informations sur la forme et les autres propriétés de vos données. Vous pouvez sélectionner une ou plusieurs statistiques à la fois ou sélectionner Toutes les statistiques. Les statistiques incluent : exhaustivité, unicité, moyenne, somme StandardDeviation, entropie et DistinctValuesCount. UniqueValueRatio

    Les données sont les colonnes de votre jeu de données. Vous pouvez choisir toutes les colonnes ou des colonnes individuelles.

    La capture d’écran montre les champs pour les statistiques et les données. Vous avez la possibilité de sélectionner les statistiques à appliquer à votre jeu de données et les colonnes concernées.
  3. Choisissez Ajouter une zone de détection d’anomalies pour enregistrer vos modifications. Lorsque vous avez créé des analyseurs, vous pouvez les consulter dans la section Portée de la détection d’anomalies.

    Vous pouvez également utiliser le menu Actions pour modifier vos analyseurs, ou choisir l’onglet Éditeur de jeu de règles et modifier l’analyseur directement dans le bloc-notes de l’éditeur de jeu de règles. Vous verrez les analyseurs que vous avez enregistrés juste en dessous de toutes les règles que vous avez créées.

    Rules = [ ] Analyzers = [ Completeness “id” ]

    Avec le jeu de règles mis à jour et les analyseurs, la Qualité des données surveille en permanence les données entrantes, signalant les anomalies par des alertes ou des arrêts de tâches en fonction de vos paramètres.

Note

Les observations sont générées lorsqu’un minimum de trois valeurs par statistique de données sont observées dans votre jeu de données. Si aucune observation n’est visible, cela signifie que la Qualité des données ne dispose pas de suffisamment de données pour générer une observation. Après plusieurs exécutions de tâches, la Qualité des données peut fournir des informations sur vos données et les afficher dans la section Observations.

Les analyseurs génèrent des observations en détectant des anomalies dans vos données et vous fournissent des recommandations pour créer progressivement des règles. Vous pouvez afficher les observations en choisissant l’onglet Qualité des données. Les observations sont spécifiques à chaque exécution de tâche. Vous pouvez consulter le nœud de Qualité des données spécifique et l’exécution de tâche en haut de la section Observations. Choisissez un nouveau nœud ou une nouvelle exécution de tâche pour consulter les observations spécifiques à ce nœud et à cette tâche.

La capture d’écran montre l’onglet Qualité des données pour une tâche et les observations présentées pour l’exécution de la tâche.

Observation : chaque information est basée sur une exécution de tâche spécifique configurée par les jeux de règles et les analyseurs que vous avez spécifiés.

Métriques associées : lorsque des observations sont générées, la colonne Métriques associées indique la règle et les valeurs réelles et attendues, ainsi que les limites inférieures et supérieures.

Recommandations de règles : AWS Glue recommande également des règles pour résoudre ce problème. Chaque règle recommandée peut être copiée en cliquant sur l’icône de copie. Vous pouvez copier toutes les règles recommandées en cliquant sur l’icône de copie à côté de chaque règle, puis sur Appliquer les règles copiées.

Données surveillées : la colonne Données surveillées indique la colonne ou la ligne qui a été surveillée et qui a déclenché l’observation.

Une fois qu’une observation a été générée et qu’une règle recommandée a été fournie, vous pouvez appliquer cette règle à votre nœud de Qualité des données. Pour cela :

  1. Cliquez sur l’icône de copie à côté de chaque recommandation de règle. Cela ajoutera la recommandation de règle à un bloc-notes que vous pourrez récupérer ultérieurement.

  2. Cliquez sur Appliquer les recommandations de règles. Cela ouvre le bloc-notes dans lequel vous pouvez consulter les règles que vous avez précédemment copiées.

  3. Choisissez Copier le jeu de règles.

  4. Choisissez Appliquer à l’éditeur de jeu de règles. Cela ouvre l’éditeur de jeu de règles dans lequel vous pouvez coller les règles copiées.

  5. Collez les règles copiées dans l’éditeur de jeu de règles.