Générateur de règles de qualité des données - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Générateur de règles de qualité des données

Avec le générateur de règles DQDL (Data Quality Definition Language), vous pouvez créer des règles de qualité pour évaluer vos données. Commencez par sélectionner un type de règle, puis spécifiez les paramètres dans l'éditeur de règles. L'éditeur de règles affiche également les erreurs et les avertissements éventuels lors de la création de règles.

Le guide DQDL documente de manière exhaustive la création de règles à l'aide de la syntaxe DQDL, les types de règles intégrées et des exemples.

Nœud Évaluer la qualité des données

En utilisant le nœud de transformation Évaluer la qualité des données et le générateur de règles DQDL, vous pouvez étendre l'espace de travail.

  • Pour afficher l'onglet Transformer en mode plein écran, cliquez sur l'icône d'expansion dans le coin supérieur droit du panneau de détails du nœud.

  • Pour développer l'éditeur de règles DQDL, cliquez sur l'icône << pour développer l'éditeur de règles et réduire les onglets Types de règles et Schéma.

    La capture d'écran montre un diagramme de tâche avec le nœud Évaluation de la qualité des données.

Composants

26 types de règles sont intégrés à AWS Glue Studio. Chaque type de règle est associé à une description et à des exemples d'utilisation.

Types de règles de qualité des données

AWS Glue Studio fournit des types de règles intégrés qui facilitent la création de règles. Pour plus d'informations sur les types de règles, consultez la Référence du type de règle DQDL.

Schema

L'onglet Schema (Schéma) affiche les noms des colonnes et le type de données du nœud parent. Les schémas de plusieurs nœuds sont affichés. Vous pouvez consulter le schéma d'entrée, effectuer une recherche par nom de colonne et insérer la colonne dans l'éditeur de règles.

La capture d'écran illustre l'éditeur de règles avec une règle complète qui utilise le type de règle Exhaustivité.

Éditeur de règles

L'éditeur de règles est un éditeur de texte permettant d'écrire et de modifier des règles. Si vous sélectionnez un type de règle dans le générateur de règles DQDL, il est ajouté à l'éditeur de règles. Vous pouvez ensuite spécifier des paramètres, ajouter des règles ou en modifier selon vos besoins en modifiant le texte. AWS Glue Studio valide les règles dans l'éditeur de règles et affiche les erreurs et les avertissements, le cas échéant.

Erreurs et avertissements

Si une règle n'est pas conforme à la syntaxe des règles DQDL, l'éditeur de règles affiche plusieurs indicateurs d'erreur visuels :

  • L'éditeur de règles affiche une icône d'erreur de couleur rouge sur la ligne contenant l'erreur.

  • L'éditeur de règles affiche le nombre d'erreurs à côté de l'icône d'erreur rouge.

  • Lorsque vous cliquez sur la ligne contenant l'erreur, des descriptions et l'emplacement de l'erreur (ligne et colonne) s'affichent en bas de l'éditeur de règles.

La capture d'écran illustre l'éditeur de règles DQDL avec des indicateurs d'erreur sur la ligne 1 et le nombre d'erreurs au bas de l'éditeur de règles. La description de l'erreur se trouve ci-dessous.

Actions relatives à la qualité des données

Par défaut, cette action n'est pas sélectionnée et la tâche s'exécute même si les règles de qualité des données ne sont pas respectées.

Choisissez l'une des actions suivantes. Vous pouvez utiliser des actions pour publier des résultats sur CloudWatch ou interrompre des tâches en fonction de critères spécifiques. Les actions sont disponibles uniquement lorsqu'une règle est créée.

  • Publication de résultats sur CloudWatch : lorsque vous exécutez une tâche, ajoutez les résultats sur CloudWatch.

  • Échec d'une tâche en cas de problème de qualité des données : si les règles de qualité des données ne sont pas respectées, la tâche échoue.

Sortie de transformation de la qualité des données

  • Données d'origine : permet de fournir les données d'entrée d'origine. Cette option est particulièrement utile pour interrompre la tâche en cas de détection de problèmes de qualité.

  • Métriques de qualité des données : permet de générer les règles configurées et leur état de réussite ou d'échec. Cette option est utile si vous souhaitez effectuer une action personnalisée.

Paramètres de sortie de qualité des données

Définissez l'emplacement des résultats relatifs à la qualité des données en spécifiant l'emplacement Amazon S3 comme cible de sortie.