Création de classificateurs à l'aide de la console AWS Glue - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création de classificateurs à l'aide de la console AWS Glue

Un classifieur détermine le schéma de vos données. Vous pouvez écrire un classifieur personnalisé et pointer dessus à partir d' AWS Glue.

Création de classifieurs

Pour ajouter un classifieur dans la console AWS Glue, choisissez Add classifier (Ajouter un classifieur). Lorsque vous définissez un classifieur, vous fournissez des valeurs pour les éléments suivants :

  • Classifier name (Nom du classifieur) – indiquez un nom unique pour votre classifieur.

  • Classifier type (Type de classifieur) – type de classification des tables déduites par ce classifieur.

  • Last updated (Dernière mise à jour) – heure de la dernière mise à jour de ce classifieur.

Nom du classifieur

Indiquez un nom unique pour votre classifieur.

Type de classifieur

Choisissez le type de classifieur à créer.

Selon le type de classificateur que vous choisissez, configurez les propriétés suivantes pour votre classificateur :

Grok
  • Classement

    Décrivez le format ou le type des données classées ou fournissez une étiquette personnalisée.

  • Modèle grok

    Cela est utilisé pour analyser vos données dans un schéma structuré. Le modèle grok se compose de schémas nommés qui décrivent le format de votre magasin de données. Vous écrivez ce modèle grok à l'aide des modèles intégrés nommés fournis par AWS Glue et des modèles personnalisés que vous avez écrits et inclus dans le champ Modèles personnalisés. Même si les résultats du débogueur grok peuvent ne pas correspondre exactement à ceux d'AWS Glue, nous vous suggérons d'essayer votre modèle en utilisant des exemples de données avec un débogueur grok. Vous pouvez trouver des débogueurs grok sur le Web. Les modèles intégrés nommés fournis par AWS Glue sont généralement compatibles avec les modèles grok disponibles sur le Web.

    Créez votre modèle grok en ajoutant de manière itérative des modèles nommés et vérifiez vos résultats dans un débogueur. Cela permet de vous assurer que vos données peuvent être analysées lorsque l'crawler AWS Glue exécute votre modèle grok.

  • Modèles personnalisés

    Pour les classifieurs grok, il s'agit de blocs de construction facultatifs pour le Grok pattern (Modèle grok) que vous écrivez. Lorsque les modèles intégrés ne peuvent pas analyser vos données, vous pouvez avoir besoin d'écrire un modèle personnalisé. Ces modèles personnalisés sont définis dans ce champ et référencés dans le champ Grok pattern (Modèle grok). Chaque modèle personnalisé est défini sur une ligne distincte. À l'image d'un modèle intégré, il se compose d'une définition de modèle nommé qui utilise une syntaxe d'expression régulière (regex).

    L'exemple suivant utilise le nom MESSAGEPREFIX, suivi d'une définition d'expression régulière à appliquer à vos données afin de déterminer si elles suivent le modèle.

    MESSAGEPREFIX .*-.*-.*-.*-.*
XML
  • Balise de ligne

    Pour les classifieurs XML, il s'agit du nom de la balise XML qui définit une ligne de table dans le document XML. Tapez le nom sans crochets < >. Ce nom doit respecter les règles XML relatives aux balises.

    Pour de plus amples informations, veuillez consulter Écriture de classifieurs XML personnalisés.

JSON
  • Chemin JSON

    Pour les classifieurs JSON, il s'agit du chemin d'accès JSON à l'objet, au tableau ou à la valeur qui définit une ligne de la table en cours de création. Tapez le nom en utilisant les opérateurs pris en charge par AWS Glue. Veillez à respecter la syntaxe JSON d'accolades ou de points.

    Pour en savoir plus, consultez la liste des opérateurs dans Écriture de classifieurs JSON personnalisés.

CSV
  • Délimiteur de colonne

    Caractère ou symbole unique pour indiquer ce qui sépare chaque entrée de colonne dans la ligne. Choisissez le délimiteur dans la liste ou sélectionnez Other pour saisir un délimiteur personnalisé.

  • Symbole de guillemets

    Caractère ou symbole unique pour indiquer ce qui combine le contenu en une seule valeur de colonne. Doit être différent du délimiteur de colonne. Choisissez le symbole de guillemet dans la liste ou sélectionnez Other pour saisir un caractère de guillemet personnalisé.

  • En-têtes de colonnes

    Indique le comportement à suivre pour détecter les en-têtes de colonnes dans le fichier CSV. Vous pouvez choisir Has headings, No headings ou Detect headings. Si votre fichier CSV personnalisé a des en-têtes de colonnes, entrez une liste séparée par des virgules de ces en-têtes de colonnes.

  • Autoriser les fichiers avec une seule colonne

    Pour être classé comme CSV, les données doivent avoir au moins deux colonnes et deux lignes de données. Utilisez cette option pour autoriser le traitement des fichiers qui ne contiennent qu'une seule colonne.

  • Supprimer les espaces avant d'identifier les valeurs de colonne

    Cette option spécifie s'il convient de couper les valeurs avant d'identifier le type des valeurs de colonne.

  • Type de données personnalisé

    (Facultatif) – Saisissez des types de données personnalisés dans une liste délimitée par des virgules. Les types de données pris en charge sont les suivants : « BINARY », « BOOLEAN », « DATE », « DECIMAL », « DOUBLE », « FLOAT », « INT », « LONG », « SHORT », « STRING », « TIMESTAMP ».

  • SerDe CSV

    (Facultatif) - A SerDe pour le traitement du CSV dans le classificateur, qui sera appliqué dans le catalogue de données. Choisissez Open CSV SerDe, Lazy Simple SerDe ou None. Vous pouvez spécifier la valeur None lorsque vous souhaitez que le Crawler effectue la détection.

Pour de plus amples informations, veuillez consulter Rédaction de classificateurs personnalisés pour divers formats de données.

Affichage des classifieurs

Pour afficher la liste de tous les classifieurs que vous avez créés, ouvrez la console AWS Glue à l'adresse https://console.aws.amazon.com/glue/ et choisissez l'onglet Classifieurs.

La liste affiche les propriétés suivantes sur chaque classifieur :

  • Classifier (Classifieurs) – nom du classifieur. Lorsque vous créez un classifieur, vous devez indiquer un nom pour celui-ci.

  • Classification – type de classification des tables déduites par ce classifieur.

  • Last updated (Dernière mise à jour) – heure de la dernière mise à jour de ce classifieur.

Gestion des classifieurs

À partir de la liste Classifieurs de la console AWS Glue, vous pouvez ajouter, modifier ou supprimer des classifieurs. Pour afficher plus de détails sur un classifieur, choisissez le nom du classifieur dans la liste. Les détails incluent les informations que vous avez définies lors de la création du classifieur.