Quand dois-je utiliser un classifieur ?Classifieurs personnalisés Classificateurs intégrés

Définition et gestion des classificateurs

Un classifieur lit les données d'un magasin de données. S'il reconnaît le format des données, il génère un schéma. Le classifieur renvoie également un pourcentage de certitude pour indiquer jusqu'à quel degré la reconnaissance du format était certaine.

AWS Glue fournit un ensemble de classificateurs intégrés, mais vous pouvez également créer des classificateurs personnalisés. AWS Glue invoque d'abord les classificateurs personnalisés, dans l'ordre que vous spécifiez dans la définition de votre robot d'exploration. En fonction des résultats renvoyés par les classificateurs personnalisés, AWS Glue peut également invoquer des classificateurs intégrés. Si un classificateur revient certainty=1.0 pendant le traitement, cela indique qu'il est certain à 100 % qu'il peut créer le schéma correct. AWS Glue utilise ensuite la sortie de ce classificateur.

Si aucun classificateur ne revientcertainty=1.0, AWS Glue utilise la sortie du classificateur qui présente la plus grande certitude. Si aucun classificateur ne renvoie une certitude supérieure 0.0 à, AWS Glue renvoie la chaîne de classification par défaut deUNKNOWN.

Quand dois-je utiliser un classifieur ?

Vous utilisez les classifieurs lorsque vous analysez un magasin de données pour définir les tables de métadonnées dans l' AWS Glue Data Catalog. Vous pouvez configurer votre crawler avec un ensemble ordonné de classifieurs. Lorsque l'crawler appelle un classifieur, le classifieur détermine si les données sont reconnues. Si le classificateur ne peut pas reconnaître les données ou n'est pas certain à 100 %, l'crawler appelle le prochain classificateur de la liste pour déterminer s'il peut reconnaître les données.

Pour plus d'informations sur la création d'un classificateur à l'aide du AWS Glue console, voirCréation de classificateurs à l'aide du AWS Glue console.

Classifieurs personnalisés

La sortie d'un classifieur comprend une chaîne qui indique la classification du fichier ou le format (par exemple, json) et le schéma du fichier. Pour les classifieurs personnalisés, vous définissez la logique de création du schéma en fonction du type de classifieur. Les types de classifieur incluent la définition de schémas basés sur les modèles grok, les balises XML et les chemins d'accès JSON.

Si vous modifiez une définition de classifieur, toutes les données précédemment analysées à l'aide du classifieur ne sont pas reclassées. Un crawler garde trace des données précédemment analysées. Les nouvelles données sont classées avec le classifieur mis à jour, ce qui peut entraîner une mise à jour du schéma. Si le schéma de vos données a évolué, mettez à jour le classifieur pour prendre en compte les modifications de schéma lorsque votre crawler s'exécute. Pour reclasser les données et corriger un classificateur incorrect, créez un nouvel crawler avec le classificateur mis à jour.

Pour plus d'informations sur la création de classificateurs personnalisés dans AWS Glue, voir Rédaction de classificateurs personnalisés pour divers formats de données.

Note

Si votre format de données est reconnu par l'un des classifieurs intégrés, vous n'avez pas besoin de créer un classifieur personnalisé.

Classificateurs intégrés

AWS Glue fournit des classificateurs intégrés pour différents formats, notamment JSON, CSV, les journaux Web et de nombreux systèmes de base de données.

If AWS Glue ne trouve pas de classificateur personnalisé qui correspond au format des données d'entrée avec une certitude absolue, il invoque les classificateurs intégrés dans l'ordre indiqué dans le tableau suivant. Les classifieurs intégrés renvoient un résultat pour indiquer si le format correspond à (certainty=1.0) ou ne correspond à (certainty=0.0). Le premier classifieur qui a certainty=1.0 fournit la chaîne de classification et le schéma pour une table de métadonnées de votre Data Catalog.

Type de classifieur	Chaîne de classification	Remarques
Apache Avro	`avro`	Lit le schéma au début du fichier pour déterminer le format.
Apache ORC	`orc`	Lit les métadonnées du fichier pour déterminer le format.
Apache Parquet	`parquet`	Lit le schéma à la fin du fichier pour déterminer le format.
JSON	`json`	Lit le début du fichier pour déterminer le format.
Binaire JSON	`bson`	Lit le début du fichier pour déterminer le format.
xml	`xml`	Lit le début du fichier pour déterminer le format. AWS Glue détermine le schéma du tableau en fonction des balises XML du document. Pour plus d'informations sur la création d'un classifieur XML personnalisé pour spécifier les lignes du document, reportez-vous à la section Écriture de classifieurs XML personnalisés.
Amazon Ion	`ion`	Lit le début du fichier pour déterminer le format.
Journal Apache combiné	`combined_apache`	Détermine les formats de journaux par le biais d'un modèle grok.
Journal Apache	`apache`	Détermine les formats de journaux par le biais d'un modèle grok.
Journal du noyau Linux	`linux_kernel`	Détermine les formats de journaux par le biais d'un modèle grok.
Journal Microsoft	`microsoft_log`	Détermine les formats de journaux par le biais d'un modèle grok.
Journal Ruby	`ruby_logger`	Lit le début du fichier pour déterminer le format.
Journal Squid 3.x	`squid`	Lit le début du fichier pour déterminer le format.
Journal de surveillance Redis	`redismonlog`	Lit le début du fichier pour déterminer le format.
Journal Redis	`redislog`	Lit le début du fichier pour déterminer le format.
CSV	`csv`	Recherche les séparateurs suivants : virgule (,), barre verticale (\|), tabulation (\t), point-virgule (;) et Ctrl-A (\u0001). Ctrl-A est le caractère de contrôle Unicode pour `Start Of Heading`.
Amazon Redshift	`redshift`	Utilise la connexion JDBC pour importer les métadonnées.
MySQL	`mysql`	Utilise la connexion JDBC pour importer les métadonnées.
PostgreSQL	`postgresql`	Utilise la connexion JDBC pour importer les métadonnées.
Oracle Database	`oracle`	Utilise la connexion JDBC pour importer les métadonnées.
Microsoft SQL Server	`sqlserver`	Utilise la connexion JDBC pour importer les métadonnées.
Amazon DynamoDB	`dynamodb`	Lit les données de la table DynamoDB.

Les fichiers aux formats compressés suivants peuvent être classés :

ZIP (pris en charge pour les archives contenant uniquement un fichier unique). Notez que Zip n'est pas correctement pris en charge dans d'autres services (en raison de l'archive).
BZIP
GZIP
LZ4
Snappy (pris en charge pour les formats Snappy standard et natifs Hadoop)

Classifieur CSV intégré

Le classificateur CSV intégré analyse le contenu du fichier CSV afin de déterminer le schéma d'un AWS Glue table. Le classifieur vérifie les délimiteurs suivants :

Virgule (,)
Pipe (|)
Tabulation (\t)
Point-virgule (;)
Ctrl-A (\u0001)
Ctrl-A est le caractère de contrôle Unicode pour Start Of Heading.

Pour être classé comme CSV, le schéma de table doit avoir au moins deux colonnes et deux lignes de données. Le classifieur CSV utilise un certain nombre de méthodes heuristiques pour déterminer si un en-tête est présent dans un fichier donné. Si le classifieur ne peut pas déterminer un en-tête à partir de la première ligne de données, les en-têtes de colonne sont affichés en tant que col1, col2, col3, et ainsi de suite. Le classifieur CSV intégré détermine s'il convient de déduire un en-tête en évaluant les caractéristiques suivantes du fichier :

Chaque colonne d'un en-tête potentiel s'analyse en tant que type de données STRING.
À l'exception de la dernière colonne, chaque colonne d'un en-tête potentiel a un contenu de moins de 150 caractères. Pour autoriser un délimiteur de fin, la dernière colonne peut être vide dans le fichier.
Chaque colonne d'un en-tête potentiel doit respecter les AWS Glue regexexigences relatives au nom d'une colonne.
La ligne d'en-tête doit être suffisamment différente des lignes de données. Pour le déterminer, une ou plusieurs lignes doivent s'analyser autrement que de type STRING. Si toutes les colonnes sont de type STRING, la première ligne de données n'est pas suffisamment différente des lignes suivantes pour être utilisée comme en-tête.

Note

Si le classificateur CSV intégré ne crée pas votre AWS Glue comme vous le souhaitez, vous pouvez peut-être utiliser l'une des alternatives suivantes :

Modifiez les noms de colonne du Data Catalog, définissez la structure SchemaChangePolicy sur LOG et définissez la configuration de sortie de la partition sur InheritFromTable pour les futures exécutions de l'crawler.
Créez un classifieur grok personnalisés pour analyser les données et attribuez les colonnes de votre choix.
Le classifieur CSV intégré crée les tables en faisant référence à LazySimpleSerDe comme bibliothèque de sérialisation, ce qui est un bon choix pour l'inférence du type. Toutefois, si les données CSV contiennent des chaînes entre guillemets, modifiez la définition de la table et remplacez la SerDe bibliothèque parOpenCSVSerDe. Ajustez les types déduits sur STRING, définissez la structure SchemaChangePolicy sur LOG et définissez la configuration de sortie des partitions sur InheritFromTable pour les futures exécutions de l'crawler. Pour plus d'informations sur SerDe les bibliothèques, consultez la section SerDe Référence du guide de l'utilisateur Amazon Athena.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Prérequis pour le crawler

Rédaction de classificateurs personnalisés pour divers formats de données