Utiliser un formulaire dans la console Athena pour ajouter un tableau AWS Glue

La procédure suivante vous montre comment utiliser la console Athena pour ajouter une table à l'aide du formulaire Create Table From S3 bucket data (Créer une table à partir des données du compartiment S3).

Ajout d'une table et saisie des informations de schéma à l'aide d'un formulaire

Ouvrez la console à l'adresse https://console.aws.amazon.com/athena/.
Dans l'éditeur de requêtes, à côté de Tables and views (Tables et vues), choisissez Create (Créer) puis choisissez S3 bucket data (Données de compartiment S3).
Dans le formulaire Create Table From S3 bucket data (Créer une table à partir des données du compartiment S3), pour Table name (Nom de la table), saisissez le nom de la table. Pour plus d'informations sur les caractères acceptables pour les noms de base de données, de tables et de colonnes dans Athena, consultez. Nommez les bases de données, les tables et les colonnes
Pour Database configuration (Configuration de la base de données), choisissez une base de données existante ou créez-en une.
Pour Location of Input Data Set (Emplacement du jeu de données en entrée), spécifiez le chemin d'accès dans Simple Storage Service (Amazon S3) au dossier contenant le jeu de données que vous souhaitez traiter. N'incluez pas de nom de fichier dans le chemin. Athena analyse tous les fichiers dans le dossier que vous spécifiez. Si vos données sont déjà partitionnées (par exemple,

s3://amzn-s3-demo -bucket/logs/year=2004/month=12/day=11/), enter the base path only (for example, s3://amzn-s3-demo-bucket/logs/).
Pour Data Format (Format des données), choisissez l'une des options suivantes :
- Pour le type de table, choisissez Apache Hive, Apache Iceberg ou Delta Lake. Athena utilise le type de table Apache Hive par défaut. Pour plus d'informations sur l'interrogation des tables Apache Iceberg dans Athena, voir Interrogez les tables Apache Iceberg. Pour plus d'informations sur l'utilisation des tables Delta Lake dans Athena, voir Consultez les tables de Delta Lake de la Linux Foundation.
- Pour File format (Format de fichier), choisissez le format de fichier ou de journal dans lequel se trouvent vos données.
  - Pour l'option Text File with Custom Delimiters (Fichier texte avec délimiteurs personnalisés), spécifiez un Field Terminator (Délimiteur de champ) (c'est-à-dire un délimiteur de colonne). Vous pouvez éventuellement spécifier un délimiteur de collection qui marque la fin d'un type de tableau ou un délimiteur de collection qui marque la fin d'un type de données cartographiques.
- SerDe bibliothèque — Une bibliothèque SerDe (sérialiseur-désérialiseur) analyse un format de données particulier afin qu'Athena puisse créer une table pour celui-ci. Pour la plupart des formats, une SerDe bibliothèque par défaut est choisie pour vous. Pour les formats suivants, choisissez une bibliothèque en fonction de vos exigences :
  - Apache Web Logs : choisissez la GrokSerDebibliothèque RegexSerDeou la bibliothèque. Pour RegexSerDe, fournissez une expression régulière dans la zone de définition de Regex. Pour GrokSerDe, fournissez une série d'expressions régulières nommées pour la input.format SerDe propriété. Les expressions régulières nommées sont plus faciles à lire et à gérer que les expressions régulières. Pour de plus amples informations, veuillez consulter Interrogez les journaux Apache stockés dans Amazon S3.
  - CSV — Choisissez LazySimpleSerDesi vos données séparées par des virgules ne contiennent pas de valeurs entre guillemets ou si elles utilisent le java.sql.Timestamp format. Choisissez Open CSVSer De si vos données incluent des guillemets ou utilisent le format numérique UNIX pour TIMESTAMP (par exemple,1564610311). Pour plus d’informations, consultez Lazy Simple SerDe pour les fichiers CSV, TSV et délimités sur mesure et Ouvrez le fichier CSV SerDe pour le traitement du fichier CSV.
  - JSON — Choisissez la bibliothèque JSON OpenX ou Hive. SerDe Les deux formats nécessitent que chaque document JSON soit sur une seule ligne de texte et que les champs ne soient pas séparés par des caractères de saut de ligne. L'OpenX SerDe offre quelques propriétés supplémentaires. Pour de plus amples informations sur ces propriétés, veuillez consulter OpenX JSON SerDe. Pour plus d'informations sur le Hive SerDe, consultezHive JSON SerDe.
  Pour plus d'informations sur l'utilisation SerDe des bibliothèques dans Athena, consultez. Choisissez un SerDe pour vos données
Pour les SerDe propriétés, ajoutez, modifiez ou supprimez des propriétés et des valeurs en fonction de la SerDe bibliothèque que vous utilisez et de vos besoins.
- Pour ajouter une SerDe propriété, choisissez Ajouter une SerDe propriété.
- Dans le champ Name (Nom), saisissez le nom de la propriété.
- Dans le champ Value (Valeur), saisissez une valeur pour la propriété.
- Pour supprimer une SerDe propriété, choisissez Supprimer.
Pour Table properties (Propriétés de table), choisissez ou modifiez les propriétés de la table en fonction de vos exigences.
- Pour Write compression (Compression d'écriture), choisissez une option de compression. La disponibilité de l'option de compression d'écriture et des options de compression dépend du format des données. Pour de plus amples informations, veuillez consulter Utiliser la compression dans Athena.
- Pour Encryption (Chiffrement), sélectionnez Encrypted data set (Jeu de données chiffrées) si les données sous-jacentes sont chiffrées dans Amazon S3. Cette option définit la propriété de table has_encrypted_data sur « true » (vrai) dans l'instruction CREATE TABLE.
Pour Column details (Détails de colonne), saisissez les noms et les types de données des colonnes que vous souhaitez ajouter à la table.
- Pour ajouter d'autres colonnes une par une, choisissez Add a column (Ajouter une colonne).
- Pour ajouter rapidement d'autres colonnes, choisissez Bulk add columns (Ajouter des colonnes en bloc). Dans la zone de texte, entrez une liste de colonnes séparées par des virgules au format column_name data_type [column_namedata_type,...], puis choisissez Ajouter.
(Facultatif) Pour Partition details (Détails de partition), ajoutez un ou plusieurs noms de colonnes et des types de données. Le partitionnement permet de conserver les données associées en fonction des valeurs des colonnes et peut contribuer à réduire la quantité de données scannées par requête. Pour plus d'informations sur le partitionnement, voir Partitionner vos données.
(Facultatif) Pour Bucketing (Mise en compartiments), vous pouvez spécifier une ou plusieurs colonnes contenant des lignes que vous souhaitez regrouper, puis placer ces lignes dans plusieurs compartiments. Cela vous permet d'interroger uniquement le compartiment que vous souhaitez lire lorsque la valeur des colonnes mises en compartiments est spécifiée.
- Pour Buckets (Compartiments), sélectionnez une ou plusieurs colonnes comportant un grand nombre de valeurs uniques (par exemple, une clé primaire) et qui sont fréquemment utilisées pour filtrer les données de vos requêtes.
- Pour Number of buckets (Nombre de compartiments), saisissez un nombre permettant aux fichiers d'avoir une taille optimale. Pour plus d'informations, consultez les 10 meilleurs conseils d'optimisation des performances pour Amazon Athena sur le blog AWS Big Data.
- Pour spécifier vos colonnes mises en compartiments, l'instruction CREATE TABLE utilisera la syntaxe suivante :
```
CLUSTERED BY (bucketed_columns) INTO number_of_buckets BUCKETS
```
Note
L'option Bucketing (Mise en compartiments) n'est pas disponible pour le type de table Iceberg.
La zone Preview table query (Requête de prévisualisation de table) affiche l'instruction CREATE TABLE générée par les informations que vous avez saisies dans le formulaire. L'instruction de prévisualisation ne peut pas être modifiée directement. Pour modifier l'instruction, modifiez les champs du formulaire au-dessus de l'aperçu, ou créez directement l'instruction dans l'éditeur de requêtes au lieu d'utiliser le formulaire.
Choisissez Create table (Créer une table) pour exécuter l'instruction générée dans l'éditeur de requêtes et créer la table.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Exemple de politiques de catalogue de données

Utiliser un robot pour ajouter une table

Utiliser un formulaire dans la console Athena pour ajouter un tableau AWS Glue

Ajout d'une table et saisie des informations de schéma à l'aide d'un formulaire

Note