Utiliser un formulaire dans la console Athena pour ajouter un tableau AWS Glue - Amazon Athena

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utiliser un formulaire dans la console Athena pour ajouter un tableau AWS Glue

La procédure suivante vous montre comment utiliser la console Athena pour ajouter une table à l'aide du formulaire Create Table From S3 bucket data (Créer une table à partir des données du compartiment S3).

Ajout d'une table et saisie des informations de schéma à l'aide d'un formulaire
  1. Ouvrez la console à l'adresse https://console.aws.amazon.com/athena/.

  2. Dans l'éditeur de requêtes, à côté de Tables and views (Tables et vues), choisissez Create (Créer) puis choisissez S3 bucket data (Données de compartiment S3).

  3. Dans le formulaire Create Table From S3 bucket data (Créer une table à partir des données du compartiment S3), pour Table name (Nom de la table), saisissez le nom de la table.

  4. Pour Database configuration (Configuration de la base de données), choisissez une base de données existante ou créez-en une.

  5. Pour Location of Input Data Set (Emplacement du jeu de données en entrée), spécifiez le chemin d'accès dans Simple Storage Service (Amazon S3) au dossier contenant le jeu de données que vous souhaitez traiter. N'incluez pas de nom de fichier dans le chemin. Athena analyse tous les fichiers dans le dossier que vous spécifiez. Si vos données sont déjà partitionnées (par exemple,

    s3 ://DOC- EXAMPLE - BUCKET /logs/year =2004/month=12/day=11/), entrez uniquement le chemin de base (par exemple, s3 ://- - /logs/). DOC EXAMPLE BUCKET

  6. Pour Data Format (Format des données), choisissez l'une des options suivantes :

    • Pour le type de table, choisissez Apache Hive, Apache Iceberg ou Delta Lake. Athena utilise le type de table Apache Hive par défaut. Pour plus d'informations sur l'interrogation des tables Apache Iceberg dans Athena, voir Utilisation des tables Apache Iceberg. Pour plus d'informations sur l'utilisation des tables Delta Lake dans Athena, voir Interrogation des tables Linux Foundation Delta Lake.

    • Pour File format (Format de fichier), choisissez le format de fichier ou de journal dans lequel se trouvent vos données.

      • Pour l'option Text File with Custom Delimiters (Fichier texte avec délimiteurs personnalisés), spécifiez un Field Terminator (Délimiteur de champ) (c'est-à-dire un délimiteur de colonne). Vous pouvez éventuellement spécifier un délimiteur de collection qui marque la fin d'un type de tableau ou un délimiteur de collection qui marque la fin d'un type de données cartographiques.

    • SerDe bibliothèque — Une bibliothèque SerDe (sérialiseur-désérialiseur) analyse un format de données particulier afin qu'Athena puisse créer une table pour celui-ci. Pour la plupart des formats, une SerDe bibliothèque par défaut est choisie pour vous. Pour les formats suivants, choisissez une bibliothèque en fonction de vos exigences :

      • Apache Web Logs : choisissez la GrokSerDebibliothèque RegexSerDeou la bibliothèque. Pour RegexSerDe, fournissez une expression régulière dans la zone de définition de Regex. Pour GrokSerDe, fournissez une série d'expressions régulières nommées pour la input.format SerDe propriété. Les expressions régulières nommées sont plus faciles à lire et à gérer que les expressions régulières. Pour plus d’informations, consultez Interrogation des journaux Apache stockés dans Simple Storage Service (Amazon S3).

      • CSV— Choisissez LazySimpleSerDesi vos données séparées par des virgules ne contiennent pas de valeurs entre guillemets ou si elles utilisent le java.sql.Timestamp format. Choisissez O penCSVSer De si vos données incluent des guillemets ou utilisent le format UNIX numérique pour TIMESTAMP (par exemple,1564610311). Pour plus d’informations, consultez LazySimpleSerDe pour les fichiers CSV, TSV et délimités de manière personnalisée et SerDe OpenCSV pour le traitement des fichiers CSV.

      • JSON— Choisissez la bibliothèque OpenX ou Hive JSON SerDe . Les deux formats supposent que chaque JSON document se trouve sur une seule ligne de texte et que les champs ne sont pas séparés par des caractères de nouvelle ligne. L'OpenX SerDe offre quelques propriétés supplémentaires. Pour de plus amples informations sur ces propriétés, veuillez consulter OpenX JSON SerDe. Pour plus d'informations sur le Hive SerDe, consultezHive JSON SerDe.

      Pour plus d'informations sur l'utilisation SerDe des bibliothèques dans Athena, consultez. Formats de données SerDes et formats pris en charge

  7. Pour les SerDe propriétés, ajoutez, modifiez ou supprimez des propriétés et des valeurs en fonction de la SerDe bibliothèque que vous utilisez et de vos besoins.

    • Pour ajouter une SerDe propriété, choisissez Ajouter une SerDe propriété.

    • Dans le champ Name (Nom), saisissez le nom de la propriété.

    • Dans le champ Value (Valeur), saisissez une valeur pour la propriété.

    • Pour supprimer une SerDe propriété, choisissez Supprimer.

  8. Pour Table properties (Propriétés de table), choisissez ou modifiez les propriétés de la table en fonction de vos exigences.

    • Pour Write compression (Compression d'écriture), choisissez une option de compression. La disponibilité de l'option de compression d'écriture et des options de compression dépend du format des données. Pour plus d’informations, consultez Prise en charge de la compression Athena.

    • Pour Encryption (Chiffrement), sélectionnez Encrypted data set (Jeu de données chiffrées) si les données sous-jacentes sont chiffrées dans Amazon S3. Cette option définit la propriété de table has_encrypted_data sur « true » (vrai) dans l'instruction CREATE TABLE.

  9. Pour Column details (Détails de colonne), saisissez les noms et les types de données des colonnes que vous souhaitez ajouter à la table.

    • Pour ajouter d'autres colonnes une par une, choisissez Add a column (Ajouter une colonne).

    • Pour ajouter rapidement d'autres colonnes, choisissez Bulk add columns (Ajouter des colonnes en bloc). Dans la zone de texte, entrez une liste de colonnes séparées par des virgules au format column_name data_type, column_name data_type[,...], puis choisissez Ajouter.

  10. (Facultatif) Pour Partition details (Détails de partition), ajoutez un ou plusieurs noms de colonnes et des types de données. Le partitionnement permet de conserver les données associées en fonction des valeurs des colonnes et peut contribuer à réduire la quantité de données scannées par requête. Pour plus d'informations sur le partitionnement, voir Partitionnement de données dans Athena.

  11. (Facultatif) Pour Bucketing (Mise en compartiments), vous pouvez spécifier une ou plusieurs colonnes contenant des lignes que vous souhaitez regrouper, puis placer ces lignes dans plusieurs compartiments. Cela vous permet d'interroger uniquement le compartiment que vous souhaitez lire lorsque la valeur des colonnes mises en compartiments est spécifiée.

    • Pour Buckets (Compartiments), sélectionnez une ou plusieurs colonnes comportant un grand nombre de valeurs uniques (par exemple, une clé primaire) et qui sont fréquemment utilisées pour filtrer les données de vos requêtes.

    • Pour Number of buckets (Nombre de compartiments), saisissez un nombre permettant aux fichiers d'avoir une taille optimale. Pour plus d'informations, veuillez consulter l'article 10 meilleurs conseils de réglage des performances pour Amazon Athena sur le blog AWS Big Data.

    • Pour spécifier vos colonnes mises en compartiments, l'instruction CREATE TABLE utilisera la syntaxe suivante :

      CLUSTERED BY (bucketed_columns) INTO number_of_buckets BUCKETS
    Note

    L'option Bucketing (Mise en compartiments) n'est pas disponible pour le type de table Iceberg.

  12. La zone Preview table query (Requête de prévisualisation de table) affiche l'instruction CREATE TABLE générée par les informations que vous avez saisies dans le formulaire. L'instruction de prévisualisation ne peut pas être modifiée directement. Pour modifier l'instruction, modifiez les champs du formulaire au-dessus de l'aperçu, ou créez directement l'instruction dans l'éditeur de requêtes au lieu d'utiliser le formulaire.

  13. Choisissez Create table (Créer une table) pour exécuter l'instruction générée dans l'éditeur de requêtes et créer la table.