CREATE TABLE - Amazon Athena

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

CREATE TABLE

Permet de créer une table avec le nom et les paramètres que vous spécifiez.

Note

Cette page contient un résumé des informations de référence. Pour plus d'informations sur la création des tables dans Athena et un exemple de déclaration CREATE TABLE, consultez Création de tables dans Athena. En guise d'exemple en matière de création d'une base de données, de création d'une table et d'exécution d'une requête SELECT sur la table dans Athena, voir Mise en route.

Résumé

CREATE EXTERNAL TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type [COMMENT col_comment] [, ...] )] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED BY (col_name, col_name, ...) INTO num_buckets BUCKETS] [ROW FORMAT row_format] [STORED AS file_format] [WITH SERDEPROPERTIES (...)] [LOCATION 's3://bucket_name/[folder]/'] [TBLPROPERTIES ( ['has_encrypted_data'='true | false',] ['classification'='aws_glue_classification',] property_name=property_value [, ...] ) ]

Paramètres

EXTERNAL

Indique que la table est basée sur un fichier de données sous-jacent qui existe dans Simple Storage Service (Amazon S3), dans l'emplacement LOCATION que vous avez spécifié. Sauf lors de la création de tables Iceberg, utilisez toujours le mot-clé EXTERNAL. Si vous utilisez CREATE TABLE sans le mot clé EXTERNAL pour des tables non Iceberg, Athena émet une erreur. Lorsque vous créez une table externe, les données référencées doivent respecter le format par défaut ou le format que vous spécifiez à l'aide des clauses ROW FORMAT, STORED AS et WITH SERDEPROPERTIES.

[IF NOT EXISTS]

Ce paramètre vérifie si une table ayant le même nom existe déjà. Si c'est le cas, le paramètre renvoie TRUE et Amazon Athena annule l'action CREATE TABLE. L'annulation ayant lieu avant qu'Athéna n'appelle le catalogue de données, aucun événement n'est émis. AWS CloudTrail

[db_name.]table_name

Spécifie un nom pour la table à créer. Le paramètre facultatif db_name indique la base de données dans laquelle se trouve la table. Si ce paramètre n'est pas spécifié, la base de données en cours est utilisée par défaut. Si le nom de la table comporte des chiffres, mettez table_name entre guillemets, par exemple "table123". Si table_name commence par un trait de soulignement, utilisez des accents graves, par exemple `_mytable`. Les caractères spéciaux (autres que le trait de soulignement) ne sont pas pris en charge.

Les noms de table Athena ne sont pas sensibles à la casse. Cependant, si vous travaillez avec Apache Spark, les noms de table doivent être en minuscule.

[ ( col_name data_type [COMMENT col_comment] [, ...] ) ]

Indique le nom de chaque colonne à créer, ainsi que le type de données de la colonne. Les noms de colonne n'acceptent pas de caractères spéciaux autres que le trait de soulignement (_). Si col_name commence par un trait de soulignement, placez le nom de colonne entre des accents graves, par exemple `_mycolumn`.

data_type peut avoir l'une des valeurs suivantes :

  • boolean : les valeurs sont true et false.

  • tinyint – Un entier signé de 8 bits au format de complément à deux avec une valeur minimum de -2^7 et une valeur maximum de 2^7-1.

  • smallint – Un entier signé de 16 bits au format de complément à deux avec une valeur minimum de -2^15 et une valeur maximum de 2^15-1.

  • int – Dans les requêtes en langage de définition de données (DDL) telles que CREATE TABLE, utilisez le mot-clé int pour représenter un entier. Dans d'autres requêtes, utilisez le mot clé integer, où integer est représenté comme une valeur signée de 32 bits au format complément à deux, avec une valeur minimale de -2^31 et une valeur maximale de 2^31-1. Dans le pilote JDBC, integer est renvoyé, pour assurer la compatibilité avec les applications d'analyse d'entreprise.

  • bigint – Un entier signé de 64 bits au format de complément à deux avec une valeur minimum de -2^63 et une valeur maximum de 2^63-1.

  • double : un nombre à virgule flottante signé de 64 bits en double précision. La plage va de 4.94065645841246544e-324d à 1.79769313486231570e+308d, positif ou négatif. double suit le standard IEEE pour l'arithmétique à virgule flottante (IEEE 754).

  • float : un nombre à virgule flottante signé à simple précision de 32 bits. La plage va de 1.40129846432481707e-45 à 3.40282346638528860e+38, positif ou négatif. float suit le standard IEEE pour l'arithmétique à virgule flottante (IEEE 754). Équivalent à real dans Presto. Dans Athena, utilisez float dans les Instructions DDL comme CREATE TABLE et real dans les fonctions SQL comme SELECT CAST. Le AWS Glue crawler renvoie des valeursfloat, et Athena les real traduit float et les saisit en interne (voir 5 juin 2018 les notes de publication).

  • decimal [ (precision, scale) ], où precision est le nombre total de chiffres et scale (facultatif) est le nombre de chiffres dans la partie fraction, la valeur par défaut est 0. Par exemple, utilisez ces définitions de type : decimal(11,5), decimal(15). La valeur maximale pour la précision est de 38, et la valeur maximale pour l'échelle est de 38.

    Pour spécifier des valeurs décimales comme les littéraux, par exemple lorsque vous sélectionnez des lignes avec une valeur décimale dans une expression de requête DDL, spécifiez la définition de type decimal et répertoriez la valeur décimale en tant que valeur littérale (entre des guillemets simples) dans votre requête, comme dans l'exemple suivant : decimal_value = decimal '0.12'.

  • char : données en caractères de longueur fixe, avec une longueur spécifiée entre 1 et 255, par exemple char(10). Pour plus d'informations, consultez la section relative au type de données Hive CHAR.

  • varchar : données en caractères de longueur variable, avec une longueur spécifiée entre 1 et 65535, par exemple varchar(10). Pour plus d'informations, consultez la section relative au type de données Hive VARCHAR.

  • string : libellé chaîne entre guillemets simples ou doubles.

    Note

    Les types de données autres que les chaînes de caractères ne peuvent pas être convertis en string dans Athena ; convertissez-les plutôt en varchar.

  • binary – (pour les données au format Parquet)

  • date : date au format ISO, par exemple YYYY-MM-DD. Par exemple, date '2008-09-15'. Une exception est l'SerDeOpenCSV, qui utilise le nombre de jours écoulés depuis le 1er janvier 1970. Pour de plus amples informations, veuillez consulter OpenCSVSerDe pour le traitement CSV.

  • timestamp : date et heure instantanée dans java.sql.Timestamp jusqu'à une résolution maximale de millisecondes, comme yyyy-MM-dd HH:mm:ss[.f...]. Par exemple, timestamp '2008-09-15 03:04:05.324'. L'SerDeOpenCSV constitue une exception, car il TIMESTAMP utilise des données au format numérique UNIX (par exemple,). 1579059880000 Pour de plus amples informations, veuillez consulter OpenCSVSerDe pour le traitement CSV.

  • array < data_type >

  • map < primitive_type, data_type >

  • struct < col_name : data_type [comment col_comment] [, ...] >

[COMMENT table_comment]

Crée la propriété de table comment et la renseigne avec l'information table_comment que vous spécifiez.

[PARTITIONED BY (col_name data_type [ COMMENT col_comment ], ... ) ]

Crée une table partitionnée avec une ou plusieurs colonnes de partition dont les valeurs col_name, data_type et col_comment sont spécifiées. Une table peut comporter une ou plusieurs partitions, qui se composent d'une combinaison nom/valeur de colonne distincte. Un répertoire de données distinct est créé pour chaque combinaison spécifiée, ce qui peut améliorer les performances des requêtes dans certaines circonstances. Les colonnes partitionnées n’existent pas au sein même des données de la table. Si la valeur de col_name est identique à celle d'une colonne de table, une erreur est renvoyée. Pour en savoir plus, consultez Partitionnement de données.

Note

Une fois que vous avez créé une table avec des partitions, exécutez une requête ultérieure composée de la clause MSCK REPAIR TABLE pour actualiser les métadonnées de partition, par exemple MSCK REPAIR TABLE cloudfront_logs;. Pour les partitions qui ne sont pas compatibles avec Hive, utilisez ALTER TABLE ADD PARTITION pour charger les partitions de manière à pouvoir interroger les données.

[CLUSTERED BY (col_name, col_name, ...) INTO num_buckets BUCKETS]

Divise, avec ou sans partitionnement, les données des colonnes col_name spécifiées en sous-ensembles de données appelés compartiments. Le paramètre num_buckets indique le nombre de compartiments à créer. Le compartimentage peut améliorer les performances de certaines requêtes sur de grands jeux de données.

[ROW FORMAT row_format]

Spécifie le format de ligne de la table et, le cas échéant, de ses données source sous-jacentes. Pour row_format, vous pouvez spécifier un ou plusieurs délimiteurs avec la clause DELIMITED, ou utiliser la clause SERDE comme décrit ci-dessous. S'ROW FORMATil est omis ou ROW FORMAT DELIMITED spécifié, un natif SerDe est utilisé.

  • [DELIMITED FIELDS TERMINATED BY char [ESCAPED BY char]]

  • [DELIMITED COLLECTION ITEMS TERMINATED BY char]

  • [MAP KEYS TERMINATED BY char]

  • [LINES TERMINATED BY char]

  • [NULL DEFINED AS char]

    Disponible uniquement avec Hive 0.13 et lorsque le format de fichier STORED AS a pour valeur TEXTFILE.

--OR--

  • SERDE 'serde_name' [WITH SERDEPROPERTIES ("property_name" = "property_value", "property_name" = "property_value" [, ...] )]

    Le serde_name indique le SerDe à utiliser. La WITH SERDEPROPERTIES clause vous permet de fournir une ou plusieurs propriétés personnalisées autorisées par le SerDe.

[STORED AS format_fichier]

Spécifie le format de fichier pour les données de table. Si ce paramètre n'est pas spécifié, TEXTFILE est la valeur par défaut. Les options de file_format sont les suivantes :

  • SEQUENCEFILE

  • TEXTFILE

  • RCFILE

  • ORC

  • PARQUET

  • AVRO

  • ION

  • INPUTFORMAT nom_classe_format_entrée OUTPUTFORMAT nom_classe_format_sortie

[LOCATION 's3://nom_compartiment/[dossier]/']

Indique l'emplacement des données sous-jacentes dans Simple Storage Service (Amazon S3) à partir duquel la table est créée. Le chemin d'accès de l'emplacement doit être un nom de compartiment ou un nom de compartiment et un ou plusieurs dossiers. Si vous utilisez des partitions, spécifiez la racine des données partitionnées. Pour plus d’informations sur l’emplacement des tables, consultez Emplacement de table dans Simple Storage Service (Amazon S3). Pour obtenir des informations sur le format des données et les autorisations, consultez Exigences pour les tables dans Athena et les données dans Simple Storage Service (Amazon S3).

Utilisez une barre oblique pour votre dossier ou compartiment. N'utilisez pas de noms de fichiers ou de caractères généraux.

Utilisez :

s3://mybucket/

s3://mybucket/folder/

s3://mybucket/folder/anotherfolder/

N'utilisez pas :

s3://path_to_bucket

s3://path_to_bucket/*

s3://path_to-bucket/mydatafile.dat

[TBLPROPERTIES ( ['has_encrypted_data'='true | false',] ['classification'='classification_value',] property_name=property_value [, ...] ) ]

Spécifie des paires clés-valeurs de métadonnées personnalisées pour la définition de la table en plus des propriétés de table prédéfinies, par exemple "comment".

has_encrypted_data : Athena dispose d'une propriété intégrée, has_encrypted_data. Attribuez la valeur true à cette propriété pour indiquer que l'ensemble de données sous-jacent spécifié par LOCATION est chiffré. Si ce paramètre n'est pas spécifié et si les paramètres du groupe de travail ne remplacent pas les paramètres côté client, false est utilisé. Si ce paramètre n'est pas spécifié ou si la valeur false est définie lorsque des données sous-jacentes sont chiffrées, la requête génère une erreur. Pour de plus amples informations, veuillez consulter Chiffrement au repos.

classification — Les tables créées pour Athena dans la CloudTrail console sont ajoutées en cloudtrail tant que valeur à la classification propriété. Pour exécuter des tâches AWS Glue ETL, vous devez créer une table avec la classification propriété indiquant le type de données pour AWS Glue as csvparquet,orc,avro, oujson. Par exemple, 'classification'='csv'. Les tâches ETL échoueront si vous ne spécifiez pas cette propriété. Vous pouvez par conséquent la spécifier à l'aide de la console AWS Glue , de l'API ou de l'interface de ligne de commande (CLI). Pour plus d'informations, consultez Utiliser des AWS Glue jobs pour l'ETL avec Athena la section « Création de tâches dans AWS Glue » dans le manuel duAWS Glue développeur.

compression_level : la propriété compression_level spécifie le niveau de compression à utiliser. Cette propriété s’applique uniquement à la compression ZSTD. Les valeurs possibles sont comprises entre 1 et 22. La valeur par défaut est 3. Pour plus d’informations, consultez Utilisation des niveaux de compression ZSTD dans Athena.

Pour plus d’informations sur les autres propriétés de table, consultez ALTER TABLE SET TBLPROPERTIES.

Pour plus d'informations sur la création de tables, consultez Création de tables dans Athena.