Connexion aux sources de données - Amazon Athena

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Connexion aux sources de données

Vous pouvez utiliser Amazon Athena pour interroger des données stockées dans différents emplacements et différents formats dans un jeu de données. Ce jeu de données peut être au CSV format Avro, Parquet ou dans un autre format. JSON

Les tables et bases de données que vous utilisez dans Athena pour exécuter des requêtes sont basées sur des métadonnées. Les métadonnées sont des données relatives aux données sous-jacentes de votre jeu de données. La façon dont ces métadonnées décrivent votre jeu de données est appelée schéma. Par exemple, un nom de table, les noms de colonne de la table et le type de données de chaque colonne sont tous des schémas, enregistrés en tant que métadonnées, qui décrivent un jeu de données sous-jacent. Dans Athena, un système permettant d'organiser les métadonnées est un catalogue de données ou un métastore. La combinaison d'un jeu de données et du catalogue de données qui le décrit est appelée source de données.

La relation entre les métadonnées et un jeu de données sous-jacent dépend du type de source de données que vous utilisez. Les sources de données relationnelles telles que MySQL, Postgre SQL et SQL Server intègrent étroitement les métadonnées à l'ensemble de données. Dans ces systèmes, les métadonnées sont le plus souvent écrites au même moment que les données. D'autres sources de données, telles que celles créées à l'aide de Hive, vous permettent de définir des métadonnées on-the-fly lorsque vous lisez le jeu de données. Le jeu de données peut être dans différents formats, par exemple CSVJSON, Parquet ou Avro.

Athéna soutient nativement le. AWS Glue Data Catalog AWS Glue Data Catalog Il s'agit d'un catalogue de données construit sur d'autres ensembles de données et sources de données tels qu'Amazon S3, Amazon Redshift et Amazon DynamoDB. Vous pouvez également connecter Athena à d'autres sources de données à l'aide de divers connecteurs.