Conectar a origens de dados - Amazon Athena

Conectar a origens de dados

Você pode usar o Amazon Athena para consultar os dados armazenados em diferentes locais e formatos em um conjunto de dados. Esse conjunto de dados pode estar em CSV, JSON, Avro, Parquet ou outro formato.

As tabelas e os bancos de dados com os quais você trabalha no Athena para executar consultas são baseados em metadados. Metadados são dados sobre os dados subjacentes em seu conjunto de dados. A forma como esses metadados descrevem seu conjunto de dados é chamada de esquema. Por exemplo, um nome de tabela, os nomes de coluna na tabela e o tipo de dados de cada coluna são esquemas, salvos como metadados, que descrevem um conjunto de dados subjacente. No Athena, chamamos um sistema para organizar metadados de catálogo de dados ou de metastore. A combinação de um conjunto de dados e o catálogo de dados que o descreve é chamada de fonte de dados.

A relação dos metadados com um conjunto de dados subjacente depende do tipo de fonte de dados com a qual você trabalha. Fontes de dados relacionais como MySQL, PostgreSQL e SQL Server integram totalmente os metadados ao conjunto de dados. Nesses sistemas, os metadados são gravados com maior frequência quando os dados são gravados. Outras fontes de dados, como aquelas criadas usando o Hive, permitem definir metadados em tempo real ao ler o conjunto de dados. O conjunto de dados pode estar em uma variedade de formatos, por exemplo, CSV, JSON, Parquet ou Avro.

O Athena tem compatibilidade nativa com o AWS Glue Data Catalog. O AWS Glue Data Catalog é um catálogo de dados desenvolvido com base em outros conjuntos e origens de dados, como Amazon S3, Amazon Redshift e Amazon DynamoDB. Você também pode conectar o Athena a outras origens de dados usando uma variedade de conectores.