Quando devo usar o Athena? - Amazon Athena

Quando devo usar o Athena?

Serviços de consulta como o Amazon Athena, data warehouses como o Amazon Redshift e frameworks sofisticadas de processamento de dados, como o Amazon EMR, atendem a diferentes necessidades e casos de uso. As orientações a seguir podem ajudar você a escolher um ou mais serviços com base nas suas necessidades.

Amazon Athena

O Athena ajuda a analisar dados desestruturados, semiestruturados e estruturados armazenados no Amazon S3. Entre os exemplos estão formatos de dados CSV, JSON ou colunares, como Apache Parquet e Apache ORC. Você pode usar o Athena para executar consultas ad-hoc com o ANSI SQL, sem necessidade de agregar ou carregar os dados no Athena.

O Athena se integra ao Amazon QuickSight para facilitar a visualização de dados. Você pode usar o Athena para gerar relatórios ou explorar dados com ferramentas de business intelligence ou clientes SQL conectados com um driver JDBC ou ODBC. Para obter mais informações, consulte O que é o Amazon QuickSight no Guia do usuário do Amazon QuickSight e Conectar-se ao Amazon Athena com drivers ODBC e JDBC.

O Athena se integra ao AWS Glue Data Catalog, que oferece armazenamento de metadados persistente para seus dados no Amazon S3. Isso permite criar tabelas e consultar dados no Athena com base em um armazenamento central de metadados disponível em sua conta da Amazon Web Services e integrado ao ETL e aos recursos de descoberta de dados do AWS Glue. Para obter mais informações, consulte Usar o AWS Glue para conectar o Athena aos seus dados no Amazon S3 e O que é o AWS Glue? no Guia do desenvolvedor do AWS Glue.

O Amazon Athena facilita a execução de consultas interativas com dados diretamente no Amazon S3, sem exigir a formatação de dados ou o gerenciamento da infraestrutura. Por exemplo, o Athena é útil quando você deseja executar uma consulta rápida em logs da Web para solucionar um problema de performance no seu site. Com o Athena, é possível começar rapidamente: basta definir uma tabela para os seus dados e começar a consultar usando SQL padrão.

Você deve usar o Amazon Athena quando deseja executar consultas SQL assistemáticas interativas em dados no Amazon S3 sem ter que gerenciar infraestruturas ou clusters. O Amazon Athena fornece a maneira mais fácil de executar consultas assistemáticas para dados no Amazon S3, sem a necessidade de configurar ou gerenciar servidores.

Para obter uma lista de Serviços da AWS que o Athena utiliza ou se integra, consulte Integrações de AWS service (Serviço da AWS) ao Athena.

Amazon EMR

O Amazon EMR torna simples e econômico executar frameworks de processamento altamente distribuídas, como Hadoop, Spark e Presto, quando comparadas a implantações on-premises. O Amazon EMR é flexível: é possível executar aplicações e códigos personalizados e definir parâmetros específicos de computação, memória, armazenamento e aplicações para otimizar seus requisitos analíticos.

Além de executar consultas SQL, o Amazon EMR pode executar várias tarefas de processamento de dados de aumento na escala na horizontal para aplicações como machine learning, análises de gráficos, transformação de dados, dados de transmissão e praticamente qualquer coisa que você possa codificar. Você deve utilizar o Amazon EMR se usar código personalizado para processar e analisar conjuntos de dados extremamente grandes com as frameworks de processamento de big data mais recentes, como Spark, Hadoop, Presto ou Hbase. O Amazon EMR oferece controle total sobre a configuração dos seus clusters e do software instalado neles.

É possível usar o Amazon Athena para consultar dados processados com o uso do Amazon EMR. O Amazon Athena oferece suporte a vários dos mesmos formatos de dados que o Amazon EMR. O catálogo de dados do Athena é compatível com o metastore do Hive. Se você usa o EMR e já tem um metastore do Hive, pode executar suas instruções DDL no Amazon Athena e consultar seus dados imediatamente, sem afetar os trabalhos do Amazon EMR.

Amazon Redshift

Um data warehouse como o Amazon Redshift é a melhor opção quando você precisa reunir dados de várias origens diferentes (como sistemas de inventário, sistemas financeiros e sistemas de vendas a varejo) em um formato comum e armazená-los por longos períodos de tempo. Se quiser criar relatórios comerciais sofisticados com base em dados históricos, um data warehouse como o Amazon Redshift é a melhor escolha. O mecanismo de consulta no Amazon Redshift foi otimizado para ter uma performace especialmente boa na execução de consultas complexas que unem várias tabelas de banco de dados muito grandes. Se você precisar executar consultas com dados altamente estruturados com muitas uniões em muitas tabelas muito grandes, escolha o Amazon Redshift.

Para obter mais informações de quando usar o Athena, consulte os seguintes recursos: