Usar o Apache Spark no Amazon Athena
O Amazon Athena facilita a execução interativa de data analytics e exploração de dados usando o Apache Spark, sem a necessidade de planejamento, configuração ou gerenciamento de recursos. Executar aplicações do Apache Spark no Athena significa enviar o código do Spark para processamento e receber os resultados diretamente sem a necessidade de uma configuração adicional. É possível usar a experiência simplificada de cadernos no console do Amazon Athena para desenvolver aplicações do Apache Spark usando APIs de cadernos do Python ou do Athena. O Apache Spark no Amazon Athena corresponde a uma tecnologia sem servidor e oferece uma escalabilidade automática sob demanda que fornece computação instantânea para atender aos volumes de dados em constante mudança e aos requisitos de processamento.
O Amazon Athena oferece os recursos a seguir:
-
Uso do console: envie suas aplicações do Spark usando o console do Amazon Athena.
-
Criação de scripts: crie e depure aplicações do Apache Spark de forma rápida e interativa em Python.
-
Escalabilidade dinâmica: o Amazon Athena determina automaticamente a memória e os recursos de computação necessários para executar um trabalho, além de escalar continuamente esses recursos de acordo com os máximos especificados. Essa escalabilidade dinâmica reduz os custos sem afetar a velocidade.
-
Experiência de cadernos: use o editor de cadernos do Athena para criar, editar e executar cálculos usando uma interface familiar. Os cadernos do Athena são compatíveis com os cadernos Jupyter e contêm uma lista de células que são executadas por ordem como cálculos. O conteúdo da célula pode incluir código, texto, Markdown, matemática, plotagens e mídia avançada.
Para obter informações adicionais, consulte Run Spark SQL on Amazon Athena Spark
Tópicos
- Considerações e limitações
- Conceitos básicos
- Gerenciar arquivos de cadernos
- Editor de cadernos
- Usar formatos de tabela não Hive
- Suporte à biblioteca Python
- Especificar uma configuração personalizada
- Formatos de dados e de armazenamento compatíveis
- Monitorar os cálculos do Apache Spark
- Habilitar buckets de pagamento pelo solicitante
- Habilitar a criptografia do Spark
- Acesso ao catálogo entre contas
- Cotas de serviço
- APIs para cadernos do Athena
- Solução de problemas