Uso do Apache Spark no Amazon Athena - Amazon Athena

Uso do Apache Spark no Amazon Athena

O Amazon Athena facilita a execução interativa de data analytics e exploração de dados usando o Apache Spark, sem a necessidade de planejamento, configuração ou gerenciamento de recursos. Executar aplicações do Apache Spark no Athena significa enviar o código do Spark para processamento e receber os resultados diretamente sem a necessidade de uma configuração adicional. É possível usar a experiência simplificada de cadernos no console do Amazon Athena para desenvolver aplicações do Apache Spark usando APIs de cadernos do Python ou do Athena. O Apache Spark no Amazon Athena corresponde a uma tecnologia sem servidor e oferece uma escalabilidade automática sob demanda que fornece computação instantânea para atender aos volumes de dados em constante mudança e aos requisitos de processamento.

O Amazon Athena oferece os recursos a seguir:

  • Uso do console: envie suas aplicações do Spark usando o console do Amazon Athena.

  • Criação de scripts: crie e depure aplicações do Apache Spark de forma rápida e interativa em Python.

  • Escalabilidade dinâmica: o Amazon Athena determina automaticamente a memória e os recursos de computação necessários para executar um trabalho, além de escalar continuamente esses recursos de acordo com os máximos especificados. Essa escalabilidade dinâmica reduz os custos sem afetar a velocidade.

  • Experiência de cadernos: use o editor de cadernos do Athena para criar, editar e executar cálculos usando uma interface familiar. Os cadernos do Athena são compatíveis com os cadernos Jupyter e contêm uma lista de células que são executadas por ordem como cálculos. O conteúdo da célula pode incluir código, texto, Markdown, matemática, plotagens e mídia avançada.

Para obter informações adicionais, consulte Run Spark SQL on Amazon Athena Spark e Explore your data lake using Amazon Athena for Apache Spark no blog do AWS Big Data.

Considerações e limitações

  • No momento, o Amazon Athena para Apache Spark está disponível nas seguintes Regiões da AWS:

    • Ásia-Pacífico (Mumbai)

    • Ásia-Pacífico (Singapura)

    • Ásia-Pacífico (Sydney)

    • Ásia-Pacífico (Tóquio)

    • Europa (Frankfurt)

    • Europa (Irlanda)

    • Leste dos EUA (N. da Virgínia)

    • Leste dos EUA (Ohio)

    • Oeste dos EUA (Oregon)

  • Não há suporte ao AWS Lake Formation.

  • Tabelas que usam projeção de partição não são compatíveis.

  • Grupos de trabalho habilitados para o Apache Spark podem usar o editor de cadernos do Athena, mas não o editor de consultas do Athena. Somente os grupos de trabalho do Athena podem usar o editor de consultas do Athena.

  • Não há suporte para consultas de visualização entre mecanismos. As visualizações criadas pelo SQL do Athena não podem ser consultadas pelo Athena para Spark. Como as visualizações dos dois mecanismos são implementadas de maneira diferente, elas não são compatíveis para uso entre mecanismos.

  • Não há compatibilidade com MLLib (biblioteca de machine learning do Apache Spark) e com o pacote pyspark.ml. Para obter uma lista de bibliotecas Python compatíveis, consulte a Lista de bibliotecas Python pré-instaladas.

  • No momento, pip install não é compatível com as sessões do Athena para Spark.

  • Somente uma sessão ativa por caderno é permitida.

  • Quando vários usuários usam o console para abrir uma sessão existente em um grupo de trabalho, eles acessam o mesmo caderno. Para evitar confusão, abra apenas sessões criadas por você mesmo.

  • Os domínios de hospedagem para aplicações do Apache Spark que você pode usar com o Amazon Athena (por exemplo, analytics-gateway.us-east-1.amazonaws.com) estão registrados na Lista Public Suffix List (PSL) da Internet. Se você precisar definir cookies confidenciais em seus domínios, recomendamos que use cookies com um prefixo __Host- para ajudar a defender o domínio contra tentativas de falsificação de solicitações entre sites (CSRF). Para obter mais informações, consulte a página Set-Cookie na documentação da Mozilla.org. para desenvolvedores.

  • Para obter informações sobre como solucionar problemas relacionados com cadernos, sessões e grupos de trabalho do Spark no Athena, consulte Solução de problemas do Athena para Spark.