AWS Glue para Spark e AWS Glue para Ray - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AWS Glue para Spark e AWS Glue para Ray

No AWS Glue on Apache Spark (AWS Glue ETL), você pode usar o PySpark para escrever código do Python para lidar com dados em grande escala. O Spark é uma solução conhecida para esse problema, mas engenheiros de dados com experiência focada em Python podem achar que a transição não é intuitiva. O modelo DataFrame do Spark não é perfeitamente "phytônico", o que reflete a linguagem Scala e o runtime Java em que ele se baseia.

No AWS Glue, você pode usar trabalhos de shell do Python para executar integrações de dados nativos do Python. Esses trabalhos são executados em uma única instância do Amazon EC2 e são limitados pela capacidade dessa instância. Isso restringe o throughput dos dados que você pode processar e sua manutenção se torna cara ao lidar com big data.

O AWS Glue para Ray permite que você aumente verticalmente a escala das workloads do Python sem investimentos substanciais para aprender o Spark. Você pode aproveitar certos cenários nos quais o Ray tem uma performance melhor. Oferecendo a você uma escolha, é possível usar os pontos fortes tanto do Spark quanto do Ray.

O AWS Glue ETL e o AWS Glue para Ray são diferentes internamente, portanto, são compatíveis com atributos diferentes. Verifique documentação para determinas quais são as configurações compatíveis.

O que é AWS Glue para Ray?

O Ray é uma estrutura de computação distribuída de código aberto que você pode usar para aumentar verticalmente a escala das workloads, com foco no Python. Para obter mais informações sobre o Ray, consulte o site do Ray. AWS Glue Os trabalhos e as sessões interativas do Ray permitem que você use o Ray no AWS Glue.

Você pode usar o AWS Glue para Ray para escrever scripts do Python para cálculos que serão executados em paralelo em várias máquinas. Em trabalhos e sessões interativas do Ray, você pode usar bibliotecas conhecidas do Python, como a pandas, para facilitar escrita e execução das workloads. Para obter mais informações sobre os conjuntos de dados do Ray, consulte Conjuntos de dados do Ray na documentação do Ray. Para obter mais informações sobre o pandas, consulte o site do pandas.

Ao usar o AWS Glue para Ray, você pode executar os fluxos de trabalho de pandas em big data em escala corporativa, com apenas algumas linhas de código. Você pode criar um trabalho do Ray no console do AWS Glue ou no AWS SDK. Você também pode abrir uma sessão interativa do AWS Glue para executar o código em um ambiente sem servidor do Ray. Trabalhos visuais no AWS Glue Studio ainda não são compatíveis.

Os trabalhos do AWS Glue para Ray permitem que você execute um script de acordo com uma agenda ou em resposta a um evento do Amazon EventBridge. As trabalhos armazenam informações de log e estatísticas de monitoramento no CloudWatch, as quais permitem que você entenda a integridade e a confiabilidade do seu script. Para obter mais informações sobre como usar o sistema de trabalhos do AWS Glue, consulte Trabalhar com trabalhos do Ray no AWS Glue.

As sessões interativas do AWS Glue para Ray (visualização) permitem que você execute trechos de código um após o outro nos mesmos recursos provisionados. Você pode usar isso para criar protótipos e desenvolver scripts, com eficiência, ou para criar suas próprias aplicações interativas. Você pode usar as sessões interativas do AWS Glue de cadernos do AWS Glue Studio no AWS Management Console. Para obter mais informações, consulte Uso de cadernos com o AWS Glue Studio e o AWS Glue. Você também pode usá-los por meio de um kernel do Jupyter, que permite executar sessões interativas em ferramentas de edição de código existentes compatíveis com cadernos Jupyter, como o VSCode. Para ter mais informações, consulte Introdução às sessões interativas do AWS Glue for Ray (versão prévia).

O Ray automatiza o trabalho de escalação de código do Python distribuindo o processamento por um cluster de máquinas que ele reconfigura em tempo real, com base na carga. Isso pode resultar em uma melhor performance, em termos financeiros, para determinadas workloads. Com os trabalhos do Ray, incorporamos nativamente auto scaling ao modelo de trabalho do AWS Glue, para que você possa aproveitar totalmente esse recurso. Os trabalhos do Ray são executados no AWS Graviton, resultando em uma performance geral superior em termos de preço.

Além da economia de custos, você pode usar o auto scaling nativo para executar workloads do Ray sem investir tempo em manutenção, ajuste e administração de clusters. Você pode usar bibliotecas conhecidas de código aberto, prontas para uso, como pandas e AWS SDK for pandas. Isso melhora a velocidade de iteração enquanto você está desenvolvendo no AWS Glue para Ray. Ao usar o AWS Glue para Ray, você poderá desenvolver e executar rapidamente workloads de integração de dados com eficiência de custos.