Usar o Ray Core e o Ray Data no AWS Glue para Ray - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Usar o Ray Core e o Ray Data no AWS Glue para Ray

O Ray é uma estrutura para aumentar verticalmente a escala de scripts do Python distribuindo o trabalho por um cluster. Você pode usar o Ray como uma solução para vários tipos de problemas, então o Ray fornece bibliotecas para otimizar determinadas tarefas. No AWS Glue, nos concentramos em usar o Ray para transformar grandes conjuntos de dados. O AWS Glue é compatível com o Ray Data e partes do Ray Core para facilitar essa tarefa.

O que é o Ray Core?

A primeira etapa da criação de uma aplicação distribuída é identificar e definir o trabalho que pode ser executado simultaneamente. O Ray Core contém as partes do Ray que você usa para definir tarefas que podem ser executadas simultaneamente. O Ray fornece informações de referência e de início rápido que você pode usar para aprender as ferramentas que eles fornecem. Para obter mais informações, consulte What is Ray Core? e Ray Core Quick Start. Para obter mais informações sobre a definição eficaz de tarefas simultâneas no Ray, consulte Tips for first-time users.

Tarefas e atores do Ray

Na documentação do AWS Glue para Ray, podemos nos referir a tarefas e atores, que são conceitos fundamentais do Ray.

O Ray usa funções e classes do Python como peças de montagem de um sistema de computação distribuído. Como acontece quando as funções e as variáveis do Python se tornam "métodos" e "atributos" quando usadas em uma classe, as funções se tornam "tarefas" e as classes se tornam "atores" quando são usadas no Ray para enviar código aos operadores. Você pode identificar as funções e as classes que podem ser usadas pelo Ray por meio da anotação @ray.remote.

As tarefas e os atores são configuráveis, têm um ciclo de vida e consomem recursos computacionais durante toda a sua existência. Um código que gera erros pode ser rastreado de volta a uma tarefa ou ator quando você descobre a causa raiz dos problemas. Assim, esses termos podem surgir quando você está aprendendo a configurar, monitorar ou depurar trabalhos do AWS Glue para Ray.

Para começar a aprender como usar tarefas e atores de modo eficaz para criar uma aplicação distribuída, consulte Key Concepts na documentação do Ray.

Ray Core no AWS Glue para Ray

Os ambientes do AWS Glue para Ray gerenciam a formação e a escalação de clusters, bem como a coleta e a visualização de logs. Como gerenciamos essas preocupações, consequentemente limitamos o acesso e a compatibilidade com as APIs no Ray Core que seriam usadas para resolver essas preocupações em um cluster de código aberto.

No ambiente de runtime do Ray2.4, não oferecemos compatibilidade com:

O que é o Ray Data?

Quando você está se conectando a fontes e destinos de dados, manipulando conjuntos de dados e iniciando transformações comuns, o Ray Data é uma metodologia simples de usar o Ray para resolver problemas de transformação de conjuntos de dados do Ray. Para obter mais informações sobre o uso do Ray Data, consulte Ray Datasets: Distributed Data Preprocessing.

Você pode usar o Ray Data ou outras ferramentas para acessar dados. Para obter mais informações sobre como acessar dados no Ray, consulte Conectar a dados em trabalhos do Ray.

Ray Data no AWS Glue para Ray

O Ray Data é compatível e fornecido por padrão no ambiente de runtime gerenciado do Ray2.4. Para obter mais informações sobre os módulos fornecidos, consulte Módulos fornecidos com trabalhos do Ray.