As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Usar o Ray Core e o Ray Data no AWS Glue para Ray
O Ray é uma estrutura para aumentar verticalmente a escala de scripts do Python distribuindo o trabalho por um cluster. Você pode usar o Ray como uma solução para vários tipos de problemas, então o Ray fornece bibliotecas para otimizar determinadas tarefas. No AWS Glue, nos concentramos em usar o Ray para transformar grandes conjuntos de dados. O AWS Glue é compatível com o Ray Data e partes do Ray Core para facilitar essa tarefa.
O que é o Ray Core?
A primeira etapa da criação de uma aplicação distribuída é identificar e definir o trabalho que pode ser executado simultaneamente. O Ray Core contém as partes do Ray que você usa para definir tarefas que podem ser executadas simultaneamente. O Ray fornece informações de referência e de início rápido que você pode usar para aprender as ferramentas que eles fornecem. Para obter mais informações, consulte What is Ray Core?
Tarefas e atores do Ray
Na documentação do AWS Glue para Ray, podemos nos referir a tarefas e atores, que são conceitos fundamentais do Ray.
O Ray usa funções e classes do Python como peças de montagem de um sistema de computação distribuído. Como acontece quando as funções e as variáveis do Python se tornam "métodos" e "atributos" quando usadas em uma classe, as funções se tornam "tarefas" e as classes se tornam "atores" quando são usadas no Ray para enviar código aos operadores. Você pode identificar as funções e as classes que podem ser usadas pelo Ray por meio da anotação @ray.remote
.
As tarefas e os atores são configuráveis, têm um ciclo de vida e consomem recursos computacionais durante toda a sua existência. Um código que gera erros pode ser rastreado de volta a uma tarefa ou ator quando você descobre a causa raiz dos problemas. Assim, esses termos podem surgir quando você está aprendendo a configurar, monitorar ou depurar trabalhos do AWS Glue para Ray.
Para começar a aprender como usar tarefas e atores de modo eficaz para criar uma aplicação distribuída, consulte Key Concepts
Ray Core no AWS Glue para Ray
Os ambientes do AWS Glue para Ray gerenciam a formação e a escalação de clusters, bem como a coleta e a visualização de logs. Como gerenciamos essas preocupações, consequentemente limitamos o acesso e a compatibilidade com as APIs no Ray Core que seriam usadas para resolver essas preocupações em um cluster de código aberto.
No ambiente de runtime do Ray2.4
, não oferecemos compatibilidade com:
Métodos de utilitários métricos do Prometheus
ray.util.metrics
:Outras ferramentas de depuração:
O que é o Ray Data?
Quando você está se conectando a fontes e destinos de dados, manipulando conjuntos de dados e iniciando transformações comuns, o Ray Data é uma metodologia simples de usar o Ray para resolver problemas de transformação de conjuntos de dados do Ray. Para obter mais informações sobre o uso do Ray Data, consulte Ray Datasets: Distributed Data Preprocessing
Você pode usar o Ray Data ou outras ferramentas para acessar dados. Para obter mais informações sobre como acessar dados no Ray, consulte Conectar a dados em trabalhos do Ray.
Ray Data no AWS Glue para Ray
O Ray Data é compatível e fornecido por padrão no ambiente de runtime gerenciado do Ray2.4
. Para obter mais informações sobre os módulos fornecidos, consulte Módulos fornecidos com trabalhos do Ray.