Conectar a dados em trabalhos do Ray - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Conectar a dados em trabalhos do Ray

Os trabalhos do Ray do AWS Glue podem usar uma ampla variedade de pacotes do Python criados para você integrar dados rapidamente. Fornecemos um conjunto mínimo de dependências para não encher demais seu ambiente. Para obter mais informações sobre o que está incluído por padrão, consulte Módulos fornecidos com trabalhos do Ray.

nota

A extração, transformação e carregamento (ETL) do AWS Glue fornece a abstração DynamicFrame para otimizar fluxos de trabalho de ETL nos quais você resolve as diferenças de esquema entre as linhas do conjunto de dados. O ETL do AWS Glue ETL fornece recursos adicionais: marcadores de trabalhos e agrupamento de arquivos de entrada. No momento, não fornecemos recursos correspondentes em trabalhos do Ray.

O AWS Glue para Spark permite a conexão direta com determinados formatos de dados, fontes e coletores. No Ray, o SDK da AWS para bibliotecas pandas e bibliotecas atuais de terceiros atendem substancialmente a essa necessidade. Você precisará consultar essas bibliotecas para entender quais recursos estão disponíveis.

A integração do AWS Glue para Ray com a Amazon VPC não está disponível no momento. Os recursos da Amazon VPC não estarão acessíveis sem uma rota pública. Para obter mais informações sobre o uso do AWS Glue com a Amazon VPC, consulte AWS Glue e endpoint da VPC de interface (AWS PrivateLink).

Bibliotecas comuns para trabalhar com dados no Ray

Ray Data, o Ray Data fornece métodos para lidar com formatos, fontes e coletores de dados comuns. Para obter mais informações sobre formatos e fontes compatíveis com o Ray Data, consulte Entrada/saída na documentação do Ray Data. O Ray Data é uma biblioteca opinativa, não uma biblioteca de uso geral, para lidar com conjuntos de dados.

O Ray fornece algumas orientações sobre casos de uso em que o Ray Data pode ser a melhor solução para seu trabalho. Para obter mais informações, consulte Casos de uso do Ray na documentação do Ray.

AWS SDK for pandas (awswrangler): o AWS SDK for pandas é um produto da AWS que oferece soluções limpas e testadas para leitura e gravação em serviços da AWS quando as transformações gerenciam dados com DataFrames pandas. Para obter mais informações sobre formatos e fontes compatíveis no AWS SDK for pandas, consulte a API Reference na documentação do AWS SDK para pandas.

Para obter exemplos de como ler e gravar dados com o AWS SDK for pandas, consulte Quick Start na documentação do AWS SDK for pandas. O AWS SDK for pandas não fornece transformações para seus dados. Ele só é compatível com leitura e gravação a partir de fontes.

Modin: Modin é uma biblioteca do Python que implementa operações comuns do pandas de uma forma distributível. Para obter mais informações sobre o Modin, consulte a documentação do Modin. O próprio Modin não é compatível com leitura e gravação a partir de fontes. Ele fornece implementações distribuídas de transformações comuns. O Modin é compatível com o AWS SDK for pandas.

Ao executar o Modin e o AWS SDK for pandas juntos em um ambiente do Ray, você pode realizar tarefas comuns de ETL com resultados de alta performance. Para obter mais informações sobre como usar o Modin com o AWS SDK para pandas, consulte At scale no AWS SDK for pandas.

Outras estruturas: para obter mais informações sobre estruturas compatíveis com o Ray, consulte O ecossistema do Ray na documentação do Ray. Não há compatibilidade com outras estruturas no AWS Glue para Ray.

Conectar-se a dados por meio do catálogo de dados

O gerenciamento dados por meio do catálogo de dados em conjunto com os trabalhos do Ray é compatível com SDK da AWSpara pandas. Para obter mais informações, consulte Glue Catalog no site do AWS SDK for pandas.