Connessione ai dati nei processi Ray - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Connessione ai dati nei processi Ray

I processi AWS Glue Ray possono utilizzare un'ampia gamma di pacchetti Python progettati per integrare rapidamente i dati. Forniamo un set minimo di dipendenze per non appesantire l'ambiente. Per ulteriori informazioni sui componenti inclusi in modo predefinito, consulta la pagina Moduli disponibili con i processi Ray.

Nota

AWS Glueextract, transform, and load (ETL) fornisce l' DynamicFrame astrazione per semplificare i flussi di lavoro ETL in cui risolvi le differenze di schema tra le righe del set di dati. AWS Glue ETL offre funzionalità aggiuntive, segnalibri di processo e raggruppamento dei file di input. Al momento non forniamo funzionalità corrispondenti nei processi Ray.

AWS Glue per Spark fornisce supporto diretto per la connessione a determinati formati di dati, origini e sink. In Ray, l'SDK AWS per pandas e le attuali librerie di terze parti soddisfano sostanzialmente questa esigenza. Dovrai consultare tali librerie per capire quali funzionalità sono disponibili.

L'integrazione di AWS Glue per Ray con Amazon VPC non è attualmente disponibile. Le risorse in Amazon VPC non saranno accessibili senza un percorso pubblico. Per ulteriori informazioni sull'utilizzo di AWS Glue con i VPC di Amazon, consulta la pagina AWS Glue ed endpoint VPC dell'interfaccia (AWS PrivateLink).

Librerie comuni per lavorare con i dati in Ray

Ray Data: Ray Data fornisce metodi per gestire formati di dati, origini e sink comuni. Per ulteriori informazioni sui formati e le origini supportati in Ray Data, consulta la sezione Input/Output nella documentazione di Ray Data. Ray Data è una libreria prescrittiva anziché generica per la gestione di set di dati.

Ray fornisce alcune indicazioni sui casi d'uso in cui Ray Data potrebbe essere la soluzione migliore per il processo. Per ulteriori informazioni, consulta Casi d'uso di Ray nella documentazione di Ray.

AWSSDK for pandas (awswrangler) — AWS SDK for pandas è un AWS prodotto che offre soluzioni pulite e testate per la lettura e la scrittura da servizi quando le trasformazioni gestiscono i dati con pandas. AWS DataFrames Per ulteriori informazioni sui formati e le origini supportati nell'SDK AWS per pandas, consulta la Documentazione di riferimento all'API nella documentazione dell'SDK AWS per pandas.

Per esempi di come leggere e scrivere dati con l'SDK AWS per pandas, consulta la sezione Quick Start sul sito Web dell'SDK AWS per pandas. L'SDK AWS per pandas non fornisce trasformazioni per i dati. Fornisce supporto solo per la lettura e la scrittura dalle origini.

Modin: Modin è una libreria Python che implementa le comuni operazioni pandas in modo distribuibile. Per ulteriori informazioni su Modin, consulta la documentazione di Modin. Modin non fornisce supporto per la lettura e la scrittura dalle origini. Fornisce implementazioni distribuite di trasformazioni comuni. Modin è supportato dall'SDK AWS per pandas.

Quando esegui Modin e l'SDK AWS per pandas in combinazione in un ambiente Ray, puoi eseguire attività ETL comuni con risultati performanti. Per ulteriori informazioni sull'utilizzo di Modin con l'SDK AWS per pandas, consulta la sezione At scale nella documentazione dell'SDK AWS per pandas.

Altri framework: per ulteriori informazioni sui framework supportati da Ray, consulta The Ray Ecosystem nella documentazione di Ray. Non forniamo supporto per altri framework in AWS Glue per Ray.

Connessione ai dati tramite Catalogo dati

La gestione dei dati tramite Catalogo dati in combinazione con i processi Ray è supportata dall'SDK AWS per pandas. Per ulteriori informazioni, consulta Catalogo Glue sul sito Web dell'SDK AWS per pandas.