Utilizzo di Ray Core e Ray Data in AWS Glue per Ray - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo di Ray Core e Ray Data in AWS Glue per Ray

Ray è un framework per dimensionare gli script Python distribuendo il processo su un cluster. Ray fornisce librerie per ottimizzare determinate attività e puoi usarlo come soluzione a molti tipi di problemi. In AWS Glue, ci concentriamo sull'uso di Ray per trasformare set di dati di grandi dimensioni. AWS Glue offre supporto per Ray Data e parti di Ray Core per facilitare questo compito.

Cos'è Ray Core?

Il primo passaggio per creare un'applicazione distribuita consiste nell'identificare e definire i processi che possono essere eseguiti in simultanea. Ray Core contiene le parti di Ray che si utilizzano per definire le attività che possono essere eseguite contemporaneamente. Ray fornisce informazioni di riferimento e di avvio rapido che è possibile utilizzare per apprendere gli strumenti forniti. Per ulteriori informazioni, consulta le pagine What is Ray Core? e Ray Core Quick Start. Per ulteriori informazioni sulla definizione efficace delle attività simultanee in Ray, consulta la pagina Tips for first-time users.

Attività e attori di Ray

Nella documentazione di AWS Glue per Ray, potremmo fare riferimento ad attività e attori, che sono concetti fondamentali di Ray.

Ray utilizza le funzioni e le classi Python come elementi costitutivi di un sistema di calcolo distribuito. Analogamente a quanto accade con le funzioni e le variabili di Python, che diventano "metodi" e "attributi" quando vengono utilizzate in una classe, le funzioni diventano "attività" e le classi diventano "attori" quando vengono utilizzate in Ray per inviare codice ai worker. È possibile identificare le funzioni e le classi che potrebbero essere utilizzate da Ray tramite l'annotazione @ray.remote.

Le attività e gli attori sono configurabili, hanno un ciclo di vita e occupano risorse di elaborazione per tutto il ciclo di vita. Il codice che genera errori può essere ricondotto a un'attività o a un attore quando si individua la causa principale dei problemi. Pertanto, potresti imbatterti in questi termini mentre impari a configurare, eseguire il debug o monitorare i processi AWS Glue per Ray.

Per imparare a utilizzare in modo efficace le attività e gli attori per creare un'applicazione distribuita, consulta la pagina Key Concepts nella documentazione di Ray.

Ray Core in AWS Glue per Ray

Gli ambienti AWS Glue per Ray gestiscono la formazione e la scalabilità dei cluster, nonché la raccolta e la visualizzazione dei log. Poiché gestiamo questi problemi, limitiamo di conseguenza l'accesso e il supporto alle API di Ray Core che verrebbero utilizzate per risolvere questi problemi in un cluster open source.

Nell'ambiente di runtime gestito Ray2.4, non supportiamo:

Cos'è Ray Data?

Quando ti connetti a origini e destinazioni dati, gestisci set di dati e avvii trasformazioni comuni, Ray Data è una metodologia semplice per utilizzare Ray per risolvere i problemi di trasformazione dei set di dati Ray. Per ulteriori informazioni sull'utilizzo di Ray Data, consulta la pagina Ray Datasets: Distributed Data Preprocessing.

Puoi utilizzare Ray Data o altri strumenti per accedere ai tuoi dati. Per ulteriori informazioni sull'accesso ai dati in Ray, consulta la pagina Connessione ai dati nei processi Ray.

Ray Data in AWS Glue per Ray

Ray Data è supportato e fornito per impostazione predefinita nell'ambiente di runtime gestito Ray2.4. Per ulteriori informazioni sui moduli disponibili, consulta Moduli disponibili con i processi Ray.