AWS Glue per Spark e AWS Glue per Ray - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWS Glue per Spark e AWS Glue per Ray

In AWS Glue su Apache Spark (ETL AWS Glue), è possibile usare PySpark per scrivere codice Python per gestire i dati su larga scala. Spark è una soluzione comune per questo problema, ma i data engineer con background incentrati su Python possono trovare la transizione poco intuitiva. Il modello Spark DataFrame non è perfettamente adatto a Python, il che riflette il linguaggio Scala e il runtime Java su cui è basato.

In AWS Glue, è possibile utilizzare i processi della shell (interprete di comandi) di Python per eseguire integrazioni di dati Python native. Questi processi vengono eseguiti su una singola istanza Amazon EC2 e sono limitati dalla capacità di tale istanza. Ciò limita la velocità di trasmissione effettiva dei dati che è possibile elaborare e diventa costoso da mantenere quando si tratta di Big Data.

AWS Glue per Ray consente di aumentare i carichi di lavoro di Python senza investimenti sostanziali nell'apprendimento di Spark. È possibile sfruttare alcuni scenari in cui Ray si comporta meglio. Offrendoti una scelta, puoi utilizzare i punti di forza di Spark e Ray in base ai casi.

AWS Glue ETL e AWS Glue per Ray sono diversi alla base, quindi supportano funzionalità diverse. Controlla le documentazione per determinare le funzionalità supportate.

Cos'è AWS Glue per Ray?

Ray è un framework di calcolo distribuito open source che può essere utilizzato per scalare i carichi di lavoro, con particolare attenzione a Python. Per ulteriori informazioni su Ray, consulta il sito Web di Ray. AWS Glue I processi Ray e le sessioni interattive consentono di utilizzare Ray all'interno di AWS Glue.

AWS Glue per Ray può essere utilizzato per scrivere script Python per calcoli che verranno eseguiti in parallelo su più macchine. Nei processi e nelle sessioni interattive di Ray, è possibile utilizzare le librerie Python comuni come pandas per facilitare la scrittura e l'esecuzione dei flussi di lavoro. Per ulteriori informazioni sui set di dati di Ray, consulta Set di dati di Ray nella documentazione di Ray. Per ulteriori informazioni su Pandas, consulta il sito Web di Pandas.

Quando si utilizza AWS Glue per Ray, è possibile eseguire i flussi di lavoro di pandas sui big data su scala aziendale con poche righe di codice. È possibile creare un processo Ray dalla console AWS Glue o con l'SDK AWS. Per eseguire il codice su un ambiente Ray serverless, è possibile anche aprire una sessione interattiva AWS Glue. I processi visivi in AWS Glue Studio non sono ancora supportati.

I processi AWS Glue per Ray consentono di eseguire uno script in base a una pianificazione o in risposta a un evento di Amazon EventBridge. I processi archiviano le informazioni dei log e le statistiche di monitoraggio in CloudWatch che ti consentono di comprendere l'integrità e l'affidabilità del tuo script. Per ulteriori informazioni sull'utilizzo del sistema dei processi AWS Glue, consulta Utilizzo dei processi Ray in AWS Glue.

Le sessioni interattive di AWS Glue per Ray (anteprima) consentono di eseguire frammenti di codice uno dopo l'altro sulle stesse risorse in provisioning. Questa funzionalità può essere utilizzata per creare prototipi e sviluppare script in modo efficiente o creare le proprie applicazioni interattive. È possibile utilizzare le sessioni interattive AWS Glue dai notebook AWS Glue Studio nella AWS Management Console. Per ulteriori informazioni, consulta Utilizzare Notebooks with AWS Glue Studio e AWS Glue Puoi anche usarle tramite un kernel Jupyter, che consente di eseguire le sessioni interattive da strumenti di modifica del codice esistenti che supportano i notebook Jupyter, come VSCode. Per ulteriori informazioni, consulta Guida introduttiva alle AWS Glue sessioni interattive di For Ray (anteprima).

Ray automatizza il lavoro di dimensionamento del codice Python distribuendo l'elaborazione su un cluster di macchine che riconfigura in tempo reale, in base al carico. Ciò può portare a un miglioramento delle prestazioni per dollaro di determinati carichi di lavoro. Con i processi Ray, abbiamo integrato la scalabilità automatica in modo nativo nel modello del processo AWS Glue in modo da poter sfruttare appieno questa funzionalità. I processi Ray vengono eseguiti su AWS Graviton, con conseguente aumento del rapporto prezzo/prestazioni complessivo.

Oltre ai risparmi sui costi, è possibile utilizzare la scalabilità automatica nativa per eseguire i carichi di lavoro Ray senza investire tempo in operazioni di manutenzione, ottimizzazione e amministrazione del cluster. È possibile utilizzare le comuni librerie open source pronte all'uso, come pandas e l'SDK AWS per Pandas. Questi migliorano la velocità di iterazione durante lo sviluppo su AWS Glue per Ray. Quando si utilizza AWS Glue per Ray, è possibile sviluppare ed eseguire rapidamente carichi di lavoro di integrazione dei dati a costi ridotti.