Ottimizzazione Spark SQL domande per AWS Glue e Amazon EMR Spark jobs - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Ottimizzazione Spark SQL domande per AWS Glue e Amazon EMR Spark jobs

Phani Alapaty e Ravikiran Rao, Amazon Web Services ()AWS

Gennaio 2024 (storia del documento)

Spark SQLè un Apache Spark modulo per l'elaborazione di dati strutturati. Amazon EMR e AWS Glueutilizzo di Jobs Spark SQL per elaborare, trasformare e caricare dati. A differenza di quelli di base Spark API resilient distributed dataset (RDD), la Spark SQL le interfacce forniscono ulteriori informazioni a Spark sulla struttura dei dati e del calcolo eseguito. Internamente, Spark SQL utilizza queste informazioni aggiuntive per eseguire ottimizzazioni aggiuntive delle query. Esistono diversi modi per interagire con Spark SQL, tra cui SQL e l'API Dataset.

L'unione dei dati è una delle operazioni più comuni e importanti che è possibile eseguire durante l'estrazione, la trasformazione o il caricamento di dati in archivi di oggetti o database. Al momento dell'iscrizione, è necessario considerare le prestazioni. Esistono diversi scenari, ad esempio trasferimenti di rete di grandi dimensioni, in cui alcune operazioni di unione, analisi o aggregazione esauriscono la memoria. Ciò può causare AWS Glue Spark lavoro da fallire.

Questa guida fornisce le migliori pratiche per aiutarti a ottimizzare Spark SQL rispondi alle domande per le nostre offerte AWS Glue di lavoro in Amazon EMR. Spark offre molte opzioni di configurazione che migliorano le prestazioni di Spark SQL carico di lavoro. Queste regolazioni possono essere eseguite a livello di codice oppure è possibile applicarle a livello globale utilizzando il comando. spark-submit Questa guida spiega alcune di queste configurazioni in modo da poter migliorare o ottimizzare le prestazioni del Spark SQL domande e applicazioni. I consigli contenuti in questa guida si basano sulle configurazioni utilizzate da AWS Professional Services per migliorare le prestazioni di Spark SQL domande e applicazioni.

Destinatari principali

Questa guida aiuta architetti, ingegneri dei dati, data scientist e sviluppatori a comprendere Spark SQL opzioni di configurazione che migliorano le prestazioni di Spark SQL interrogazioni.