Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Ottimizzazione Spark SQL domande per AWS Glue e Amazon EMR Spark jobs
Phani Alapaty e Ravikiran Rao, Amazon Web Services ()AWS
Gennaio 2024 (storia del documento)
Spark SQL
L'unione dei dati è una delle operazioni più comuni e importanti che è possibile eseguire durante l'estrazione, la trasformazione o il caricamento di dati in archivi di oggetti o database. Al momento dell'iscrizione, è necessario considerare le prestazioni. Esistono diversi scenari, ad esempio trasferimenti di rete di grandi dimensioni, in cui alcune operazioni di unione, analisi o aggregazione esauriscono la memoria. Ciò può causare AWS Glue Spark lavoro da fallire.
Questa guida fornisce le migliori pratiche per aiutarti a ottimizzare Spark SQL rispondi alle domande per le nostre offerte AWS Glue di lavoro in Amazon EMR. Spark offre molte opzioni di configurazione che migliorano le prestazioni di Spark SQL carico di lavoro. Queste regolazioni possono essere eseguite a livello di codice oppure è possibile applicarle a livello globale utilizzando il comando. spark-submit
Questa guida spiega alcune di queste configurazioni in modo da poter migliorare o ottimizzare le prestazioni del Spark SQL domande e applicazioni. I consigli contenuti in questa guida si basano sulle configurazioni utilizzate da AWS
Professional Services per migliorare le prestazioni di Spark SQL domande e applicazioni.
Destinatari principali
Questa guida aiuta architetti, ingegneri dei dati, data scientist e sviluppatori a comprendere Spark SQL opzioni di configurazione che migliorano le prestazioni di Spark SQL interrogazioni.