Migliorare le prestazioni di Spark con Amazon S3 - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Migliorare le prestazioni di Spark con Amazon S3

Amazon EMR offre caratteristiche che aiutano a ottimizzare le prestazioni quando si usa Spark per eseguire query e leggere e scrivere i dati salvati in Amazon S3.

S3 Select può migliorare le prestazioni delle query per i file CSV e JSON in alcune applicazioni mediante il pushdown dell'elaborazione ad Amazon S3.

Il committer ottimizzato per EMRFS S3 è un'alternativa alla OutputCommitterclasse, che utilizza la funzionalità di caricamento multiparte di EMRFS per migliorare le prestazioni durante la scrittura di file Parquet su Amazon S3 utilizzando Spark SQL e Datasets. DataFrames