Verbessern der Spark Leistung mit Amazon S3 - Amazon EMR

Verbessern der Spark Leistung mit Amazon S3

Amazon EMR bietet Features, mit denen die Leistung optimiert werden kann, wenn Spark für Abfragen und Lese- bzw. Schreiboperationen über Daten in Amazon S3 verwendet wird.

S3 Select kann in einigen Anwendungen die Abfrageleistung bei CSV- und JSON-Dateien verbessern, indem die Verarbeitung an Amazon S3 ausgelagert wird.

Die für EMRFS S3-optimierte Klasse Committer ist eine Alternative zu der Klasse OutputCommitter Sie verwendet das Feature für mehrteilige Uploads von EMRFS, und verbessert so die Leistung beim Schreiben von Parquet-Dateien nach Amazon S3 mit Spark SQL, DataFrames und Datasets.