Verwenden der EMRFS S3-optimierten Committer-Klasse - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden der EMRFS S3-optimierten Committer-Klasse

Der S3-optimierte EMRFS-Committer ist eine alternative OutputCommitter-Implementierung, die für das Schreiben von Dateien in Amazon S3 bei Verwendung von EMRFS optimiert ist. Die Committer-Klasse ist verfügbar für Amazon EMR Version 5.19.0 und höher und ist bei Amazon EMR 5.20.0 und höher standardmäßig aktiviert. Der Committer wird für Spark-Aufträge verwendet, die Spark SQL, DataFrames oder Datasets zum Schreiben von Parquet-Dateien verwenden. Es gibt Situationen, in denen der Committer nicht verwendet wird. Weitere Informationen finden Sie unter Anforderungen für den S3-optimierten EMRFS-Committer.

Der S3-optimierte EMRFS-Committer hat die folgenden Vorteile:

  • Verbessert die Anwendungsleistung durch Umgehung der Operationen zum Auflisten und Umbenennen, die während der Commit-Phasen von Aufträgen und Aufgaben in Amazon S3 durchgeführt werden.

  • Vermeidet Probleme, die in Zusammenhang mit der letztendlichen Datenkonsistenz in Amazon S3 während der Commit-Phasen für Aufträge und Aufgaben auftreten können und trägt zur Verbesserung der Korrektheit der Aufträge bei, wenn bei Aufgaben Fehler auftreten.