EMRFS S3 向けに最適化されたコミッターを使用する - Amazon EMR

EMRFS S3 向けに最適化されたコミッターを使用する

EMRFS S3 向けに最適化されたコミッターは代替 OutputCommitter 実装であり、EMRFS を使用するときの Amazon S3 へのファイル書き込みに対して最適化されています。EMRFS S3 向けに最適化されたコミッターは、ジョブおよびタスクコミットフェーズ中に Amazon S3 で行われるリストオペレーションと名前変更オペレーションを回避することにより、アプリケーションのパフォーマンスを向上させることができます。コミッターは Amazon EMR リリース 5.19.0 以降で使用でき、Amazon EMR 5.20.0 以降ではデフォルトで有効になっています。コミッターは、Spark SQL、DataFrame、または Dataset を使用する Spark ジョブに使用されます。Amazon EMR 6.4.0 以降では、Parquet、ORC、テキストベースの形式 (CSV と JSON を含む) など、一般的なあらゆる形式にこのコミッターを使用できます。Amazon EMR 6.4.0 より前のリリースでは、Parquet 形式のみがサポートされています。コミッターが使用されない状況があります。詳細については、「EMRFS S3 向けに最適化されたコミッターの要件」を参照してください。