EMRFS S3 向けに最適化されたコミッターの使用 - Amazon EMR

EMRFS S3 向けに最適化されたコミッターの使用

EMRFS S3 向けに最適化されたコミッターは、EMRFS を使用するときに Amazon S3 にファイルを書き込めるように最適化された、代替の OutputCommitter 実装です。コミッターは Amazon EMR リリースバージョン 5.19.0 以降で使用でき、Amazon EMR 5.20.0 以降ではデフォルトで有効になっています。コミッターは、Spark SQL、DataFrame、または Dataset により Parquet ファイルを書き込む Spark ジョブに使用されます。コミッターが使用されない状況があります。詳細については、「EMRFS S3 向けに最適化されたコミッターの要件」を参照してください。

EMRFS S3 向けに最適化されたコミッターには、以下のようなメリットがあります。

  • ジョブおよびタスクコミットフェーズ中に Amazon S3 で行われるリストオペレーションと名前変更オペレーションを回避することにより、アプリケーションのパフォーマンスを向上させることができる。

  • ジョブおよびタスクコミットフェーズで Amazon S3 の結果整合性に関連して発生する可能性がある問題を回避し、タスクが失敗したときのジョブの正確性を向上させることができる。