EMRFS S3 向けに最適化されたコミットプロトコルを使用する - Amazon EMR

EMRFS S3 向けに最適化されたコミットプロトコルを使用する

EMRFS S3 向けに最適化されたコミットプロトコルは代替 FileCommitProtocol 実装であり、EMRFS を使用するときの Amazon S3 への Spark の動的パーティション上書きを使用するファイル書き込みに対して最適化されています。このプロトコルは、Spark の動的パーティション上書きジョブのコミットフェーズ中の Amazon S3 での名前変更操作を回避することで、アプリケーションのパフォーマンスを向上させます。

EMRFS S3 向けに最適化されたコミッターを使用する はまた、名前変更操作を回避することでパフォーマンスを向上させることにも注意してください。ただし、動的パーティション上書きの場合は機能しませんが、コミットプロトコルの改善は動的パーティション上書きの場合のみを対象としています。

コミットプロトコルは Amazon EMR リリース 5.30.0 以降で使用でき、6.2.0 以降ではデフォルトで有効になっています。リリース 5.31.0 以降、Amazon EMR では並列処理の改善が追加されました。プロトコルは、Spark SQL、DataFrame、または Dataset を使用する Spark ジョブに使用されます。コミットプロトコルが使用されない状況があります。詳細については、「EMRFS S3 向けに最適化されたコミットプロトコルの要件」を参照してください。