使用 EMRFS S3 優化遞交者 - Amazon EMR

使用 EMRFS S3 優化遞交者

EMRFS S3 優化遞交者是 OutputCommitter 實作的替代方案,針對使用 EMRFS 時寫入檔案至 Amazon S3 的操作優化。EMRFS S3 優化遞交者透過避免在作業和任務遞交階段於 Amazon S3 執行清單和重新命名操作,藉此提升應用程式效能。遞交者在 Amazon EMR 5.19.0 版和更高版本中提供,並在 Amazon EMR 5.20.0 和更高版本預設為啟用。該遞交者用於使用 Spark SQL、DataFrames 或 Datasets 的 Spark 作業。從 Amazon EMR 6.4.0 開始,此遞交者可用於所有常見格式,包括 parquet、ORC 和文字類型格式 (例如 CSV 和 JSON)。對於 Amazon EMR 6.4.0 之前的版本,僅支援 Parquet 格式。在某些情況下將不會使用遞交者。如需更多詳細資訊,請參閱 EMRFS S3 優化遞交者要求