EMRFS S3 최적화 커미터 사용 - Amazon EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

EMRFS S3 최적화 커미터 사용

EMRFS S3 최적화된 커미터는 EMRFS를 사용할 때 Amazon S3에 파일을 쓰는 데 최적화된 대체 OutputCommitter 구현입니다. EMRFS S3 최적화 커미터는 작업 커밋 단계 중 Amazon S3에서 수행된 나열 및 이름 바꾸기 조작을 피함으로써 애플리케이션 성능을 향상시킵니다. 커미터는 Amazon EMR 릴리스 버전 5.19.0 이상에서 사용 가능하며 Amazon EMR 5.20.0 이상에서 기본적으로 활성화됩니다. 커미터는 Spark, DataFrames 또는 데이터세트를 사용하는 Spark 작업에 사용됩니다. Amazon EMR 6.4.0부터 이 커미터는 Parquet, ORC 및 텍스트 기반 형식(CSV 및 JSON 포함)을 비롯한 모든 일반적인 형식에 사용할 수 있습니다. Amazon EMR 6.4.0 이전 릴리스의 경우 Parquet 형식만 지원됩니다. 커미터가 사용되지 않는 상황이 있습니다. 자세한 내용은 EMRFS S3 최적화 커미터의 요구 사항 단원을 참조하십시오.