S3에 최적화된 커밋 프로토콜 사용 EMRFS - 아마존 EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

S3에 최적화된 커밋 프로토콜 사용 EMRFS

EMRFSS3에 최적화된 커밋 프로토콜은 Spark 동적 파티션 덮어쓰기를 사용하여 Amazon S3에 파일을 쓰는 데 최적화된 대체 FileCommitProtocol구현입니다. EMRFS 이 프로토콜은 Spark 동적 파티션 덮어쓰기 작업 커밋 단계 중 Amazon S3에서 이름 바꾸기 작업을 피함으로써 애플리케이션 성능을 개선합니다.

이름 바꾸기 작업을 피함으로써 EMRFSS3에 최적화된 커미터를 사용하십시오. 성능도 향상됩니다. 하지만 커밋 프로토콜의 개선 사항이 동적 파티션 덮어쓰기 사례만 대상으로 하는 반면 이 기능은 동적 파티션 덮어쓰기 사례에 유효하지 않습니다.

커밋 프로토콜은 Amazon EMR 릴리스 5.30.0 이상 및 6.2.0 이상에서 사용할 수 있으며 기본적으로 활성화되어 있습니다. Amazon은 릴리스 5.31.0부터 병렬 처리 개선 사항을 EMR 추가했습니다. 이 프로토콜은 Spark, 즉 데이터세트를 사용하는 Spark SQL 작업에 사용됩니다. DataFrames 커밋 프로토콜이 사용되지 않는 상황이 있습니다. 자세한 내용은 S3에 최적화된 커밋 프로토콜의 EMRFS 요구 사항 단원을 참조하십시오.