AWS Glue 및 Amazon EMR Spark 작업에 대한 Spark SQL 쿼리 튜닝

Phani Alapaty와 Ravikiran Rao, Amazon Web Services(AWS)

2024년 1월(문서 기록)

Spark SQL는 구조화된 데이터를 처리하기 위한 Apache Spark 모듈입니다. Amazon EMR 및 AWS Glue 작업은 Spark SQL를 사용하여 데이터를 처리, 변환 및 로드합니다. 기본 Spark 복원력 있는 분산 데이터 세트(RDD) API와 달리 Spark SQL 인터페이스는 데이터 구조와 수행 중인 계산에 Spark 대한 자세한 정보를에 제공합니다. 내부적으로 Spark SQL는이 추가 정보를 사용하여 추가 쿼리 최적화를 수행합니다. SQL 및 데이터 세트 API를 Spark SQL포함하여와 상호 작용하는 방법에는 여러 가지가 있습니다.

데이터 조인은 데이터를 객체 스토어 또는 데이터베이스로 추출, 변환 또는 로드할 때 수행할 수 있는 가장 일반적이고 중요한 작업 중 하나입니다. 조인할 때 성능을 고려해야 합니다. 조인, 분석 또는 집계 작업 중 일부에 메모리가 부족한 경우 대규모 네트워크 전송과 같은 여러 시나리오가 있습니다. 이로 인해 작업이 실패할 수 있습니다 AWS Glue Spark.

이 가이드는 AWS Glue 또는 Amazon EMR 작업에 대한 Spark SQL 조인 쿼리를 조정하는 데 도움이 되는 모범 사례를 제공합니다.는 Spark SQL 워크로드의 성능을 개선하는 다양한 구성 옵션을 Spark 제공합니다. 이러한 조정은 프로그래밍 방식으로 수행하거나 spark-submit 명령을 사용하여 전역 수준에서 적용할 수 있습니다. 이 가이드에서는 Spark SQL 쿼리 및 애플리케이션의 성능을 개선하거나 미세 조정할 수 있도록 이러한 구성 중 일부를 설명합니다. 이 가이드의 권장 사항은 Professional Services가 AWS Spark SQL 쿼리 및 애플리케이션의 성능을 개선하는 데 사용하는 구성을 기반으로 합니다.

수강 대상

이 가이드는 아키텍트, 데이터 엔지니어, 데이터 과학자 및 개발자가 Spark SQL 쿼리 성능을 개선하는 Spark SQL 구성 옵션을 이해하는 데 도움이 됩니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

아키텍처