AWS Glue 및 Amazon EMR Spark 작업에 대한 Spark SQL 쿼리 튜닝 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS Glue 및 Amazon EMR Spark 작업에 대한 Spark SQL 쿼리 튜닝

Phani Alapaty와 Ravikiran Rao, Amazon Web Services(AWS)

2024년 1월(문서 기록)

Spark SQL는 구조화된 데이터를 처리하기 위한 Apache Spark 모듈입니다. Amazon EMRAWS Glue 작업은 Spark SQL를 사용하여 데이터를 처리, 변환 및 로드합니다. 기본 Spark 복원력 있는 분산 데이터 세트(RDD) API와 달리 Spark SQL 인터페이스는 데이터 구조와 수행 중인 계산에 Spark 대한 자세한 정보를에 제공합니다. 내부적으로 Spark SQL는이 추가 정보를 사용하여 추가 쿼리 최적화를 수행합니다. SQL 및 데이터 세트 API를 Spark SQL포함하여와 상호 작용하는 방법에는 여러 가지가 있습니다.

데이터 조인은 데이터를 객체 스토어 또는 데이터베이스로 추출, 변환 또는 로드할 때 수행할 수 있는 가장 일반적이고 중요한 작업 중 하나입니다. 조인할 때 성능을 고려해야 합니다. 조인, 분석 또는 집계 작업 중 일부에 메모리가 부족한 경우 대규모 네트워크 전송과 같은 여러 시나리오가 있습니다. 이로 인해 작업이 실패할 수 있습니다 AWS Glue Spark.

이 가이드는 AWS Glue 또는 Amazon EMR 작업에 대한 Spark SQL 조인 쿼리를 조정하는 데 도움이 되는 모범 사례를 제공합니다.는 Spark SQL 워크로드의 성능을 개선하는 다양한 구성 옵션을 Spark 제공합니다. 이러한 조정은 프로그래밍 방식으로 수행하거나 spark-submit 명령을 사용하여 전역 수준에서 적용할 수 있습니다. 이 가이드에서는 Spark SQL 쿼리 및 애플리케이션의 성능을 개선하거나 미세 조정할 수 있도록 이러한 구성 중 일부를 설명합니다. 이 가이드의 권장 사항은 Professional Services가 AWS Spark SQL 쿼리 및 애플리케이션의 성능을 개선하는 데 사용하는 구성을 기반으로 합니다.

수강 대상

이 가이드는 아키텍트, 데이터 엔지니어, 데이터 과학자 및 개발자가 Spark SQL 쿼리 성능을 개선하는 Spark SQL 구성 옵션을 이해하는 데 도움이 됩니다.