Ajustar Spark SQL consultas para AWS Glue e Amazon EMR Spark jobs - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Ajustar Spark SQL consultas para AWS Glue e Amazon EMR Spark jobs

Phani Alapaty e Ravikiran Rao, Amazon Web Services ()AWS

Janeiro de 2024 (histórico do documento)

Spark SQLé um Apache Spark módulo para processamento de dados estruturados. Amazon EMR e uso de empregos AWS Glue Spark SQL para processar, transformar e carregar dados. Ao contrário do básico Spark API resiliente de conjunto de dados distribuído (RDD), a Spark SQL as interfaces fornecem mais informações para Spark sobre a estrutura dos dados e da computação que está sendo executada. Internamente, Spark SQL usa essas informações extras para realizar otimizações adicionais de consulta. Há várias maneiras de interagir com Spark SQL, incluindo SQL e a API do conjunto de dados.

Unir dados é uma das operações mais comuns e importantes que você pode realizar ao extrair, transformar ou carregar dados em bancos de dados ou armazenamentos de objetos. Ao ingressar, você precisa considerar o desempenho. Há vários cenários, como grandes transferências de rede, quando algumas das operações de junção, análise ou agregação ficam sem memória. Isso pode causar o AWS Glue Spark trabalho para falhar.

Este guia fornece as melhores práticas que ajudam você a ajustar Spark SQL junte consultas para AWS Glue nossos trabalhos no Amazon EMR. Spark fornece muitas opções de configuração que melhoram o desempenho do Spark SQL carga horária. Esses ajustes podem ser feitos programaticamente ou você pode aplicá-los em nível global usando o spark-submit comando. Este guia explica algumas dessas configurações para que você possa melhorar ou ajustar o desempenho do seu Spark SQL consultas e aplicativos. As recomendações deste guia são baseadas nas configurações que o AWS Professional Services usa para melhorar o desempenho do Spark SQL consultas e aplicativos.

Público-alvo

Este guia ajuda arquitetos, engenheiros de dados, cientistas de dados e desenvolvedores a entender o Spark SQL opções de configuração que melhoram o desempenho do Spark SQL consultas.