As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Ajustar Spark SQL consultas para AWS Glue e Amazon EMR Spark jobs
Phani Alapaty e Ravikiran Rao, Amazon Web Services ()AWS
Janeiro de 2024 (histórico do documento)
Spark SQL
Unir dados é uma das operações mais comuns e importantes que você pode realizar ao extrair, transformar ou carregar dados em bancos de dados ou armazenamentos de objetos. Ao ingressar, você precisa considerar o desempenho. Há vários cenários, como grandes transferências de rede, quando algumas das operações de junção, análise ou agregação ficam sem memória. Isso pode causar o AWS Glue Spark trabalho para falhar.
Este guia fornece as melhores práticas que ajudam você a ajustar Spark SQL junte consultas para AWS Glue nossos trabalhos no Amazon EMR. Spark fornece muitas opções de configuração que melhoram o desempenho do Spark SQL carga horária. Esses ajustes podem ser feitos programaticamente ou você pode aplicá-los em nível global usando o spark-submit
comando. Este guia explica algumas dessas configurações para que você possa melhorar ou ajustar o desempenho do seu Spark SQL consultas e aplicativos. As recomendações deste guia são baseadas nas configurações que o AWS
Professional Services usa para melhorar o desempenho do Spark SQL consultas e aplicativos.
Público-alvo
Este guia ajuda arquitetos, engenheiros de dados, cientistas de dados e desenvolvedores a entender o Spark SQL opções de configuração que melhoram o desempenho do Spark SQL consultas.