Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Ajuste Spark SQL consultas para AWS Glue y Amazon EMR Spark jobs
Phani Alapaty y Ravikiran Rao, Amazon Web Services ()AWS
Enero de 2024 (historia del documento)
Spark SQL
La unión de datos es una de las operaciones más comunes e importantes que se pueden realizar al extraer, transformar o cargar datos en almacenes de objetos o bases de datos. Al unirse, debe tener en cuenta el rendimiento. Existen varios escenarios, como grandes transferencias de red, cuando algunas de las operaciones de unión, análisis o agregación se quedan sin memoria. Esto puede provocar la AWS Glue Spark fallar en el trabajo.
Esta guía proporciona las mejores prácticas que le ayudarán a afinar Spark SQL únase a consultas para AWS Glue trabajos de Amazon EMR. Spark proporciona muchas opciones de configuración que mejoran el rendimiento del Spark SQL carga de trabajo. Estos ajustes se pueden realizar mediante programación o se pueden aplicar a nivel global mediante el spark-submit
comando. En esta guía se explican algunas de estas configuraciones para que pueda mejorar o ajustar el rendimiento de su Spark SQL consultas y aplicaciones. Las recomendaciones de esta guía se basan en las configuraciones que utiliza AWS
Professional Services para mejorar el rendimiento de Spark SQL consultas y aplicaciones.
Destinatarios previstos
Esta guía ayuda a los arquitectos, ingenieros de datos, científicos de datos y desarrolladores a comprender la Spark SQL opciones de configuración que mejoran el rendimiento de Spark SQL consultas.