Ajuste Spark SQL consultas para AWS Glue y Amazon EMR Spark jobs

Phani Alapaty y Ravikiran Rao, Amazon Web Services ()AWS

Enero de 2024 (historia del documento)

Spark SQLes un Apache Spark módulo para procesar datos estructurados. Amazon EMR y AWS Glueel uso de empleos Spark SQL para procesar, transformar y cargar datos. A diferencia del básico Spark API resiliente de conjuntos de datos distribuidos (RDD), la Spark SQL las interfaces proporcionan más información a Spark acerca de la estructura de los datos y del cálculo que se está realizando. Internamente, Spark SQL utiliza esta información adicional para realizar optimizaciones de consultas adicionales. Hay varias formas de interactuar con Spark SQL, incluidos SQL y la API de conjuntos de datos.

La unión de datos es una de las operaciones más comunes e importantes que se pueden realizar al extraer, transformar o cargar datos en almacenes de objetos o bases de datos. Al unirse, debe tener en cuenta el rendimiento. Existen varios escenarios, como grandes transferencias de red, cuando algunas de las operaciones de unión, análisis o agregación se quedan sin memoria. Esto puede provocar la AWS Glue Spark fallar en el trabajo.

Esta guía proporciona las mejores prácticas que le ayudarán a afinar Spark SQL únase a consultas para AWS Glue trabajos de Amazon EMR. Spark proporciona muchas opciones de configuración que mejoran el rendimiento del Spark SQL carga de trabajo. Estos ajustes se pueden realizar mediante programación o se pueden aplicar a nivel global mediante el spark-submit comando. En esta guía se explican algunas de estas configuraciones para que pueda mejorar o ajustar el rendimiento de su Spark SQL consultas y aplicaciones. Las recomendaciones de esta guía se basan en las configuraciones que utiliza AWS Professional Services para mejorar el rendimiento de Spark SQL consultas y aplicaciones.

Destinatarios previstos

Esta guía ayuda a los arquitectos, ingenieros de datos, científicos de datos y desarrolladores a comprender la Spark SQL opciones de configuración que mejoran el rendimiento de Spark SQL consultas.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Arquitectura