Habilitación de la interfaz de usuario web de Apache Spark para trabajos de AWS Glue - AWS Glue

Habilitación de la interfaz de usuario web de Apache Spark para trabajos de AWS Glue

Puede utilizar la interfaz de usuario web de Apache Spark para monitorizar y depurar trabajos de ETL AWS Glue que se ejecutan en el sistema de trabajos AWS Glue. Puede configurar la interfaz de usuario de Spark mediante la consola de AWS Glue o la AWS Command Line Interface (AWS CLI).

Cada 30 segundos, AWS Glue hace una copia de seguridad de los registros de eventos de Spark a la ruta de Amazon S3 que especifique.

Configuración de la interfaz de usuario de Spark (consola)

Siga estos pasos para configurar la interfaz de usuario de Spark mediante la AWS Management Console. Cuando se crea un trabajo en AWS Glue, la interfaz de usuario de Spark se habilita de forma predeterminada.

Activar la interfaz de Spark al crear o editar un trabajo
  1. Inicie sesión en la AWS Management Console y abra la consola de AWS Glue en https://console.aws.amazon.com/glue/.

  2. En el panel de navegación, seleccione Trabajos.

  3. Elija Agregar trabajo o seleccione uno existente.

  4. En Detalles del trabajo, abra las Propiedades avanzadas.

  5. En la pestaña Interfaz de usuario de Spark, seleccione Escribir registros de interfaz de usuario de Spark en Amazon S3.

  6. Especifique una ruta de Amazon S3 para almacenar los registros de eventos de Spark para el trabajo. Tenga en cuenta que cuando utiliza una configuración de seguridad en el trabajo, el cifrado también se aplica al archivo de registro de la interfaz de usuario de Spark. Para obtener más información, consulte Cifrado de datos escritos por AWS Glue.

  7. En la Configuración de registro y monitoreo de la interfaz de usuario de Spark:

    • Si está generando registros para verlos en la consola de AWS Glue, seleccione Estándar.

    • Si está generando registros para verlos en un servidor de historial de Spark, seleccione Heredado.

    • También puede optar por generar ambos.

Configuración de la interfaz de usuario de Spark (AWS CLI)

Para generar registros y verlos con la interfaz de usuario de Spark en la consola de AWS Glue, utilice la AWS CLI y transfiera los siguientes parámetros de trabajo a los trabajos de AWS Glue. Para obtener más información, consulte Uso de los parámetros de trabajo en los trabajos de AWS Glue.

'--enable-spark-ui': 'true', '--spark-event-logs-path': 's3://s3-event-log-path'

Para distribuir los registros a sus ubicaciones antiguas, establezca el parámetro --enable-spark-ui-legacy-path en "true". Si no desea generar registros en ambos formatos, elimine el parámetro --enable-spark-ui.

Configuración de la interfaz de usuario de Spark para sesiones con cuadernos

aviso

Las sesiones interactivas de AWS Glue no admiten la interfaz de usuario de Spark en la consola. Configure un servidor de historial de Spark.

Si utiliza cuadernos de AWS Glue, configure la interfaz de usuario de Spark antes de iniciar la sesión. Para ello, utilice el comando mágico celular %%configure:

%%configure { “--enable-spark-ui”: “true”, “--spark-event-logs-path”: “s3://path” }

Activación de registros continuos

Activar SparkUI y los archivos de eventos de registro continuo para los trabajos de AWS Glue Glue ofrece varias ventajas:

  • Archivos de eventos de registro continuo: al activar los archivos de eventos de registro continuo, AWS Glue genera archivos de registro independientes para cada paso de la ejecución del trabajo, lo que facilita la identificación y la solución de problemas específicos de una etapa o transformación en particular.

  • Mejor administración del registro: los archivos de eventos de registro continuo ayudan a administrar los archivos de registro de manera más eficiente. En lugar de tener un único archivo de registro, potencialmente grande, los registros se dividen en archivos más pequeños y fáciles de administrar en función de las etapas de ejecución del trabajo. Esto puede simplificar el archivado, el análisis y la solución de problemas de los registros.

  • Tolerancia a errores mejorada: si un trabajo de AWS Glue falla o se interrumpe, los archivos de eventos de registro continuo pueden proporcionar información valiosa sobre la última etapa exitosa, lo que facilita la reanudación del trabajo desde ese punto en lugar de empezar desde cero.

  • Optimización de costos: al habilitar los archivos de eventos de registro continuo, puede ahorrar en los costos de almacenamiento asociados a los archivos de registro. En lugar de almacenar un único archivo de registro, potencialmente grande, se almacenan archivos de registro más pequeños y fáciles de administrar, lo que puede resultar más rentable, especialmente para trabajos complejos o de larga duración.

En un entorno nuevo, los usuarios pueden habilitar de forma explícita la acumulación de registros mediante:

'—conf': 'spark.eventLog.rolling.enabled=true'

o

'—conf': 'spark.eventLog.rolling.enabled=true —conf spark.eventLog.rolling.maxFileSize=128m'

Cuando se activan los registros continuos, spark.eventLog.rolling.maxFileSize especifica el tamaño máximo del archivo de registro de eventos antes de transferirlo. El valor por defecto de este parámetro opcional, si no se especifica, es 128 MB. El mínimo es 10 MB.

La suma máxima de todos los archivos de eventos de registro continuo generados es de 2 GB. Para los trabajos de AWS Glue que no admiten registros continuos, el tamaño máximo del archivo de eventos de registro que admite SparkUI es de 0,5 GB.

Puede desactivar los registros acumulativos de un trabajo de streaming al introducir una configuración adicional. Tenga en cuenta que el mantenimiento de archivos de registro muy grandes puede resultar costoso.

Para desactivar los registros continuos, proporcione la siguiente configuración:

'--spark-ui-event-logs-path': 'true', '--conf': 'spark.eventLog.rolling.enabled=false'