Habilitación de la interfaz de usuario web de Apache Spark para trabajos de AWS Glue - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Habilitación de la interfaz de usuario web de Apache Spark para trabajos de AWS Glue

Puede utilizar la interfaz de usuario web de Apache Spark para monitorizar y depurar trabajos de ETL AWS Glue que se ejecutan en el sistema de trabajos AWS Glue. Puede configurar la interfaz de usuario de Spark mediante la consola de AWS Glue o la AWS Command Line Interface (AWS CLI).

Cada 30 segundos, AWS Glue hace una copia de seguridad de los registros de eventos de Spark a la ruta de Amazon S3 que especifique.

Configuración de la interfaz de usuario de Spark (consola)

Siga estos pasos para configurar la interfaz de usuario de Spark mediante la AWS Management Console. Al crear un AWS Glue trabajo, la interfaz de usuario de Spark está habilitada de forma predeterminada.

Activar la interfaz de Spark al crear o editar un trabajo
  1. Inicia sesión AWS Management Console y abre la AWS Glue consola en https://console.aws.amazon.com/glue/.

  2. En el panel de navegación, seleccione Trabajos.

  3. Elija Agregar trabajo o seleccione uno existente.

  4. En Detalles del trabajo, abra las Propiedades avanzadas.

  5. En la pestaña Interfaz de usuario de Spark, seleccione Escribir registros de interfaz de usuario de Spark en Amazon S3.

  6. Especifique una ruta de Amazon S3 para almacenar los registros de eventos de Spark para el trabajo. Tenga en cuenta que cuando utiliza una configuración de seguridad en el trabajo, el cifrado también se aplica al archivo de registro de la interfaz de usuario de Spark. Para obtener más información, consulte Cifrado de datos escritos por AWS Glue.

  7. En la Configuración de registro y monitoreo de la interfaz de usuario de Spark:

    • Seleccione Estándar si va a generar registros para verlos en la AWS Glue consola.

    • Si está generando registros para verlos en un servidor de historial de Spark, seleccione Heredado.

    • También puede optar por generar ambos.

Configuración de la interfaz de usuario de Spark (AWS CLI)

Para generar registros para verlos con la interfaz de usuario de Spark, en la AWS Glue consola, usa AWS CLI para pasar los siguientes parámetros de trabajo a los AWS Glue trabajos. Para obtener más información, consulte Parámetros de los trabajos de AWS Glue.

'--enable-spark-ui': 'true', '--spark-event-logs-path': 's3://s3-event-log-path'

Para distribuir los registros a sus ubicaciones antiguas, establezca el parámetro --enable-spark-ui-legacy-path en "true". Si no desea generar registros en ambos formatos, elimine el parámetro --enable-spark-ui.

Configuración de la interfaz de usuario de Spark para sesiones con cuadernos

aviso

AWS Glue Por el momento, las sesiones interactivas no admiten la interfaz de usuario de Spark en la consola. Configure un servidor de historial de Spark.

Si utilizas AWS Glue ordenadores portátiles, configura la configuración de SparkUI antes de iniciar la sesión. Para ello, utilice el comando mágico celular %%configure:

%%configure { “--enable-spark-ui”: “true”, “--spark-event-logs-path”: “s3://path” }

Habilita los registros continuos

Habilitar SparkUI y los archivos de eventos de registro continuo para los AWS Glue trabajos ofrece varias ventajas:

  • Archivos de registro continuo de eventos: al habilitar los archivos de registro continuo de eventos, AWS Glue genera archivos de registro independientes para cada paso de la ejecución del trabajo, lo que facilita la identificación y la solución de problemas específicos de una etapa o transformación en particular.

  • Mejor administración del registro: los archivos de registro continuo de eventos ayudan a administrar los archivos de registro de manera más eficiente. En lugar de tener un único archivo de registro, potencialmente grande, los registros se dividen en archivos más pequeños y fáciles de administrar en función de las etapas de ejecución del trabajo. Esto puede simplificar el archivado, el análisis y la solución de problemas de los registros.

  • Tolerancia a errores mejorada: si un AWS Glue trabajo falla o se interrumpe, los archivos de registro continuo de eventos pueden proporcionar información valiosa sobre la última etapa exitosa, lo que facilita reanudar el trabajo desde ese punto en lugar de empezar desde cero.

  • Optimización de costos: al habilitar los archivos de registro continuo de eventos, puede ahorrar en los costos de almacenamiento asociados a los archivos de registro. En lugar de almacenar un único archivo de registro, potencialmente grande, se almacenan archivos de registro más pequeños y fáciles de administrar, lo que puede resultar más rentable, especialmente para trabajos complejos o de larga duración.

En un entorno nuevo, los usuarios pueden habilitar de forma explícita la acumulación de registros mediante:

'—conf': 'spark.eventLog.rolling.enabled=true'

o

'—conf': 'spark.eventLog.rolling.enabled=true —conf spark.eventLog.rolling.maxFileSize=128m'

Cuando se activan los registros acumulativos, spark.eventLog.rolling.maxFileSize especifica el tamaño máximo del archivo de registro de eventos antes de transferirlo. El valor por defecto de este parámetro opcional, si no se especifica, es 128 MB. El mínimo es de 10 MB.

La suma máxima de todos los archivos de eventos acumulados generados es de 2 GB. Para los AWS Glue trabajos que no admiten registros continuos, el tamaño máximo del archivo de eventos de registro que admite SparkUI es de 0,5 GB.

Puede desactivar los registros acumulativos de un trabajo de streaming al introducir una configuración adicional. Tenga en cuenta que el mantenimiento de archivos de registro muy grandes puede resultar costoso.

Para desactivar los registros continuos, proporcione la siguiente configuración:

'--spark-ui-event-logs-path': 'true', '--conf': 'spark.eventLog.rolling.enabled=false'