Habilitar a interface do usuário da Web do Apache Spark para trabalhos do AWS Glue - AWS Glue

Habilitar a interface do usuário da Web do Apache Spark para trabalhos do AWS Glue

Você pode usar a interface do usuário Web do Apache Spark para monitorar e depurar trabalhos de ETL do AWS Glue em execução no sistema de trabalhos do AWS Glue. Você pode configurar a interface do usuário do Spark usando o console do AWS Glue ou a AWS Command Line Interface (AWS CLI).

A cada 30 segundos, o AWS Glue faz backup dos logs de eventos do Spark para o caminho do Amazon S3 especificado.

Configurar a interface do usuário do Spark (console)

Siga estas etapas para configurar a interface do usuário do Spark usando o AWS Management Console. Na criação de um trabalho do AWS Glue, a interface do usuário do Spark é habilitada por padrão.

Para ativar a interface do Spark quando você cria ou edita um trabalho
  1. Faça login no AWS Management Console e abra o console do AWS Glue em https://console.aws.amazon.com/glue/.

  2. No painel de navegação, escolha Tarefas.

  3. Escolha Adicionar trabalho ou selecione um trabalho que já exista.

  4. Em Detalhes do trabalho, abra as Propriedades avançadas.

  5. Na guia Interface do usuário do Spark, escolha Gravar logs da interface do usuário do Spark no Amazon S3.

  6. Especifique um caminho do Amazon S3 para armazenar os logs de eventos do Spark para o trabalho. Observe que, se você usar uma configuração de segurança no trabalho, a criptografia também se aplicará ao arquivo de log da interface do usuário do Spark. Para ter mais informações, consulte Criptografar dados gravados pelo AWS Glue.

  7. Em Configuração de log e monitoramento da interface do usuário do Spark:

    • Selecione Padrão se você estiver gerando logs para visualizar no console do AWS Glue.

    • Selecione Legado se você estiver gerando logs para visualizar em um servidor de histórico do Spark.

    • Você também pode optar por gerar os dois.

Configurar a interface do usuário do Spark (AWS CLI)

Para gerar logs para visualização com a interface do usuário do Spark no console do AWS Glue, use AWS CLI para passar os seguintes parâmetros de trabalho para os trabalhos do AWS Glue. Para ter mais informações, consulte Usar parâmetros de tarefa em tarefas do AWS Glue.

'--enable-spark-ui': 'true', '--spark-event-logs-path': 's3://s3-event-log-path'

Para distribuir logs para seus locais legados, defina o parâmetro --enable-spark-ui-legacy-path como "true". Se não quiser gerar logs nos dois formatos, remova o parâmetro --enable-spark-ui.

Configurar a interface do usuário do Spark para sessões usando cadernos

Atenção

No momento, as sessões interativas do AWS Glue não oferecem suporte à interface do usuário do Spark no console. Configure um servidor de histórico do Spark.

Se você usa cadernos do AWS Glue, configure a interface do usuário do Spark antes de iniciar a sessão. Para fazer isso, use a célula da mágica %%configure:

%%configure { “--enable-spark-ui”: “true”, “--spark-event-logs-path”: “s3://path” }

Habilitar logs contínuos

Habilitar o SparkUI e os arquivos de eventos de logs contínuos para trabalhos do AWS Glue oferece vários benefícios:

  • Arquivos de eventos de logs contínuo: com os arquivos de eventos de logs contínuo ativados, o AWS Glue gera arquivos de log separados para cada etapa da execução do trabalho, facilitando a identificação e a solução de problemas específicos de um determinado estágio ou transformação.

  • Melhor gerenciamento de registros: arquivos de eventos de logs contínuos ajudam a gerenciar arquivos de log com mais eficiência. Em vez de ter um único arquivo de log potencialmente grande, os registros são divididos em arquivos menores e mais gerenciáveis com base nos estágios de execução do trabalho. Isso pode simplificar o arquivamento, a análise e a solução de problemas de logs.

  • Maior tolerância a falhas: se um trabalho do AWS Glue falhar ou for interrompido, os arquivos de eventos de logs contínuos podem fornecer informações valiosas sobre o último estágio bem-sucedido, facilitando a retomada do trabalho a partir desse ponto, em vez de começar do zero.

  • Otimização de custos: ao ativar arquivos de eventos de logs contínuos, você pode economizar nos custos de armazenamento associados aos arquivos de log. Em vez de armazenar um único arquivo de log potencialmente grande, você armazena arquivos de log menores e mais gerenciáveis, o que pode ser mais econômico, especialmente para trabalhos complexos ou de longa duração.

Em um novo ambiente, os usuários podem habilitar explicitamente os logs contínuos por meio de:

'—conf': 'spark.eventLog.rolling.enabled=true'

ou

'—conf': 'spark.eventLog.rolling.enabled=true —conf spark.eventLog.rolling.maxFileSize=128m'

Quando os logs contínuos são ativados, o spark.eventLog.rolling.maxFileSize especifica o tamanho máximo do arquivo de log de eventos antes da rolagem. Se esse parâmetro não for especificado, o valor 128 MB será usado como padrão. O mínimo é 10 MB.

A soma máxima de todos os arquivos de eventos de logs acumulados gerados é 2 GB. Para trabalhos do AWS Glue sem suporte a logs contínuos, o tamanho máximo do arquivo de eventos de logs suportado pelo SparkUI é 0,5 GB.

É possível desativar os logs contínuos de um trabalho de streaming por meio da passagem de uma configuração adicional. Observe que a manutenção de arquivos de log muito grandes pode ser cara.

Para desativar os logs contínuos, forneça a seguinte configuração:

'--spark-ui-event-logs-path': 'true', '--conf': 'spark.eventLog.rolling.enabled=false'