Atributos e conceitos importantes - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Atributos e conceitos importantes

Registro em log e monitoramento

AWS Glue tem várias opções de registro e monitoramento. Por padrão, AWS Glue envia registros para o grupo de aws-glue registros na Amazon CloudWatch. Esses logs incluem informações como horário de início e término, configurações e quaisquer erros ou avisos que possam ter ocorrido.

Além disso, as tarefas de ETL do AWS Glue Spark oferecem as seguintes opções, que devem ser ativadas para monitoramento avançado:

  • As métricas de trabalho relatam métricas específicas do trabalho para o AWS Glue namespace a cada 30 segundos. CloudWatch Essas métricas específicas do trabalho, como registros processados, tamanho total dos dados de entrada/saída e runtime, fornecem informações sobre o desempenho de um trabalho. Eles podem ajudar a identificar gargalos ou oportunidades para otimizar as configurações.

  • O registro contínuo transmite os registros de tarefas do Apache Spark em tempo real para o /aws-glue/jobs/logs-v2 grupo de registros em. CloudWatch Ao usar registros em tempo real, você pode monitorar dinamicamente as AWS Glue tarefas enquanto elas estão em execução.

  • A interface de usuário do Spark fornece uma interface web do servidor de histórico do Spark para visualizar informações sobre o trabalho do Spark, como o cronograma do evento de cada estágio, um gráfico acíclico direcionado e variáveis do ambiente do trabalho. Os logs de eventos da interface do usuário do Spark persistidos são armazenados no Amazon S3 e você pode usá-los em tempo real ou após a conclusão do trabalho.

  • Os Insights de trabalhos simplifica a depuração e a otimização de tarefas, detectando exceções comuns do Spark, realizando análises de causa-raiz e fornecendo ações recomendadas para corrigir problemas. Os insights são armazenados em CloudWatch.

Automação

AWS Glue fornece duas maneiras principais de automatizar tarefas de ETL: acionadores e fluxos de trabalho.

AWS Glue gatilhos

Quando acionados, AWS Glue os gatilhos iniciam trabalhos e rastreadores especificados. Um gatilho pode ser acionado sob demanda, com base em uma programação predefinida ou em eventos específicos. Ao usar gatilhos, você pode projetar uma cadeia de trabalhos e crawlers dependentes. Para obter mais informações, consulte Gatilhos do AWS Glue

AWS Glue fluxos de trabalho

Para cargas de trabalho mais complexas, você pode usar AWS Glue fluxos de trabalho para criar gráficos acíclicos direcionados e criar dependências entre AWS Glue entidades separadas (acionadores, rastreadores e trabalhos). Os fluxos de trabalho também fornecem uma interface unificada na qual você pode compartilhar parâmetros, monitorar o progresso e solucionar problemas entre entidades associadas.

Configurar muitas entidades associadas em AWS Glue fluxos de trabalho pode se tornar cada vez mais complexo. Os desenvolvedores podem criar Esquemas do AWS Glue para compartilhar pipelines de dados complexos com cientistas de dados e analistas de negócios. Esses modelos permitem a criação consistente e repetível de AWS Glue fluxos de trabalho, abstraindo os detalhes técnicos.

Para saber mais sobre AWS Glue esquemas e fluxos de trabalho, consulte Execução de atividades complexas de ETL usando esquemas e fluxos de trabalho em. AWS Glue

Orquestrando AWS Glue trabalhos com outros serviços AWS

Para obter mais opções de automação, AWS Glue integra-se a outros AWS serviços, como AWS Lambda AWS Step Functions, e Amazon Managed Workflows for Apache Airflow (Amazon MWAA).

Para comparar os diferentes métodos de orquestração para trabalhos de AWS Glue ETL, consulte Criação de um pipeline de dados operacionalmente excelente.

Marcadores de trabalho

Os marcadores de tarefas AWS Glue são usados para acompanhar o progresso das tarefas ETL, o que evita a necessidade de reprocessar dados em execuções de tarefas subsequentes. Quando os marcadores de tarefas estão habilitados, AWS Glue mantém um registro dos dados que já foram processados. Então, a cada execução, ele processa somente os novos dados na fonte de dados. Para obter mais informações, consulte Rastreamento de dados processados usando marcadores de trabalho.