重要功能和概念 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

重要功能和概念

日志记录和监控

AWS Glue 有几个日志和监控选项。默认情况下, AWS Glue 会将日志发送到 Amazon 中的aws-glue日志组 CloudWatch。这些日志包括开始和结束时间、配置设置以及可能发生的任何错误或警告等信息。

此外, AWS Glue Spark ETL 作业还提供以下选项,必须启用这些选项才能进行高级监控:

  • Jo@@ b 指标 CloudWatch每 30 秒向 AWS Glue 命名空间报告一次特定于作业的指标。这些特定于作业的指标,例如已处理的记录、输入/输出数据总大小和运行时,可以深入了解作业的性能。他们可以帮助确定瓶颈或优化配置的机会。

  • 持续日志将实时 Apache Spark 作业日志流式传输到中的/aws-glue/jobs/logs-v2日志组。 CloudWatch通过使用实时日志,您可以在 AWS Glue 作业运行时动态监控作业。

  • Spark UI 提供了一个 Spark 历史服务器 Web 界面,用于查看有关 Spark 作业的信息,例如每个阶段的事件时间表、有向无环图和作业环境变量。保留的 Spark UI 事件日志存储在 Amazon S3 中,您可以实时使用它们,也可以在任务完成后使用。

  • 作业运行洞察 通过监听常见的 Spark 异常、执行根本原因分析以及提供修复问题的建议操作来简化作业调试和优化。见解存储在 CloudWatch。

自动化

AWS Glue 为您提供了两种主要的自动化 ETL 作业的方法:触发器和工作流程。

AWS Glue 触发器

AWS Glue 触发器触发后,会启动指定的作业和爬虫。触发器可根据需要、基于预定义的时间表或基于特定事件触发。您可使用触发器设计一连串从属作业和爬网程序。有关更多信息,请参阅 AWS Glue 触发器。 

AWS Glue 工作流程

对于更复杂的工作负载,您可以使用 AWS Glue 工作流来创建定向无环图,并在不同的 AWS Glue 实体(触发器、爬虫和作业)之间建立依赖关系。工作流还提供了一个统一的界面,您可以在其中共享参数、监控进度并对关联实体中的问题进行故障排除。

在 AWS Glue 工作流程中设置许多关联实体可能会变得越来越复杂。开发人员可以创建 AWS Glue 蓝图,以便与数据科学家和业务分析师共享复杂的数据管道。这些模板允许一致且可重复地创建 AWS Glue 工作流程,从而抽象出技术细节。

要了解有关 AWS Glue 蓝图和工作流程的更多信息,请参阅中的使用蓝图和工作流程执行复杂的 ETL 活动。 AWS Glue

使用其他服务编排 AWS Glue 作业 AWS

如需更多自动化选项,请与其他 AWS 服务 AWS Glue 集成,例如 AWS Lambda AWS Step Functions、和适用于 Apache Airflow 的亚马逊托管工作流程 (Amazon MWAA)。

要比较 AWS Glue ETL 作业的不同编排方法,请参阅构建操作良好的数据管道

作业书签

中的作业书签 AWS Glue 用于跟踪 ETL 作业的进度,这样就无需在随后的作业运行中重新处理数据。启用作业书签后,会 AWS Glue 保留已处理的数据记录。之后每次运行时,它只处理数据源中的新数据。有关更多信息,请参阅使用作业书签来跟踪已处理的数据