本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
重要功能和概念
日志记录和监控
AWS Glue 存在几个日志记录和监控选项。默认情况下,AWS Glue 向 Amazon CloudWatch 中的 aws-glue 日志组发送日志。这些日志包括开始和结束时间、配置设置以及可能发生的任何错误或警告等信息。
此外,AWS Glue Spark ETL 作业还提供以下选项,必须启用这些选项才能进行高级监控:
-
作业指标 每30秒向 CloudWatch 中的 AWS Glue 命名空间报告特定于作业的指标。这些特定于作业的指标,例如已处理的记录、输入/输出数据总大小和运行时,可以深入了解作业的性能。他们可以帮助确定瓶颈或优化配置的机会。
-
持续日志记录实时流式传送 Apache Spark 作业日志至 CloudWatch 中的
/aws-glue/jobs/logs-v2日志组。利用实时日志,您可以在 AWS Glue 作业运行时动态监测作业。 -
Spark UI 提供了一个 Spark 历史服务器 Web 界面,用于查看有关 Spark 作业的信息,例如每个阶段的事件时间表、有向无环图和作业环境变量。保留的 Spark UI 事件日志存储在 Amazon S3 中,您可以实时使用它们,也可以在任务完成后使用。
-
作业运行洞察 通过监听常见的 Spark 异常、执行根本原因分析以及提供修复问题的建议操作来简化作业调试和优化。这些洞察存储在 CloudWatch 中。
自动化
AWS Glue 为您提供了两种主要的自动化 ETL 作业的方法:触发器和工作流程。
AWS Glue 触发器
AWS Glue 触发器在触发时会启动指定的作业和爬网程序。触发器可根据需要、基于预定义的时间表或基于特定事件触发。您可使用触发器设计一连串从属作业和爬网程序。有关更多信息,请参阅 AWS Glue 触发器。
AWS Glue 工作流程
对于更复杂的工作负载,可以使用 AWS Glue 工作流创建定向无环图,并在单独的 AWS Glue 实体(触发器、爬网程序和作业)之间建立依赖关系。工作流还提供了一个统一的界面,您可以在其中共享参数、监控进度并对关联实体中的问题进行故障排除。
在 AWS Glue 工作流中设置许多关联实体可能会变得越来越复杂。开发人员可以创建 AWS Glue 蓝图
欲了解有关 AWS Glue 蓝图和工作流程的更多信息,请参阅 AWS Glue 中的使用蓝图和工作流执行复杂的 ETL 活动。
使用其他 AWS 服务编排 AWS Glue 作业
如需更多自动化选项,AWS Glue 可与其他 AWS 服务集成,例如 AWS Lambda、AWS Step Functions 和 Amazon Managed Workflow for Apache Airflow(Amazon MWAA)。
欲比较 AWS Glue ETL 作业的不同编排方法,请参阅构建操作良好的数据管道。
作业书签
AWS Glue 中的作业书签用于跟踪 ETL 作业的进度,这样就无需在后续作业运行中重新处理数据。启用作业书签后,AWS Glue 会保留已处理的数据记录。之后每次运行时,它只处理数据源中的新数据。有关更多信息,请参阅使用作业书签来跟踪已处理的数据。