为 AWS Glue 作业启用 Apache Spark Web UI
您可以使用 Apache Spark Web UI 监控和调试在 AWS Glue 作业系统上运行的 AWS Glue ETL 作业。您可以使用 AWS Glue 控制台或 AWS Command Line Interface (AWS CLI) 配置 Spark UI。
AWS Glue 每 30 秒将 Spark 事件日志刷新到您指定的 Amazon S3 路径一次。
配置 Spark UI(控制台)
执行以下步骤以使用 AWS Management Console配置 Spark UI。创建 AWS Glue 作业后,将会默认启用 Spark UI。
创建或编辑作业以启用 Spark UI:
-
登录 AWS Management Console,然后打开 AWS Glue 控制台,网址为:https://console.aws.amazon.com/glue/
。 -
在导航窗格中,选择作业。
-
选择添加作业,或选择现有的作业。
-
在作业详细信息中,打开高级属性。
-
在 Spark UI 选项卡下,选择将 Spark UI 日志写入 Amazon S3。
-
指定用于存储任务的 Spark 事件日志的 Amazon S3 路径。请注意,如果您在作业中使用安全配置,则加密也将适用于 Spark 用户界面日志文件。有关更多信息,请参阅加密 AWS Glue 写入的数据。
-
在 Spark UI 日志记录和监控配置下:
如果要生成可在 AWS Glue 控制台中查看的日志,请选择标准。
如果要生成可在 Spark 历史记录服务器上查看的日志,请选择遗留。
您还可以选择同时生成这两种日志。
配置 Spark UI (AWS CLI)
要使用 AWS CLI 生成可在 AWS Glue 控制台中使用 Spark UI 查看的日志,请将以下作业参数传递给 AWS Glue 作业。有关更多信息,请参阅AWS Glue 作业参数。
'--enable-spark-ui': 'true', '--spark-event-logs-path': 's3://s3-event-log-path'
要将日志分发到其遗留位置,请将 --enable-spark-ui-legacy-path
参数设置为 "true"
。如果不需要同时生成两种格式的日志,请移除 --enable-spark-ui
参数。
为使用笔记本的会话配置 Spark 用户界面
警告
AWS Glue 交互式会话目前不支持在控制台中使用 Spark UI。您需要配置 Spark 历史记录服务器。
笔记本用户需要在开始会话之前设置 Spark 用户界面配置。为此,请使用 %%configure
单元格魔术命令:
%%configure { “--enable-spark-ui”: “true”, “--spark-event-logs-path”: “s3://path” }