为 AWS Glue 作业启用 Apache Spark Web UI - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

为 AWS Glue 作业启用 Apache Spark Web UI

您可以使用 Apache Spark Web UI 监控和调试在 AWS Glue 作业系统上运行的 AWS Glue ETL 作业。您可以使用 AWS Glue 控制台或 AWS Command Line Interface (AWS CLI) 配置 Spark UI。

AWS Glue 每 30 秒将 Spark 事件日志备份到您指定的 Amazon S3 路径一次。

配置 Spark UI(控制台)

按照以下步骤使用 AWS Management Console 配置 Spark UI。创建 AWS Glue 任务后,将默认启用 Spark UI。

在创建或编辑任务时启用 Spark UI
  1. 登录 AWS Management Console,然后打开 AWS Glue 控制台,网址为:https://console.aws.amazon.com/glue/

  2. 在导航窗格中,选择作业

  3. 选择添加作业,或选择现有的作业。

  4. 作业详细信息中,打开高级属性

  5. Spark UI 选项卡下,选择将 Spark UI 日志写入 Amazon S3

  6. 指定用于存储任务的 Spark 事件日志的 Amazon S3 路径。请注意,如果您在任务中使用安全配置,则加密也将适用于 Spark UI 日志文件。有关更多信息,请参阅加密 AWS Glue 写入的数据

  7. Spark UI 日志记录和监控配置下:

    • 如果要生成可在 AWS Glue 控制台中查看的日志,请选择标准

    • 如果要生成可在 Spark 历史记录服务器上查看的日志,请选择传统

    • 您还可以选择同时生成这两种日志。

配置 Spark UI (AWS CLI)

要生成可在 AWS Glue 控制台中使用 Spark UI 查看的日志,请使用 AWS CLI 将以下任务参数传递给 AWS Glue 任务。有关更多信息,请参阅AWS Glue 作业参数

'--enable-spark-ui': 'true', '--spark-event-logs-path': 's3://s3-event-log-path'

要将日志分发到其遗留位置,请将 --enable-spark-ui-legacy-path 参数设置为 "true"。如果不需要同时生成两种格式的日志,请移除 --enable-spark-ui 参数。

为使用笔记本的会话配置 Spark 用户界面

警告

AWS Glue 交互式会话目前不支持在控制台中使用 Spark UI。配置 Spark 历史记录服务器。

如果您使用 AWS Glue 笔记本电脑,请在开始会话之前设置 SparkUI 配置。为此,请使用 %%configure 单元格魔术命令:

%%configure { “--enable-spark-ui”: “true”, “--spark-event-logs-path”: “s3://path” }