作业监控和调试 - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

作业监控和调试

您可以收集有关 AWS Glue 任务的指标,并在 AWS Glue 和 Amazon CloudWatch 控制台上显示它们,以确定并修复问题。分析 AWS Glue 作业需要执行以下步骤:

  1. 启用指标:

    1. 在作业定义中启用 Job metrics (作业指标) 选项。您可以在 AWS Glue 控制台中启用分析,也可以作为作业的参数。有关更多信息,请参阅定义 Spark 作业的作业属性AWS Glue 作业参数

    2. 在作业定义中启用 AWS Glue 可观测性指标选项。您可以在 AWS Glue 控制台中启用可观测性,也可以作为作业的参数。有关更多信息,请参阅使用 AWS Glue 可观测性指标进行监控

  2. 确认作业脚本初始化 GlueContext。例如,以下脚本代码段初始化 GlueContext 并显示在脚本中放置已分析代码的位置。此常规格式用于后续的调试方案。

    import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.job import Job import time ## @params: [JOB_NAME] args = getResolvedOptions(sys.argv, ['JOB_NAME']) sc = SparkContext() glueContext = GlueContext(sc) spark = glueContext.spark_session job = Job(glueContext) job.init(args['JOB_NAME'], args) ... ... code-to-profile ... ... job.commit()
  3. 运行作业。

  4. 可视化指标:

    1. 在 AWS Glue 控制台上显示作业指标,并确定驱动程序或执行程序的异常指标。

    2. 在作业运行监测页面、作业运行详细信息页面或 Amazon CloudWatch 上查看可观测性指标。有关更多信息,请参阅 使用 AWS Glue 可观测性指标进行监控

  5. 使用已确定的指标缩小根本原因范围。

  6. 也可以选择使用已确定驱动程序或作业执行程序的日志流确认根本原因。

AWS Glue 可观测性指标的用例