在 AWS Glue 中编写作业 - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 AWS Glue 中编写作业

AWS Glue 作业将封装连接到源数据的脚本,处理该脚本,然后将其写入数据目标。通常,作业运行提取、转换和加载 (ETL) 脚本。作业可以运行专为 Apache Spark 和 Ray 运行时环境设计的脚本。作业还可以运行通用 Python 脚本(Python shell 作业)。AWS Glue 触发器 可以根据计划或事件或者按需启动作业。您可以监控作业运行以了解运行时指标(例如完成状态、持续时间和开始时间)。

您可以使用 AWS Glue 生成的脚本,也可以提供您自己的脚本。使用源架构和目标位置或架构,AWS Glue Studio代码生成器可以自动创建 Apache Spark API (PySpark) 脚本。您可以将此脚本用作起点,并对其进行编辑以满足您的目标。

AWS Glue可以用多种数据格式写入输出文件。每种作业类型可能支持不同的输出格式。对于某些数据格式,可以编写常见的压缩格式。