选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

使用 AWS Glue Studio 构建可视化 ETL 作业

聚焦模式
使用 AWS Glue Studio 构建可视化 ETL 作业 - AWS Glue

AWS Glue 作业将封装连接到源数据的脚本,处理该脚本,然后将其写入数据目标。通常,作业运行提取、转换和加载 (ETL) 脚本。作业可以运行专为 Apache Spark 和 Ray 运行时环境设计的脚本。作业还可以运行通用 Python 脚本(Python shell 作业)。AWS Glue 触发器 可以根据计划或事件或者按需启动作业。您可以监控作业运行以了解运行时指标(例如完成状态、持续时间和开始时间)。

您可以使用 AWS Glue 生成的脚本,也可以提供您自己的脚本。借助源架构和目标位置或架构,AWS Glue Studio 代码生成器可以自动创建 Apache Spark API(PySpark)脚本。您可以将此脚本用作起点,并对其进行编辑以满足您的目标。

AWS Glue 可以用多种数据格式写入输出文件。每种作业类型可能支持不同的输出格式。对于某些数据格式,可以编写常见的压缩格式。

登录到 AWS Glue 控制台

AWS Glue 中的作业包含执行提取、转换和加载 (ETL) 工作的业务逻辑。您可以在 控制台的 ETLAWS Glue 部分中创建作业。

要查看现有任务,请登录 AWS Management Console,然后通过以下网址打开 AWS Glue 控制台:https://console.aws.amazon.com/glue/。然后在 中选择 JobsAWS Glue (作业) 选项卡。Jobs (作业) 列表显示与每个作业关联的脚本的位置、上次修改作业的时间和当前作业书签选项。

创建新任务时或保存任务后,您可以使用 AWS Glue Studio 修改您的 ETL 任务。您可以在可视编辑器中编辑节点或以开发人员模式编辑任务脚本,从而执行此操作。您还可以在可视编辑器中添加和删除节点,以创建更复杂的 ETL 任务。

在 AWS Glue Studio 中创建任务的后续步骤

您使用可视化任务编辑器为任务配置节点。每个节点表示一项操作,例如从源位置读取数据或者为数据应用转换。您添加到任务的每个节点都具有相关属性,提供有关数据位置或转换的信息。

创建和管理任务的后续步骤包括:

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。