选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

Lake Formation 中的蓝图和工作流

聚焦模式
Lake Formation 中的蓝图和工作流 - AWS Lake Formation

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

工作流封装了复杂的多作业提取、转换、加载 (ETL) 活动。工作流生成 AWS Glue 爬网程序、作业和触发器,以编排数据的加载和更新。Lake Formation 将工作流作为单个实体来执行和跟踪。您可以将工作流配置为按需或按计划运行。

您在 Lake Formation 中创建的工作流在 AWS Glue 控制台中显示为有向无环图 (DAG) 形式。每个 DAG 节点都是一个作业、爬网程序或触发器。要监控进度并进行故障排除,您可以跟踪工作流中每个节点的状态。

Lake Formation 工作流完成后,运行该工作流的用户将获得对该工作流创建的数据目录表的 Lake Formation SELECT 权限。

您也可以在 AWS Glue 中创建工作流。但是,由于 Lake Formation 允许您从蓝图创建工作流,因此在 Lake Formation 中创建工作流要简单得多,自动化程度也更高。Lake Formation 提供以下类型的蓝图:

  • 数据库快照 – 将所有表中的数据从 JDBC 源加载或重新加载到数据湖中。您可以根据排除模式从该源中排除某些数据。

  • 增量数据库 - 根据先前设置的书签,仅将新数据从 JDBC 源加载到数据湖中。您可以指定 JDBC 源数据库中要包含的各个表。对于每个表,您可以选择书签列和书签排序顺序,以跟踪之前加载的数据。首次对一组表运行增量数据库蓝图时,工作流会加载表中的所有数据,并为下一次增量数据库蓝图运行设置书签。因此,您可以使用增量数据库蓝图(而不是数据库快照蓝图)来加载所有数据,前提是将数据来源中的每个表指定为参数。

  • 日志文件 - 从日志文件来源(包括 AWS CloudTrail、Elastic Load Balancing 日志和应用程序负载均衡器日志)批量加载数据。

使用下表可帮助确定是使用数据库快照蓝图还是增量数据库蓝图。

在以下情况下使用数据库快照... 在以下情况下使用增量数据库...
  • 架构演变是灵活的。(将重命名列,删除以前的列,并在其位置添加新列。)

  • 源和目标之间需要完全一致。

  • 架构演变是增量的。(只有连续添加列。)

  • 仅添加新行;不更新以前的行。

注意

用户无法编辑 Lake Formation 创建的蓝图和工作流。

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。