AWS Lake Formation 与一起使用 AWS Glue - AWS Lake Formation

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS Lake Formation 与一起使用 AWS Glue

数据工程师和 DevOps 专业人员使用 AWS Glue 带有 Apache Spark 的提取、转换和加载 (ETL) 来对其在 Amazon S3 中的数据集进行转换,并将转换后的数据加载到数据湖和数据仓库中,用于分析、机器学习和应用程序开发。由于会有不同的团队访问 Amazon S3 中的相同数据集,因此必须根据其角色授予和限制权限。

AWS Lake Formation 是在此基础上构建的 AWS Glue,并且服务通过以下方式进行交互:

  • Lake Formation 和 AWS Glue 共享同一数据目录。

  • 以下 Lake Formation 控制台功能可以调用 AWS Glue 控制台:

    • 作业 – 有关更多信息,请参阅《AWS Glue 开发人员指南》中的添加作业

    • 爬网程序 – 有关更多信息,请参阅《AWS Glue 开发人员指南》中的使用爬网程序编录数据

  • 使用 Lake Formation 蓝图时生成的工作流是 AWS Glue 工作流。您可以在 Lake Formation 控制台和 AWS Glue 控制台中查看和管理这些工作流。

  • Lake Formation 提供了机器学习转换,并且是在AWS GlueAPI操作的基础上构建的。您可以在 AWS Glue 控制台上创建和管理机器学习转换功能。有关更多信息,请参阅《AWS Glue 开发人员指南》中的机器学习转换

您可以使用 Lake Formation 细粒度访问控制来管理现有的数据目录资源和 Amazon S3 数据位置。

注意

AWS Glue ETL从底层 Amazon S3 位置获取数据时,需要对整个表具有完全访问权限。 AWS Glue ETL如果您对表应用列级权限,则作业会失败。但是,您可以通过定义数据筛选条件来创建列级别和行级别安全性。有关更多信息,请参阅 有关列级别筛选的注意事项和限制 Lake Formation 评估表中定义的数据筛选器,并仅从任务所需的 Amazon S3 中检索经过筛选的数据。 AWS Glue ETL

支持事务表类型

通过应用 Lake Formation 权限,您可以保护基于 Amazon S3 的数据湖中的事务数据。下表列出了中支持的交易表格式 AWS Glue 和 Lake Formation 权限。Lake Formation 强制执行这些 AWS Glue 操作权限。

支持的表格格式
表格式 描述和允许的操作 中支持 Lake Formation 权限 AWS Glue

Apache Hudi

一种开放表格格式,用于简化增量数据处理和数据管线开发。

有关示例,请参阅中的 “使用 Hudi 框架”。 AWS Glue

表级权限可用于 Hudi 表。

有关更多信息,请参阅限制

Apache Iceberg

一种开放表格格式,可将大量文件作为表进行管理。

有关示例,请参阅中的使用 Iceberg 框架。 AWS Glue

表级权限可用于 Iceberg 表。

有关更多信息,请参阅限制

Linux Foundation Delta Lake

Delta Lake 是一个开源项目,可帮助实现通常在 Amazon S3 或 Hadoop 分布式文件系统 () HDFS 上构建的现代数据湖架构。

有关示例,请参阅中的使用 Delta Lake 框架 AWS Glue

表级权限可用于 Delta Lake 表。

有关更多信息,请参阅限制

其他 资源