在亚马逊 A AWS Lake Formation thena 上使用 - AWS Lake Formation

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在亚马逊 A AWS Lake Formation thena 上使用

Amazon Athena 是一种无服务器查询服务,可帮助您分析存储在 Amazon S3 中的结构化、半结构化和非结构化数据。你可以使用 SQL Athena 来查询JSON、、Parquet 和 Avro 数据格式CSV的数据。Ath SQL ena 还支持 Apache Hive、Apache Hudi 和 Apache Iceberg 表格格式。Athena 与 AWS Glue Data Catalog 集成,以在 Amazon S3 中存储数据集的元数据。Athena 可以使用 Lake Formation 来定义和维护对这些数据集的访问控制策略。

以下是一些常见使用案例,您可以在其中将 Lake Formation 与 Athena 一起使用。

  • 从 Athena 中使用 Lake Formation 权限访问数据目录资源(数据库和表)。您可以使用命名资源方法或 LF 标签来定义对数据库和表的权限。有关更多信息,请参阅:

    注意

    Lake Formation 权限仅在使用 SQL Athena 查询来自 Amazon S3 的源数据和数据目录中的元数据时适用。

    Athena Spark 不支持使用 Lake Formation 权限查询数据目录表。Lake Formation 权限支持对数据库和表执行读取和写入操作。

    注意

    当您使用 LF 标签管理对数据目录资源的权限时,无法应用数据筛选条件。

  • 通过在列、行和单元格级别授予权限来使用 Lake Formation 中的数据筛选条件 保护 Amazon S3 数据湖中的表,从而控制查询结果。请参阅《Amazon Athena 用户指南》中的分区投影限制

  • 在运行联合查询时,对基于 SAML Athena 的用户可用的数据实施精细的访问控制。

    JDBCAthena ODBC 和驱动程序支持SAML使用基于身份提供商 (IdP) 配置对数据源的联合访问权限。使用与 Lake Formation QuickSight 集成的亚马逊与您的现有IAM角色或SAML用户或群组,以可视化 Athena 的查询结果。

    注意

    只有当你使用或驱动程序向 Athena 提交查询时,SAML用户和群组的 Lake Formation 权限才适用JDBC。ODBC

    有关更多信息,请参阅使用 Lake Formation 和 JDBC Athena ODBC 以及驱动程序对雅典娜进行联合访问

    注意

    目前,以下区域不支持授权访问 Lake Formation 中的SAML身份:

    • 中东(巴林)- me-south-1

    • 亚太地区(香港)- ap-east-1

    • 非洲(开普敦)- af-south-1

    • 中国(宁夏)- cn-northwest-1

    • 亚太地区(大阪)– ap-northeast-3

  • 使用Lake Formation 中的跨账户数据共享查询其他账户中的表。

注意

有关使用 Views 这一 Lake Formation 权限时的限制的更多信息,请参阅注意事项和限制

支持事务表格格式

通过应用 Lake Formation 权限,您可以保护基于 Amazon S3 的数据湖中的事务数据。下表列出了 Athena 和 Lake Formation 权限支持的事务表格格式。当 Athena 用户运行查询时,Lake Formation 会强制实施这些权限。

表格式 描述和允许的操作 Athena 支持的 Lake Formation 权限

Apache Hudi

一种用于简化增量数据处理和数据管线开发的格式。

Athena 支持使用 Apache Hudi 表格格式对写时复制 (CoW)读时合并 (MoR) Hudi 表格类型的 Amazon S3 数据集执行创建和读取操作。Athena 不支持对 Hudi 表进行写入操作。

使用 Athena 查询 Hudi 数据集

通过Lake Formation 中的数据筛选和单元格级别安全性使用表、列、行和单元格级别权限保护 Hudi 表。

Apache Iceberg

一种开放表格格式,它将大量文件作为表进行管理,并且支持现代分析数据湖操作,例如记录级别插入、更新、删除和时间旅行查询。

有关 Athena 对 Iceberg 表的支持的更多信息,请参阅使用 Iceberg 表

支持表、列、行和单元格级别权限。目前,Lake Formation 不支持管理对采用开放表格格式的表的写入操作(例如 VACUUMMERGEUPDATEOPTIMIZE)权限。

Linux Foundation Delta Lake

Delta Lake 是一个开源项目,可帮助实现通常在 Amazon S3 或 Hadoop 分布式文件系统 () HDFS 上构建的现代数据湖架构。

Athena 支持在 Delta Lake 表上使用基于符号链接的清单表定义 AWS Glue Data Catalog 创建的 Delta 湖表。

有关更多信息,请参阅使用 AWS Glue 爬虫抓取 Delta Lake 表

Athena(引擎版本 3)支持读取原生 Delta Lake 表。

有关更多信息,请参阅通过 AWS Glue 爬虫引入原生 Delta Lake 表格支持

符号链接表和原生 Delta Lake 表支持表、列、行和单元格级别权限。

其他 资源