本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon EMR 是一个灵活的 AWS 托管集群平台,您可以在支持的大数据框架(例如 Hadoop Map-Reduce、Spark、Hive、Presto 等)上运行任何自定义代码。组织还可以使用 Amazon EMR 在高度分布式集群中运行批处理和流式数据处理应用程序。使用 Apache Spark on Amazon EMR,您可以在其权限由 Lake Formation 管理的数据库和表上运行数据转换和自定义代码。
Amazon EMR 部署选项有三个:
-
EMR 已开启 EC2
-
EMR Serverless
-
Amazon EMR on EKS
有关更多信息,请参阅将 Amazon EMR 与 Lake Formation 集成或将 EMR Serverles s 与 Lake Formation 集成,实现精细的访问控制 AWS Lake Formation
支持事务表格格式
当您使用 Spark SQL 读取和写入数据时,Amazon EMR 发行版 6.15.0 及更高版本支持对 Apache Hudi、Apache Iceberg 和 Delta Lake
有关限制,请参阅将 Amazon EMR 与 Lake Formation 结合使用时的注意事项。
表格式 | 描述和允许的操作 | Amazon EMR 中支持的 Lake Formation 权限 |
---|---|---|
Apache Hudi |
一种开放表格格式,用于简化增量数据处理和数据管线开发。 有关支持的操作列表,请参阅 Apache Hudi 和 Lake Formation。 |
Amazon EMR 支持使用 Apache Hudi 进行表、行、列和单元格级别的访问控制。 |
Apache Iceberg |
一种开放表格格式,可将大量文件作为表进行管理。 有关支持的操作列表,请参阅 Apache Iceberg 和 Lake Formation。 |
Amazon EMR 支持使用 Apache Iceberg 进行表、行、列和单元格级别的访问控制。 |
Linux Foundation Delta Lake |
Delta Lake 是一个开源项目,可帮助实施通常在 Amazon S3 或 Hadoop Distributed File System (HDFS) 上构建的现代数据湖架构。 有关支持的操作列表,请参阅 Delta Lake 和 Lake Formation。 |
Amazon EMR 支持使用 Delta Lake 进行表、行、列和单元格级的访问控制。 |