使用 Amazon Data Firehose 将数据传输到 Apache Iceberg 表 - Amazon Data Firehose

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon Data Firehose 将数据传输到 Apache Iceberg 表

Apache Iceberg 是用于执行大数据分析的高性能开源表格格式。Apache Iceberg 将 SQL 表的可靠性和简单性带到了亚马逊 S3 数据湖,并使 Spark、Flink、Trino、Hive 和 Impala 等开源分析引擎可以同时处理相同的数据。有关 Apache Iceberg 的更多信息,请参阅 https://iceberg.apache.org/

你可以使用 Firehose 将流数据传输到亚马逊 S3 中的 Apache Iceberg Tables。使用此功能,您可以将记录从单个流路由到不同的 Apache Iceberg 表,并自动对 Apache Iceberg 表中的记录应用插入、更新和删除操作。Firehose 只向冰山桌提供一次送货服务。此功能需要使用 AWS Glue Data Catalog。

Firehose 还可以将流数据传输到亚马逊 S3 表。Amazon S3 表格提供针对大规模分析工作负载进行了优化的存储,其功能可持续提高查询性能并降低表格数据的存储成本。借助对 Apache Iceberg 的内置支持,您可以使用包括亚马逊 Athena、Amazon Redshift 和 Apache Spark 在内的热门查询引擎在 Amazon S3 中查询表格数据。有关 Amazon S3 表格的更多信息,请参阅亚马逊 S3 表。Firehose 与 Amazon S3 表的集成已在美国东部(俄亥俄州)、美国东部(弗吉尼亚北部)和美国西部(俄勒冈)地区进行预览。请勿将其用于生产工作负载。

对于亚马逊 S3 表,Firehose 不支持自动创建表。在创建 Firehose 直播之前,您必须创建 S3 表。