本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 Amazon Data Firehose 將資料庫變更複寫至 Apache Iceberg 資料表
注意
Firehose 支援所有 中的資料庫做為來源 AWS GovCloud (US) Regions,但中國區域和亞太區域 (馬來西亞) AWS 區域除外。此功能處於預覽狀態,可能會有所變更。請勿將其用於您的生產工作負載。
組織使用關聯式資料庫來存放和擷取交易資料,這些資料經過最佳化,以非常快速地與一列或幾列資料互動。它們未針對查詢大量彙總資料進行最佳化。組織會將交易資料從關聯式資料庫移至分析資料存放區,例如資料湖、資料倉儲和其他用於分析和機器學習使用案例的工具。為了讓分析資料存放區與關聯式資料庫保持同步,會使用稱為變更資料擷取 (CDC) 的設計模式,以便即時擷取資料庫的所有變更。透過來源資料庫中的 INSERT、UPDATE 或 DELETE 變更資料時,必須持續串流這些 CDC 變更,而不會影響資料庫的效能。
Firehose 提供有效且easy-to-useend-to-end解決方案,將 MySQL 和 PostgreSQL 資料庫的變更複寫至 Apache Iceberg Tables。透過此功能,Firehose 可讓您選取希望 Firehose 在 CDC 事件中擷取的特定資料庫、資料表和資料欄。如果您還沒有 Iceberg 資料表,您可以選擇加入 Firehose 來建立 Iceberg 資料表。Firehose 會使用與關聯式資料庫資料表中相同的結構描述來建立資料庫和資料表。建立串流後,Firehose 會取得資料表中資料的初始副本,並寫入 Apache Iceberg Tables。當初始複製完成時,Firehose 會開始在資料庫中即時擷取 CDC 變更,並將其複寫至 Apache Iceberg Tables。如果您選擇加入結構描述演變,Firehose 會根據關聯式資料庫中的結構描述變更來發展 Iceberg 資料表結構描述。
Firehose 也可以將 MySQL 和 PostgreSQL 資料庫的變更複寫到 Amazon S3 Tables。Amazon S3 Tables 提供針對大規模分析工作負載最佳化的儲存體,其功能可持續改善查詢效能並降低表格式資料的儲存成本。透過 Apache Iceberg 的內建支援,您可以使用 Amazon Athena、Amazon Redshift 和 Apache Spark 等熱門查詢引擎來查詢 Amazon S3 中的表格式資料。 Amazon Athena 如需 Amazon S3 資料表的詳細資訊,請參閱 Amazon S3 資料表。
對於 Amazon S3 Tables,Firehose 不支援自動建立資料表。您必須先建立 S3 資料表,才能建立 Firehose 串流。