將資料湖架構與 AWS Glue Studio 搭配使用

概觀

若檔案存放於在 Amazon S3 上建置的資料湖中，開放原始碼資料湖架構可以簡化這些檔案的增量資料處理。AWS Glue 3.0 及更高版本支援下列開放原始碼資料湖儲存架構：

Apache Hudi
Linux Foundation Delta Lake
Apache Iceberg

從 AWS Glue 4.0 開始，AWS Glue 會為這些架構提供原生支援，讓您能夠以交易一致的方式讀取和寫入存放在 Amazon S3 中的資料。您不需要安裝個別的連接器或完成額外的設定步驟，就能在 AWS Glue 任務中使用這些架構。

透過 Spark 指令碼編輯器任務，資料湖架構可以用作 AWS Glue Studio 內的來源或目標。如需使用 Apache Hudi、Apache Iceberg 和 Delta Lake 的詳細資訊，請參閱搭配使用資料湖架構與 AWS Glue ETL 任務。

從 AWS Glue 串流來源建立開放資料表格式

AWS Glue 串流 ETL 任務會持續使用來自串流來源的資料、清理和轉換傳輸中的資料，並在幾秒鐘內提供分析。

AWS 提供廣泛的服務選擇，以支援您的需求。Database Migration Service AWS 等資料庫複寫服務可以將資料從來源系統複寫到 Amazon S3，Amazon S3 通常會託管資料湖的儲存層。雖然在支援線上來源應用程式之關聯式資料庫管理系統 (RDBMS) 上套用更新相當簡單，但在資料湖上套用此 CDC 程序卻相當困難。開放原始碼資料管理架構可簡化增量資料處理與資料管道開發，是解決此問題的絕佳選擇。

如需詳細資訊，請參閱：

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

自訂視覺化指令碼範例

在 AWS Glue Studio 中使用 Hudi 架構