本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
將資料湖架構與 AWS Glue Studio 搭配使用
概要
若檔案存放於在 Amazon S3 上建置的資料湖中,開放原始碼資料湖架構可以簡化這些檔案的增量資料處理。AWS Glue 3.0 及更高版本支援下列開放原始碼資料湖儲存架構:
-
Apache Hudi
-
Linux Foundation Delta Lake
-
Apache Iceberg
從 AWS Glue 4.0 開始,AWS Glue 會為這些架構提供原生支援,讓您能夠以交易一致的方式讀取和寫入存放在 Amazon S3 中的資料。您不需要安裝個別的連接器或完成額外的設定步驟,就能在 AWS Glue 任務中使用這些架構。
透過 Spark 指令碼編輯器任務,資料湖架構可以用作 AWS Glue Studio 內的來源或目標。如需使用 Apache Hudi、Apache Iceberg 和 Delta Lake 的詳細資訊,請參閱搭配使用資料湖架構與 AWS Glue ETL 任務。
從 AWS Glue 串流來源建立開放資料表格式
AWS Glue 串流 ETL 工作會持續使用串流來源的資料、清理和轉換傳輸中資料,並可在數秒內完成分析。
AWS 提供廣泛的服務選項,可滿足您的需求。資料庫複寫服務 (例如,AWS Database Migration Service) 可從來源系統將資料複寫至 Amazon S3 (通常會託管資料湖的儲存層)。雖然在支援線上來源應用程式之關聯式資料庫管理系統 (RDBMS) 上套用更新相當簡單,但在資料湖上套用此 CDC 程序卻相當困難。開放原始碼資料管理架構可簡化增量資料處理與資料管道開發,是解決此問題的絕佳選擇。
如需詳細資訊,請參閱: