將資料湖架構與 AWS Glue ETL 任務搭配使用 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

將資料湖架構與 AWS Glue ETL 任務搭配使用

若檔案存放於在 Amazon S3 上建置的資料湖中,開放原始碼資料湖架構可以簡化這些檔案的增量資料處理。AWS Glue 3.0 及更高版本支援下列開放原始碼資料湖架構:

  • Apache Hudi

  • Linux Foundation Delta Lake

  • Apache Iceberg

我們為這些架構提供原生支援,讓您能夠以交易一致的方式讀取和寫入存放在 Amazon S3 中的資料。您不需要安裝個別的連接器或完成額外的設定步驟,就能在 AWS Glue ETL 任務中使用這些架構。

透過 AWS Glue Data Catalog 管理資料集時,您可以使用 AWS Glue 方法來讀取和寫入具有 Spark DataFrame 的資料湖資料表。您也可以使用 Spark DataFrame API 讀取和寫入 Amazon S3 資料。

在本影片中,您可以了解有關 Apache Hudi、Apache Iceberg 和 Delta Lake 如何運作的基礎知識。您將了解如何插入、更新和刪除資料湖中的資料,以及這些架構的運作方式。