AWS Lake Formation 搭配使用 AWS Glue - AWS Lake Formation

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS Lake Formation 搭配使用 AWS Glue

資料工程師和 DevOps 專業人員 AWS Glue 搭配 Apache Spark 使用擷取、轉換和載入 (ETL),在 Amazon S3 中對其資料集執行轉換,並將轉換後的資料載入資料湖和資料倉儲,以進行分析、機器學習和應用程式開發。由於不同的團隊存取 Amazon S3 中的相同資料集,因此必須根據其角色授予和限制許可。

AWS Lake Formation 建立在其上 AWS Glue,並且服務以下列方式進行交互:

  • Lake Formation 和AWS Glue共享相同的數據目錄。

  • 以下 Lake Formation 控制台功能調用AWS Glue控制台:

  • 使用 Lake Formation 藍圖時產生的AWS Glue工作流程是工作流程。您可以在 Lake Formation 主控台和主控台中檢視和管理這些工作流程。AWS Glue

  • 機器學習轉型由 Lake Formation 提供,並建立在AWS GlueAPI運營基礎上。您可以在AWS Glue主控台上建立和管理機器學習轉換。如需詳細資訊,請參閱AWS Glue 開發人員指南中的 M achine Learning 轉換

您可以使用 Lake Formation 精細的存取控制來管理現有的資料目錄資源和 Amazon S3 資料位置。

注意

AWS Glue ETL從基礎 Amazon S3 位置擷取資料時,需要完整存取整個資料表。 AWS Glue ETL如果您在資料表上套用資料行層級權限,工作會失敗。不過,您可以透過定義資料篩選器來建立資料行層級和資料列層級安全性。如需詳細資訊,請參閱 資料行層級篩選的注意事項和限制 Lake Formation 評估表格上定義的資料篩選器,並僅從任務所需的 Amazon S3 擷取已篩選的 AWS Glue ETL資料。

Support 交易資料表類型

套用 Lake Formation 權限可讓您保護 Amazon S3 資料湖中的交易資料。下表列出了支持的交易表格格式 AWS Glue 和 Lake Formation 權限。Lake Formation 強制執行這些權限進行 AWS Glue 操作。

支援的表格格式
資料表格式 說明和允許的作業 支持 Lake Formation 權限 AWS Glue

Apache Hudi

用於簡化增量數據處理和數據管道開發的開放表格格式。

如需範例,請參閱中 AWS Glue的使用 Hudi 架構

資料表層級權限適用於 Hudi 資料表。

如需詳細資訊,請參閱限制

Apache Iceberg

一種開放式表格格式,可將大型檔案集合當作資料表來管理。

如需範例,請參閱中 AWS Glue的 < 使用冰山架構 >。

資料表層級權限適用於冰山資料表。

如需詳細資訊,請參閱限制

Linux Foundation Delta Lake

Delta 湖是一個開放原始碼專案,可協助實作通常在 Amazon S3 或 Hadoop 分散式檔案系統 (HDFS) 上建置的現代化資料湖架構。

如需範例,請參閱中的〈使用三角洲湖架構〉 AWS Glue。

Delta Lake 資料表可使用資料表層級權限。

如需詳細資訊,請參閱限制

其他資源