在 AWS Glue 中使用 Delta Lake 架構 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 AWS Glue 中使用 Delta Lake 架構

AWS Glue 3.0 及更高版本支援 Linux Foundation Delta Lake 架構。Delta Lake 是開放原始碼資料湖儲存架構,可協助您執行 ACID 交易、擴充中繼資料處理,以及統一串流與批次資料處理。本主題說明在 Delta Lake 資料表中傳輸或存放資料時,在 AWS Glue 中可用的資料使用功能。若要進一步了解 Delta Lake,請參閱官方 Delta Lake 文件

您可以使用 AWS Glue,在 Amazon S3 中的 Delta Lake 資料表上執行讀取和寫入操作,或搭配 AWS Glue Data Catalog 使用 Delta Lake 資料表。插入、更新和資料表批次讀取和寫入等操作也受到支援。使用 Delta Lake 資料表時,您還可以選擇使用 Delta Lake Python 程式庫中的方法,例如 DeltaTable.forPath。如需三角洲湖 Python 程式庫的詳細資訊,請參閱三角洲湖的 Python 文件。

下表列出了每個 AWS Glue 版本中包含的 Delta Lake 版本。

AWS Glue 版本 支援的 Delta Lake 版本
4.0 2.1.0
3.0 1.0.0

若要進一步了解 AWS Glue 支援的資料湖架構,請參閱將資料湖架構與 AWS Glue ETL 任務搭配使用

為 AWS Glue 啟用 Delta Lake

若要為 AWS Glue 啟用 Delta Lake,請完成下列任務:

  • 指定 delta 作為 --datalake-formats 任務參數的值。如需詳細資訊,請參閱 AWS Glue 任務參數

  • 為 AWS Glue 任務建立名為 --conf 的索引鍵,並將其設定為下列值。您也可以選擇在指令碼中使用 SparkConf 設定以下組態。這些設定有助於 Apache Spark 正確處理 Delta Lake 資料表。

    spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension --conf spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog --conf spark.delta.logStore.class=org.apache.spark.sql.delta.storage.S3SingleDriverLogStore
  • Delta 資料表的 Lake Formation 權限支援預設已針對 AWS Glue 4.0 啟用。讀取/寫入 Lake Formation 註冊的 Delta 資料表時,不需要其他組態。若要讀取註冊的 Delta 資料表,AWS Glue 任務 IAM 角色必須具有 SELECT 權限。若要讀取註冊的 Delta 資料表,AWS Glue 任務 IAM 角色必須具有 SUPER 權限。若要進一步了解管理 Lake Formation 權限的資訊,請參閱授予和撤銷 Data Catalog 資源的權限

使用不同的 Delta Lake 版本

若要使用 AWS Glue 不支援的 Delta Lake 版本,請使用 --extra-jars 任務參數指定您自己的 Delta Lake JAR 檔案。請勿包括 delta 作為 --datalake-formats 任務參數的值。若要在此案例中使用 Delta Lake Python 程式庫,您必須使用 --extra-py-files 任務參數指定程式庫 JAR 檔案。Python 程式庫封裝在 Delta Lake JAR 檔案中。

範例:將 Delta Lake 資料表寫入 Amazon S3,並將其註冊到 AWS Glue Data Catalog

下列 AWS Glue ETL 指令碼示範如何將 Delta Lake 資料表寫入 Amazon S3,以及如何將該資料表註冊到 AWS Glue Data Catalog。

Python
# Example: Create a Delta Lake table from a DataFrame # and register the table to Glue Data Catalog additional_options = { "path": "s3://<s3Path>" } dataFrame.write \ .format("delta") \ .options(**additional_options) \ .mode("append") \ .partitionBy("<your_partitionkey_field>") \ .saveAsTable("<your_database_name>.<your_table_name>")
Scala
// Example: Example: Create a Delta Lake table from a DataFrame // and register the table to Glue Data Catalog val additional_options = Map( "path" -> "s3://<s3Path>" ) dataFrame.write.format("delta") .options(additional_options) .mode("append") .partitionBy("<your_partitionkey_field>") .saveAsTable("<your_database_name>.<your_table_name>")

範例:使用 AWS Glue Data Catalog 從 Amazon S3 讀取 Delta Lake 資料表

下列 AWS Glue ETL 指令碼會讀取您在 範例:將 Delta Lake 資料表寫入 Amazon S3,並將其註冊到 AWS Glue Data Catalog 中建立的 Delta Lake 資料表。

Python

在此範例中,使用 create_data_frame.from_catalog 方法。

# Example: Read a Delta Lake table from Glue Data Catalog from awsglue.context import GlueContext from pyspark.context import SparkContext sc = SparkContext() glueContext = GlueContext(sc) df = glueContext.create_data_frame.from_catalog( database="<your_database_name>", table_name="<your_table_name>", additional_options=additional_options )
Scala

在此範例中,使用 getCatalogSource 方法。

// Example: Read a Delta Lake table from Glue Data Catalog import com.amazonaws.services.glue.GlueContext import org.apacke.spark.SparkContext object GlueApp { def main(sysArgs: Array[String]): Unit = { val spark: SparkContext = new SparkContext() val glueContext: GlueContext = new GlueContext(spark) val df = glueContext.getCatalogSource("<your_database_name>", "<your_table_name>", additionalOptions = additionalOptions) .getDataFrame() } }

範例:使用 AWS Glue Data Catalog 將 DataFrame 插入 Amazon S3 中的 Delta Lake 資料表

此範例會將資料插入您在 範例:將 Delta Lake 資料表寫入 Amazon S3,並將其註冊到 AWS Glue Data Catalog 中建立的 Delta Lake 資料表中。

注意

此範例要求您設定 --enable-glue-datacatalog 任務參數,才能使用 AWS Glue Data Catalog 作為 Apache Spark Hive 中繼存放區。如需進一步了解,請參閱 AWS Glue 任務參數

Python

在此範例中,使用 write_data_frame.from_catalog 方法。

# Example: Insert into a Delta Lake table in S3 using Glue Data Catalog from awsglue.context import GlueContext from pyspark.context import SparkContext sc = SparkContext() glueContext = GlueContext(sc) glueContext.write_data_frame.from_catalog( frame=dataFrame, database="<your_database_name>", table_name="<your_table_name>", additional_options=additional_options )
Scala

在此範例中,使用 getCatalogSink 方法。

// Example: Insert into a Delta Lake table in S3 using Glue Data Catalog import com.amazonaws.services.glue.GlueContext import org.apacke.spark.SparkContext object GlueApp { def main(sysArgs: Array[String]): Unit = { val spark: SparkContext = new SparkContext() val glueContext: GlueContext = new GlueContext(spark) glueContext.getCatalogSink("<your_database_name>", "<your_table_name>", additionalOptions = additionalOptions) .writeDataFrame(dataFrame, glueContext) } }

範例:使用 Spark API 從 Amazon S3 讀取 Delta Lake 資料表

此範例使用 Spark API 從 Amazon S3 讀取 Delta Lake 資料表。

Python
# Example: Read a Delta Lake table from S3 using a Spark DataFrame dataFrame = spark.read.format("delta").load("s3://<s3path/>")
Scala
// Example: Read a Delta Lake table from S3 using a Spark DataFrame val dataFrame = spark.read.format("delta").load("s3://<s3path/>")

範例:使用 Spark 將 Delta Lake 資料表寫入 Amazon S3

此範例會使用 Spark 將 Delta Lake 資料表寫入 Amazon S3。

Python
# Example: Write a Delta Lake table to S3 using a Spark DataFrame dataFrame.write.format("delta") \ .options(**additional_options) \ .mode("overwrite") \ .partitionBy("<your_partitionkey_field>") .save("s3://<s3Path>")
Scala
// Example: Write a Delta Lake table to S3 using a Spark DataFrame dataFrame.write.format("delta") .options(additionalOptions) .mode("overwrite") .partitionBy("<your_partitionkey_field>") .save("s3://<s3path/>")

範例:使用 Lake Formation 權限控制讀取和寫入 Delta Lake 資料表

此範例會讀取和寫入具有 Lake Formation 權限控制的 Delta Lake 資料表。

  1. 建立 Delta 資料表,並在 Lake Formation 中進行註冊

    1. 若要啟用 Lake Formation 權限控制,您將需要先在 Lake Formation 中註冊資料表 Amazon S3 路徑。如需詳細資訊,請參閱 Registering an Amazon S3 location (註冊 Amazon S3 位置)。您可以從 Lake Formation 主控台或透過使用 AWS CLI 進行註冊:

      aws lakeformation register-resource --resource-arn arn:aws:s3:::<s3-bucket>/<s3-folder> --use-service-linked-role --region <REGION>

      註冊 Amazon S3 位置後,任何指向該位置 (或其任何子位置) 的 AWS Glue 資料表將會在 GetTable 呼叫中傳回 IsRegisteredWithLakeFormation 參數值 true。

    2. 建立透過 Spark 指向註冊之 Amazon S3 路徑的 Delta 資料表:

      注意

      下列為 Python 範例。

      dataFrame.write \ .format("delta") \ .mode("overwrite") \ .partitionBy("<your_partitionkey_field>") \ .save("s3://<the_s3_path>")

      將資料寫入 Amazon S3 後,請使用 AWS Glue 爬蟲程式建立新的 Delta 目錄資料表。如需詳細資訊,請參閱使用 AWS Glue 爬蟲程式的原生 Delta Lake 資料表支援簡介

      您也可透過 AWS Glue CreateTable API 手動建立資料表。

  2. 將 Lake Formation 權限授予 AWS Glue 任務 IAM 角色。您可以從 Lake Formation 主控台或使用 AWS CLI 授予權限。如需詳細資訊,請參閱使用 Lake Formation 主控台和具名資源方法授予資料表權限

  3. 讀取在 Lake Formation 中註冊的 Delta 資料表。該程式碼與讀取未註冊之 Delta 資料表的程式碼相同。請注意,AWS Glue 任務 IAM 角色需要具有 SELECT 權限,才能成功讀取。

    # Example: Read a Delta Lake table from Glue Data Catalog df = glueContext.create_data_frame.from_catalog( database="<your_database_name>", table_name="<your_table_name>", additional_options=additional_options )
  4. 寫入在 Lake Formation 中註冊的 Delta 資料表。該程式碼與寫入未註冊之 Delta 資料表的程式碼相同。請注意,AWS Glue 任務 IAM 角色需要具有 SUPER 權限,才能成功寫入。

    依預設,AWS Glue 會使用 Append 作為 saveMode。您可以透過設定 additional_options 中的 saveMode 選項進行變更。如需有關 Delta 資料表之 saveMode 支援的資訊,請參閱寫入資料表

    glueContext.write_data_frame.from_catalog( frame=dataFrame, database="<your_database_name>", table_name="<your_table_name>", additional_options=additional_options )