Amazon EMR 的 Apache Hudi 和 Lake Formation

當您使用 Spark SQL 讀取和寫入資料時，Amazon EMR 6.15.0 版及更高版本包括支援以 AWS Lake Formation Apache Hudi 為基礎的精細存取控制。Amazon EMR 使用 Apache Hudi 來支援資料表、資料列、資料欄和儲存格層級存取控制。此功能讓您能對寫入時複製資料表執行快照查詢，以查詢指定遞交或壓縮時的最新資料表快照。

目前，已啟用 Lake Formation 的 Amazon EMR 叢集必須擷取 Hudi 的遞交時間欄，才能執行增量查詢和時間歷程查詢。它不支援 Spark timestamp as of 的語法和 Spark.read()函數。正確的語法為 select * from table where _hoodie_commit_time <= point_in_time。如需詳細資訊，請參閱 Hudi 資料表上的時間歷程查詢。

下列支援矩陣列出了 Apache Hudi 和 Lake Formation 的部分核心功能：

	寫入時複製	讀取時合併的比較
快照查詢：Spark SQL	✓	✓
讀取優化查詢：Spark SQL	✓	✓
增量查詢	✓	✓
時間歷程查詢	✓	✓
中繼資料表	✓	✓
DML `INSERT` 命令	✓	✓
DDL 命令
Spark 資料來源查詢
Spark 資料來源寫入

查詢 Hudi 資料表

本章節描述了如何在啟用 Lake Formation 的叢集上執行上述支援的查詢。此資料表應是已註冊的型錄資料表。

若要啟動 Spark Shell，請使用下列命令。


 spark-sql 
 --jars /usr/lib/hudi/hudi-spark-bundle.jar \
 --conf spark.serializer=org.apache.spark.serializer.KryoSerializer \
 --conf spark.sql.catalog.spark_catalog=org.apache.spark.sql.hudi.catalog.HoodieCatalog \
 --conf spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension,com.amazonaws.emr.recordserver.connector.spark.sql.RecordServerSQLExtension  \
 --conf spark.sql.catalog.spark_catalog.lf.managed=true

如果您希望 Lake Formation 使用記錄伺服器來管理您的 Spark 目錄，請將 spark.sql.catalog.<managed_catalog_name>.lf.managed 設為 true。

若要查詢寫入時複製資料表的最新快照，請使用下列命令。
```
SELECT * FROM my_hudi_cow_table
```
```
spark.read.table("my_hudi_cow_table")
```
若要查詢 MOR 資料表的最新壓縮資料，您可以查詢字尾為 _ro 的讀取優化資料表：
```
SELECT * FROM my_hudi_mor_table_ro
```
```
spark.read.table("my_hudi_mor_table_ro")
```

注意

由於不支援優化，Lake Formation 叢集上的讀取效能可能會變慢。這些功能包括基於 Hudi 中繼資料的檔案清單和資料略過。建議您測試應用程式效能，以確保符合您的要求。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

使用 Amazon EMR 啟用 Lake Formation

Iceberg 和 Lake Formation