Apache Hudi 和 Lake Formation - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Apache Hudi 和 Lake Formation

Amazon EMR 版本 6.15.0 及更高版本包括在您使用 Spark 讀取和寫入數據時使 AWS Lake Formation 用 Apache Hudi 對精細訪問控制的支持。SQLAmazon 透過 Apache Hudi EMR 支援資料表、列、欄和儲存格層級的存取控制。使用此功能,您可以在 copy-on-write 資料表上執行快照查詢,以便在指定認可或壓縮瞬間查詢資料表的最新快照集。

目前,啟用 Lake 格式化的 Amazon EMR 叢集必須擷取 Hudi 的提交時間欄,才能執行增量查詢和時間行程查詢。它不支持 Spark 的timestamp as of語法和Spark.read()功能。正確的語法是select * from table where _hoodie_commit_time <= point_in_time。如需詳細資訊,請參閱 Hudi 表格上的時間點旅行查詢

下列支援矩陣列出了 Apache Hudi 和 Lake Formation 的部分核心功能:

寫入時複製 讀取時合併的比較

快照查詢-星火 SQL

讀取優化查詢-星火 SQL

增量查詢

時間歷程查詢

中繼資料表

DMLINSERT命令

DDL命令

Spark 資料來源查詢

Spark 資料來源寫入

查詢 Hudi 資料表

本章節描述了如何在啟用 Lake Formation 的叢集上執行上述支援的查詢。此資料表應是已註冊的型錄資料表。

  1. 若要啟動 Spark Shell,請使用下列命令。

    spark-sql --jars /usr/lib/hudi/hudi-spark-bundle.jar \ --conf spark.serializer=org.apache.spark.serializer.KryoSerializer \ --conf spark.sql.catalog.spark_catalog=org.apache.spark.sql.hudi.catalog.HoodieCatalog \ --conf spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension,com.amazonaws.emr.recordserver.connector.spark.sql.RecordServerSQLExtension \ --conf spark.sql.catalog.spark_catalog.lf.managed=true

    如果您希望 Lake Formation 使用記錄服務器來管理您的 Spark 目錄,請設置spark.sql.catalog.<managed_catalog_name>.lf.managed為 true。

  2. 若要查詢資 copy-on-write 料表的最新快照集,請使用下列命令。

    SELECT * FROM my_hudi_cow_table
    spark.read.table("my_hudi_cow_table")
  3. 若要查詢 MOR 資料表的最新壓縮資料,您可以查詢字尾為 _ro 的讀取優化資料表:

    SELECT * FROM my_hudi_mor_table_ro
    spark.read.table("my_hudi_mor_table_ro")
注意

由於不支援優化,Lake Formation 叢集上的讀取效能可能會變慢。這些功能包括基於 Hudi 中繼資料的檔案清單和資料略過。建議您測試應用程式效能,以確保符合您的要求。