Amazon EMR on EKS 6.9.0 版 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon EMR on EKS 6.9.0 版

下列 Amazon EMR 6.9.0 版本可在 EMR上供 Amazon 使用EKS。選取特定 emr-6.9.0 XXXX版本,以檢視更多詳細資訊,例如相關的容器映像標籤。

  • emr-6.9.0-latest

  • emr-6.9.0-20230905

  • emr-6.9.0-20230624

  • emr-6.9.0-20221108

  • emr-6.9.0-spark-rapids-latest

  • emr-6.9.0-spark-rapids-20230624

  • emr-6.9.0-spark-rapids-20221108

  • notebook-spark/emr-6.9.0-latest

  • notebook-spark/emr-6.9.0-20230624

  • notebook-spark/emr-6.9.0-20221108

  • notebook-python/emr-6.9.0-latest

  • notebook-python/emr-6.9.0-20230624

  • notebook-python/emr-6.9.0-20221108

Amazon 6.9.0 EMR 的版本備註

  • 支援的應用程式 ‐ AWS SDK for Java 1.12.331、Spark 3.3.0-amzn-1、Hudi 0.12.1-amzn-0、Iceberg 0.14.1-amzn-0、Delta 2.1.0。

  • 支援的元件 ‐ aws-sagemaker-spark-sdkemr-ddbemr-goodiesemr-s3-selectemrfshadoop-clienthudihudi-sparkicebergspark-kubernetes

  • 支援的組態分類:

    搭配 StartJobRun CreateManagedEndpoint 使用APIs:

    分類 描述

    core-site

    變更 Hadoop 的 core-site.xml 檔案中的值。

    emrfs-site

    變更EMRFS設定。

    spark-metrics

    變更 Spark 中 metrics.properties 檔案的值。

    spark-defaults

    變更 Spark 的 spark-defaults.conf 檔案中的值。

    spark-env

    變更 Spark 環境中的值。

    spark-hive-site

    變更 Spark 的 hive-site.xml 檔案中的值

    spark-log4j

    變更 Spark 中 log4j.properties 檔案的值。

    專門與 CreateManagedEndpoint 搭配使用APIs:

    分類 描述

    jeg-config

    變更 Jupyter Enterprise Gateway jupyter_enterprise_gateway_config.py 檔案中的值。

    jupyter-kernel-overrides

    在 Jupyter 核心規格檔案中變更核心映像的值。

    組態分類可讓您自訂應用程式。這些通常對應於應用程式的組態XML檔案,例如 spark-hive-site.xml。如需詳細資訊,請參閱設定應用程式

值得注意的功能

  • Nvidia RAPIDS Accelerator for Apache Spark - Amazon EMR on EKS 使用EC2圖形處理單元 (GPU) 執行個體類型加速 Spark。若要搭配 RAPIDS Accelerator 使用 Spark 映像,請將版本標籤指定為 emr-6.9.0-spark-rapids-latest。如需進一步了解,請造訪文件頁面

  • Spark-Redshift 連接器 - Apache Spark 的 Amazon Redshift 整合包含在 Amazon 6.9.0 版及更新EMR版本中。以前是一個開放原始碼工具,本機整合是一個 Spark 連接器,可用於建置在 Amazon Redshift 和 Amazon Redshift Serverless 中讀取和寫入資料的 Apache Spark 應用程式。如需詳細資訊,請參閱在 Amazon 上使用 Apache Spark 的 Amazon Redshift 整合 EMR EKS

  • Delta LakeDelta Lake 是一種開放原始碼儲存格式,可啟用資料湖的建置,並具有交易一致性、一致的資料集定義、結構描述演進變化以及資料變動支援。如需進一步了解,請造訪使用 Delta Lake

  • 修改 PySpark 參數 - 互動式端點現在支援修改與 EMR Studio Jupyter Notebook 中的 PySpark 工作階段相關聯的 Spark 參數。請造訪修改 PySpark 工作階段參數以進一步了解。

已解決的問題

  • 當您在 Amazon 6.6.0、6.7.0 和 6.8.0 EMR版上使用 DynamoDB 連接器搭配 Spark 時,所有來自資料表的讀取都會傳回空白結果,即使輸入分割參考非空白資料。Amazon 6.9.0 EMR版會修正此問題。

  • Amazon EMR on EKS 6.8.0 在使用 Apache Spark 產生的 Parquet 檔案中繼資料中錯誤填入建置雜湊。此問題可能會導致從 Amazon 在 EKS6.8.0 EMR上產生的 Parquet 檔案剖析中繼資料版本字串的工具失敗。

已知問題

  • 如果針對 Apache Spark 使用 Amazon Redshift 整合,並且具有 Parquet 格式的精確度為微秒的 time、timetz、timestamp 或 timestamptz,則連接器會將時間值四捨五入為最接近的微秒值。請使用文字卸載格式 unload_s3_format 參數作為一種解決方法。