Amazon EMR on EKS 6.9.0 版 - Amazon EMR

Amazon EMR on EKS 6.9.0 版

以下 Amazon EMR 6.9.0 版本可用於 Amazon EMR on EKS。選取特定的 emr-6.9.0-XXXX 版本，以檢視更多詳細資訊，例如相關的容器映像標籤。

emr-6.9.0-latest
emr-6.9.0-20230905
emr-6.9.0-20230624
emr-6.9.0-20221108
emr-6.9.0-spark-rapids-latest
emr-6.9.0-spark-rapids-20230624
emr-6.9.0-spark-rapids-20221108
notebook-spark/emr-6.9.0-latest
notebook-spark/emr-6.9.0-20230624
notebook-spark/emr-6.9.0-20221108
notebook-python/emr-6.9.0-latest
notebook-python/emr-6.9.0-20230624
notebook-python/emr-6.9.0-20221108

Amazon EMR on EKS 6.9.0 的版本資訊

支援的應用程式 ‐ 適用於 Java 的 AWS SDK 1.12.331、Spark 3.3.0-amzn-1、Hudi 0.12.1-amzn-0、Iceberg 0.14.1-amzn-0、Delta 2.1.0。
支援的元件 ‐ aws-sagemaker-spark-sdk、emr-ddb、emr-goodies、emr-s3-select、emrfs、hadoop-client、hudi、hudi-spark、iceberg、spark-kubernetes。

支援的組態分類：

若要與 StartJobRun 和 CreateManagedEndpoint API 搭配使用：

分類	描述
`core-site`	變更 Hadoop 的 core-site.xml 檔案中的值。
`emrfs-site`	變更 EMRFS 設定。
`spark-metrics`	變更 Spark 中 metrics.properties 檔案的值。
`spark-defaults`	變更 Spark 的 spark-defaults.conf 檔案中的值。
`spark-env`	變更 Spark 環境中的值。
`spark-hive-site`	變更 Spark 的 hive-site.xml 檔案中的值
`spark-log4j`	變更 Spark 中 log4j.properties 檔案的值。

專門搭配 CreateManagedEndpoint API 使用：

分類	描述
`jeg-config`	變更 Jupyter Enterprise Gateway `jupyter_enterprise_gateway_config.py` 檔案中的值。
`jupyter-kernel-overrides`	在 Jupyter 核心規格檔案中變更核心映像的值。

組態分類可讓您自訂應用程式。這些檔案通常對應於應用程式的組態 XML 檔案，例如 spark-hive-site.xml。如需詳細資訊，請參閱設定應用程式。

值得注意的功能

Nvidia RAPIDS Accelerator for Apache Spark ‐ Amazon EMR on EKS 可使用 EC2 圖形處理單元 (GPU) 執行個體類型加速 Spark。若要搭配使用 Spark 影像與 RAPIDS Accelerator，請將發行標籤指定為 emr-6.9.0-spark-rapids-latest。如需進一步了解，請造訪文件頁面。
Spark-Redshift 連接器 - Apache Spark 的 Amazon Redshift 整合包含在 Amazon EMR 6.9.0 及更高版本中。以前是一個開放原始碼工具，本機整合是一個 Spark 連接器，可用於建置在 Amazon Redshift 和 Amazon Redshift Serverless 中讀取和寫入資料的 Apache Spark 應用程式。如需詳細資訊，請參閱針對 Apache Spark on Amazon EMR on EKS 使用 Amazon Redshift 整合。
Delta Lake‐Delta Lake 是一種開放原始碼儲存格式，可啟用資料湖的建置，並具有交易一致性、一致的資料集定義、結構描述演進變化以及資料變動支援。如需進一步了解，請造訪使用 Delta Lake。
修改 PySpark 參數 - 互動端點現在支援修改與 EMR Studio Jupyter 筆記本中的 PySpark 工作階段相關聯的 Spark 參數。如需進一步了解，請造訪修改 PySpark 工作階段參數。

已解決的問題

搭配使用 DynamoDB 連接器與 Amazon EMR 6.6.0、6.7.0 和 6.8.0 版本上的 Spark 時，即使輸入分割參照非空白資料，從資料表中進行的所有讀取都會傳回空白結果。Amazon EMR 6.9.0 版解決了此問題。
Amazon EMR on EKS 6.8.0 在使用 Apache Spark 產生的 Parquet 檔案中繼資料中錯誤地填充了建置雜湊。此問題可能會導致從 Amazon EMR on EKS 6.8.0 產生的 Parquet 檔案中剖析中繼資料版本字串的工具失敗。

已知問題

如果針對 Apache Spark 使用 Amazon Redshift 整合，並且具有 Parquet 格式的精確度為微秒的 time、timetz、timestamp 或 timestamptz，則連接器會將時間值四捨五入為最接近的微秒值。請使用文字卸載格式 unload_s3_format 參數作為一種解決方法。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

emr-6.10.0-20230220

emr-6.9.0-latest