Amazon EMR 版本 6.3.0 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon EMR 版本 6.3.0

6.3.0 應用程式版本

此版本支援下列應用程式:Flink, Ganglia, HBase, HCatalog, Hadoop, Hive, Hudi, Hue, JupyterEnterpriseGateway, JupyterHub, Livy, MXNet, Oozie, Phoenix, Pig, Presto, PrestoSQL, Spark, Sqoop, TensorFlow, Tez, Zeppelin,以及 ZooKeeper.

下表列出此 Amazon 發行版本中可用的應用程式版本,以EMR及前三個 Amazon 版本中的應用程式EMR版本 (如果適用)。

如需 Amazon 每個版本之應用程式版本的完整歷史記錄EMR,請參閱下列主題:

應用程式版本資訊
emr-6.3.0 emr-6.2.1 emr-6.2.0 emr-6.1.1
AWS SDK對於爪哇 1.11.9771.11.8801.11.8801.11.828
Python 2.7、3.72.7、3.72.7、3.72.7、3.7
Scala 2.12.102.12.102.12.102.12.10
AmazonCloudWatchAgent - - - -
Delta - - - -
Flink1.12.11.11.21.11.21.11.0
Ganglia3.7.23.7.23.7.23.7.2
HBase2.2.62.2.6-amzn-02.2.6-amzn-02.2.5
HCatalog3.1.23.1.23.1.23.1.2
Hadoop3.2.13.2.13.2.13.2.1
Hive3.1.23.1.23.1.23.1.2
Hudi0.7.0-amzn-00.6.0-amzn-10.6.0-amzn-10.5.2-incubating-amzn-2
Hue4.9.04.8.04.8.04.7.1
Iceberg - - - -
JupyterEnterpriseGateway2.1.02.1.02.1.0 -
JupyterHub1.2.21.1.01.1.01.1.0
Livy0.7.00.7.00.7.00.7.0
MXNet1.7.01.7.01.7.01.6.0
Mahout - - - -
Oozie5.2.15.2.05.2.05.2.0
Phoenix5.0.05.0.05.0.05.0.0
Pig0.17.00.17.00.17.00.17.0
Presto0.245.10.238.30.238.30.232
Spark3.1.13.0.13.0.13.0.0
Sqoop1.4.71.4.71.4.71.4.7
TensorFlow2.4.12.3.12.3.12.1.0
Tez0.9.20.9.20.9.20.9.2
特里诺 (普雷斯托SQL)350343343338
Zeppelin0.9.00.9.00.9.00.9.0
ZooKeeper3.4.143.4.143.4.143.4.14

6.3.0 版本備註

下列版本說明包含 Amazon 6.3.0 EMR 版本的相關資訊。變更是相對於 6.2.0 版而言。

初始版本日期:2021 年 5 月 12 日

上次更新日期:2021 年 8 月 9 日

支援的應用程式
  • AWS SDK for Java 版本

  • CloudWatch 水槽版本

  • DynamoDB 連接器版本 4.16.0

  • EMRFS版本

  • Amazon EMR 好吃的東西 3.2.0 版本

  • Amazon EMR Kinesis 連接器 3.5.0 版

  • Amazon EMR 記錄服務器 2.0.0 版

  • Amazon EMR 腳本 2.5.0 版本

  • Flink 版本 1.12.1

  • Ganglia 3.7.2 版

  • AWS Glue 蜂巢元存儲客戶端 3.2.0 版本

  • Hadoop 版本 3.2.1-amzn-3

  • HBase版本 2.2.6-安區 -1

  • HBase-操作員工具 1.0.0

  • HCatalog版本 3.1.2-安贊 -0

  • Hive 版本 3.1.2-amzn-4

  • Hudi 版本 0.7.0-amzn-0

  • Hue 版本 4.9.0

  • 爪哇JDK版本科雷托

  • JupyterHub 版本

  • Livy 版本 0.7.0-incubating

  • MXNet版本 1.7.0

  • Oozie 版本 5.2.1

  • Phoenix 5.0.0 版

  • Pig 版本 0.17.0

  • Presto 版本 0.245.1-amzn-0

  • 普雷斯托 350 SQL 版

  • 阿帕奇遊俠KMS(多主機透明加密)2.0.0 版

  • ranger-plugins 2.0.1-amzn-0

  • ranger-s3-plugin 1.1.0

  • SageMaker 星火SDK版本 1.4.1

  • 斯卡拉版本 2.12.10(打開 JDK 64 位服務器虛擬機,Java 1.8.0_282)

  • Spark 版本 3.1.1-amzn-0

  • spark-rapids 0.4.1

  • Sqoop 版本 1.4.7

  • TensorFlow 2.4.1 版本

  • tez 版本 0.9.2

  • Zeppelin 版本 0.9.0

  • Zookeeper 3.4.14 版

  • 連接器與驅動程式:DynamoDB 連接器 4.16.0

新功能
  • Amazon EMR 支援 Amazon S3 存取點,這是 Amazon S3 的一項功能,可讓您輕鬆管理共用資料湖的存取權限。您可以使用 Amazon S3 存取點別名簡化在 Amazon 上大規模的資料存取EMR。您可以在所有版本的 Amazon EMR 上使用 Amazon S3 存取點,完全無需額外費用 AWS 提供 Amazon 服務EMR的區域。如需進一步了解 Amazon S3 Access Points 和 Access Point 別名,請參閱《Amazon S3 使用者指南》中的為您的存取點使用儲存貯體型別名

  • 新的ListReleaseLabelAPI參數DescribeReleaseLabel和參數提供 Amazon EMR 版本標籤詳細資訊。您可以透過程式設計方式列出執行API請求所在區域中的可用版本,並列出特定 Amazon EMR 版本標籤的可用應用程式。版本標籤參數也會列出支援指定應用程式的 Amazon EMR 版本,例如 Spark。此資訊可用於以程式設計方式啟動 Amazon EMR 叢集。例如,您可以使用 ListReleaseLabel 結果中的最新發行版本啟動叢集。如需詳細資訊,請參閱 Amazon EMR API 參考資料ListReleaseLabels中的DescribeReleaseLabel和。

  • 透過 Amazon EMR 6.3.0,您可以啟動與阿帕奇遊俠原生整合的叢集。Apache Ranger 是一個開放原始碼架構,可在 Hadoop 平台上啟用、監控和管理全面的資料安全。如需詳細資訊,請參閱 Apache Ranger。透過原生整合,您可以使用自己的 Apache Ranger,在 Amazon EMR 上強制執行精細的資料存取控制。請參閱 Amazon EMR EMR 管理指南中的阿帕奇遊俠集成 Amazon。

  • 範圍受管理的原則:符合 AWS 最佳實務,Amazon EMR 已引入 v2 EMR 範圍的預設受管政策,作為將棄用政策的替代方案。請參閱 Amazon EMR 受管政策

  • 執行個體中繼資料服務 (IMDS) V2 支援狀態:對於 Amazon EMR 6.2 或更新版本,Amazon EMR 元件會用IMDSv2於所有IMDS呼叫。對於應用程式程式碼中的IMDS呼叫,您可以同時使用IMDSv1和IMDSv2,或將其設定IMDS為僅用IMDSv2於增加安全性。如果您IMDSv1在舊版 Amazon EMR 6.x 中停用,則會導致叢集啟動失敗。

變更、強化功能和已解決的問題
  • 此版本可修正 Amazon EMR Scaling 無法成功擴展/縮減叢集或造成應用程式故障時的問題。

  • 修正當 Amazon 叢集EMR上的常駐程式執行狀態檢查活動 (例如收集節點狀態和YARNHDFS節點狀態) 時,擴展請求失敗的問題。發生這種情況的原因是叢集上的精靈無法將節點的運作狀態資料傳達給內部 Amazon EMR 元件。

  • 已改善EMR叢集上精靈,可在重複使用 IP 位址時正確追蹤節點狀態,以提升擴充作業期間的可靠性。

  • SPARK-29683 修正因為 Spark 擔任的所有可用的節點被列入拒絕清單,而導致作業在叢集縮減規模期間失敗的問題。

  • YARN-9011 修正叢集嘗試擴充或縮小時,因為YARN停用競爭狀況而發生作業失敗的問題。

  • 藉由確保 Amazon 叢集EMR上精靈與/之間的節點狀態始終保持一致,修正叢集擴展期間步驟或任務失敗的問題。YARN HDFS

  • 修正啟用 Kerberos 身份驗證的 Amazon EMR 叢集的叢集操作 (例如縮小和步驟提交) 失敗的問題。這是因為 Amazon EMR 叢集上精靈並未更新 Kerberos 票證,這是與主節點上的HDFS/YARN執行安全通訊所需的。

  • 較新的 Amazon EMR 版本修復了 Amazon 舊版本的「最大打開文件」限制較低AL2的問題EMR。Amazon EMR 發布 5.30.1,5.30.2,5.31.1,5.32.1,6.0.1,6.1.1,6.2.1,5.33.0 和更高版本現在包含了具有更高「打開文件數上限」設置的永久修復程序。

  • 星火 SQL UI 解釋模式默認從星火 3.1 更改extendedformatted。Amazon 將其EMR還原為extended在 Spark SQL UI 中包含邏輯計劃信息。您可以透過將 spark.sql.ui.explainMode 設為 formatted 進行還原。

  • 下列遞交從 Spark 主要分支向後移植。

    -[SPARK-34752] [BUILD] 將碼頭撞到 9 月 37 日至二零二零二三年。CVE

    -[SPARK-34534] 修正用 FetchShuffleBlocks 來擷取區塊時的 blockIds 順序。

    -[SPARK-34681] [SQL] 修正以不相等條件建置左側時,完整外部混洗雜湊聯結的錯誤。

    -[SPARK-34497] [SQL] 修正內建JDBC連線提供者,以還原JVM安全性內容變更。

  • 為了提高與 Nvidia Spark RAPIDs 插件的互操作性,新增了解決方法,以解決在禁用自適應查詢執行的情況下使用 Nvidia Spark RAPIDs 時阻止動態分區修剪觸發的問題,請參閱RAPIDS問題 #1378RAPIDS問題 ##1386。如需新組態的詳細資訊spark.sql.optimizer.dynamicPartitionPruning.enforceBroadcastReuse,請參閱RAPIDS問題 # #1386

  • 在開放原始碼 Spark 3.1 中,檔案輸出遞交者預設演算法已從版本 2 演算法變更為版本 1 演算法。有關更多信息,請參閱 Amazon EMR 優化 Spark 性能-動態分區修剪

  • Amazon EMR 還原為 v2 演算法 (舊版 Amazon EMR 6.x 版本中使用的預設值),以防止效能迴歸。若要還原開放原始碼 Spark 3.1 行為,請將 spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version 設為 1。開放原始碼 Spark 進行此變更是因為,檔案輸出遞交者演算法版本 2 中的任務遞交可部分完成,從而在某些情況下可能導致輸出資料正確性問題。不管,演算法版本 1 中的任務遞交也可部分完成。在有些情形中,任務遞交包含重新命名前的刪除。這可能會導致無提示資料正確性問題。

  • 已修正舊EMR版 Amazon 中的受管擴展問題,並進行了改進,因此可大幅降低應用程式失敗率。

  • 安裝了 AWS 每個新叢集上的 Java SDK 套裝軟體。這是一個包含所有服務SDKs及其依賴關係的單個 jar,而不是單獨的組件罐子。如需詳細資訊,請參閱 Java SDK 隨附相依性

已知問題
  • 對於 Amazon EMR 6.3.0 和 6.2.0 私有子網路叢集,您無法存取神經網路使用者介面。您將遇到「存取遭拒 (403)」錯誤。其他網站UIs, 如火花, 色調 JupyterHub, 齊柏林飛艇, 利維, 和特茲正常工作. Ganglia Web UI 也將正常存取公有子網路叢集。若要解決此問題,請使用 sudo systemctl restart httpd 重新啟動主節點上的 httpd 服務。此問題已在 Amazon EMR 6.4.0 中修復。

  • 當 AWS Glue 資料目錄已啟用,並使用 Spark 存取 AWS 使用空字符串位置 Glue 數據庫URI可能會失敗。這發生在 Amazon 早期EMR版本中,但 SPARK -31709(https://issues.apache.org/jira/browse/ SPARK -31709)使其適用於更多情況。例如,在預設值內建立表格時 AWS Glue DB 的位置URI是空字串,spark.sql("CREATE TABLE mytest (key string) location '/table_path';")失敗並顯示「無法從空字串建立路徑」訊息。若要解決此問題,請手動設定您URI的位置 AWS Glue 資料庫,然後使用 Spark 在這些資料庫中建立表格。

  • 在 Amazon EMR 6.3.0 中,普雷斯托SQL已經從版本 343 升級到 350 版本。開放原始碼中有兩項安全相關變更與此版本變更有關。如果未定義資料表、結構描述或工作階段屬性規則,檔案型型錄存取控制將從 deny 變更至 allow。此外,檔案型系統存取控制變更為支援未定義型錄規則的檔案。此情形將允許所有對型錄的存取。

    如需詳細資訊,請參閱版本 344 (2020 年 10 月 9 日)

  • 請注意,任何人都能讀取 Hadoop 使用者目錄 (/home/hadoop)。它具有 Unix 755(drwxr-xr-x)目錄權限,以允許像蜂巢這樣的框架讀取訪問。您可以將檔案存放於 /home/hadoop 及其子目錄,但請注意這些目錄的存取許可以保護敏感資訊。

  • 降低舊版 [在新版本中修復AL2] 的「最大打開文件」限制。Amazon EMR 版本:emr-5.30.x、emr-5.31.0、emr-5.32.0、EMR-6.0.0、emr-6.1.0 和 emr-6.2.0 是以舊版 ofAmazon Linux 2 (AL2) 為基礎,當使用預設建立 Amazon 叢集時,這些版本的「最大開啟檔案」設定為較低。EMR AMIAmazon EMR 發布 5.30.1,5.30.2,5.31.1,5.32.1,6.0.1,6.1.1,6.2.1,5.33.0 和更高版本包括一個具有更高「打開文件數上限」設置的永久修復程序。提交 Spark 作業時,開放檔限制較低的版本會導致「開放檔案過多」錯誤。在受影響的發行版本中,Amazon EMR 默AMI認設置的「最大打開文件數」的 ulimit 設置為 4096,低於 Linux 2 中的 65536 文件限制。 latestAmazon AMI當 Spark 驅動程式和執行器嘗試開啟超過 4096 個檔案時,「最大開放檔案」的 ulimit 設定過低會導致 Spark 作業失敗。為了解決這個問題,Amazon EMR 有一個引導動作(BA)腳本,該腳本在創建集群時調整 ulimit 設置。

    如果您使用的舊EMR版 Amazon 版本沒有針對此問題的永久修正程式,下列因應措施可讓您明確地將執行個體控制器 ulimit 設定為最多 65536 個檔案。

    從命令列明確設定 ulimit
    1. 編輯 /etc/systemd/system/instance-controller.service 以新增下列參數至「服務」區段。

      LimitNOFILE=65536

      LimitNPROC=65536

    2. 重啟 InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    使用引導操作 (BA) 設定 ulimit

    您還可以使用引導操作 (BA) 指令碼,在建立叢集時將執行個體-控制器 ulimit 設定為 65536 個檔案。

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • 重要

    EMR執行 Amazon Linux 或 Amazon Linux 2 Amazon 機器映像 (AMIs) 的叢集會使用預設的 Amazon Linux 行為,而且不會自動下載和安裝需要重新開機的重要核心更新。這與執行預設 Amazon Linux 的其他 Amazon EC2 執行個體相同AMI。如果 Amazon EMR 版本可用之後需要重新開機的新 Amazon Linux 軟體CUDA更新 (例如核心和更新) 可用,則執行預設值的EMR叢集執行個體AMI不會自動下載並安裝這些更新。NVIDIA若要取得核心更新,您可以自訂 Amazon EMR AMI使用最新的 Amazon Linux AMI

  • 若要搭配使用 Spark 動作和 Apache Oozie,您必須新增以下組態至您的 Oozie workflow.xml 檔案。否則,Oozie 啟動的 Spark 執行程序的類路徑中EMRFS會丟失幾個關鍵庫,例如 Hadoop 並且將丟失。

    <spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
  • 當您使用具備 Hive 分割區位置格式的 Spark 來讀取 Amazon S3 中的資料,並在 Amazon EMR 版本 5.30.0 到 5.36.0 和 6.2.0 至 6.9.0 執行 Spark 時,您可能會遇到阻止叢集正確讀取資料的問題。如果您的分割區具有以下所有特性,便會發生此種情形:

    • 兩個或更多分割區從同一資料表掃描而來。

    • 至少有一個分割區目錄路徑是其他一或多個分割區目錄路徑的字首,例如,s3://bucket/table/p=as3://bucket/table/p=a b 的字首。

    • 在另一個分割區目錄中,前置詞之後的第一個字元的 UTF -8 值小於/字元 (U+002F)。例如,s3://bucket/table/p=a b 中 a 和 b 之間有空白字元 (U+0020) 即屬於此類別。請注意還有 14 個其他非控制字元:!"#$%&‘()*+,-。如需詳細資訊,請參閱 UTF-8 編碼表和 Unicode 字元

    若要避免發生此問題,請在 spark-defaults 分類中將 spark.sql.sources.fastS3PartitionDiscovery.enabled 組態設定為 false

6.3.0 元件版本

下面列出了 Amazon 與此版本一起EMR安裝的元件。其中有一些屬於大數據應用程式套件。其他則是 Amazon 獨有的,EMR並安裝用於系統程序和功能。這些通常會以 emraws 開頭。最新 Amazon EMR 版本中的大數據應用程式套件通常是社群中的最新版本。我們會EMR盡快在 Amazon 提供社群版本。

Amazon 中的某些元件EMR與社群版本不同。這些元件具有版本標籤,格式為 CommunityVersion-amzn-EmrVersionEmrVersion 從 0 開始。例如,如果以 2.2 版命名myapp-component的開放原始碼社群元件已經修改三次以包含在不同的 Amazon EMR 版本中,則其發行版本會列為2.2-amzn-2

元件 版本 描述
aws-sagemaker-spark-sdk1.4.1Amazon SageMaker 星火 SDK
emr-ddb4.16.0適用於 Hadoop 生態系統應用程式的 Amazon DynamoDB 連接器。
emr-goodies3.2.0適用 Hadoop 生態系統的超便利程式庫。
emr-kinesis3.5.0適用於 Hadoop 生態系統應用程式的 Amazon Kinesis 連接器。
emr-notebook-env1.2.0適用於 emr 筆記本的 Conda env,前者包含 Jupyter Enterprise Gateway
emr-s3-dist-cp2.18.0針對 Amazon S3 最佳化的分散式複製應用程式。
emr-s3-select2.1.0EMRS3 選擇連接器
emrfs2.46.0適用於 Hadoop 生態系統應用程式的 Amazon S3 連接器。
flink-client1.12.1Apache Flink 命令列用戶端指令碼和應用程式。
flink-jobmanager-config1.12.1管理阿帕奇 Flink EMR JobManager 節點上的資源。
ganglia-monitor3.7.2Hadoop 生態系統應用程式內嵌 Ganglia 代理程式以及 Ganglia 監控代理程式。
ganglia-metadata-collector3.7.2Ganglia 監控代理程式的彙總指標 Ganglia 中繼資料收集器。
ganglia-web3.7.1由 Ganglia 中繼資料收集器收集,以檢視指標的 Web 應用程式。
hadoop-client3.2.1-amzn-3Hadoop 命令列用戶端,例如「hdfs」、「Hadoop」或「yarn」。
hadoop-hdfs-datanode3.2.1-amzn-3HDFS用於存儲塊的節點級服務。
hadoop-hdfs-library3.2.1-amzn-3HDFS命令行客戶端和庫
hadoop-hdfs-namenode3.2.1-amzn-3HDFS用於跟踪文件名和塊位置的服務。
hadoop-hdfs-journalnode3.2.1-amzn-3HDFS用於在 HA 叢集上管理 Hadoop 檔案系統日誌的服務。
hadoop-httpfs-server3.2.1-amzn-3HTTPHDFS作業的端點。
hadoop-kms-server3.2.1-amzn-3基於 Hadoop 的加密密鑰管理服務器。 KeyProvider API
hadoop-mapred3.2.1-amzn-3MapReduce 用於執行應用程式的執行引擎 MapReduce 程式庫。
hadoop-yarn-nodemanager3.2.1-amzn-3YARN用於管理個別節點上容器的服務。
hadoop-yarn-resourcemanager3.2.1-amzn-3YARN用於分配和管理叢集資源和分散式應用程式的服務。
hadoop-yarn-timeline-server3.2.1-amzn-3用於擷取應用程式目前和歷史資訊的YARN服務。
hbase-hmaster2.2.6-amzn-1負責協調區域和執行管理命令的HBase叢集服務。
hbase-region-server2.2.6-amzn-1服務於一個或多個HBase地區。
hbase-client2.2.6-amzn-1HBase命令行客戶端。
hbase-rest-server2.2.6-amzn-1提供RESTfulHTTP端點的服務HBase。
hbase-thrift-server2.2.6-amzn-1提供節儉端點的HBase服務。
hcatalog-client3.1.2-amzn-4操作 hcatalog-server 的「hcat」命令列用戶端。
hcatalog-server3.1.2-amzn-4服務提供HCatalog,分佈式應用程序的表和存儲管理層。
hcatalog-webhcat-server3.1.2-amzn-4HTTP提供REST介面的端點HCatalog。
hive-client3.1.2-amzn-4Hive 命令列用戶端。
hive-hbase3.1.2-amzn-4Hive-hbase 用戶端。
hive-metastore-server3.1.2-amzn-4服務訪問蜂巢元存儲,語義存儲的 Hadoop 操作元數據存儲庫。SQL
hive-server23.1.2-amzn-4依 Web 請求接受 Hive 查詢的服務。
hudi0.7.0-amzn-0增量處理架構,以低延遲和高效率強化資料管道。
hudi-presto0.7.0-amzn-0用於使用 Hudi 執行 Presto 的套件程式庫。
hudi-prestosql0.7.0-amzn-0用於SQL使用 Hudi 運行普雷斯托的捆綁庫。
hudi-spark0.7.0-amzn-0用於使用 Hudi 執行 Spark 的套件程式庫。
hue-server4.9.0使用 Hadoop 生態系統應用程式分析資料的 Web 應用程式
jupyterhub1.2.2適用於 Jupyter 筆記本的多使用者伺服器
livy-server0.7.0-incubatingREST用於與阿帕奇星火交互的接口
nginx1.12.1nginx [引擎 x] 是一個反向代理HTTP服務器
mxnet1.7.0靈活有效率的程式庫,具可擴展性,適用於深度學習。
mariadb-server5.68+MariaDB 資料庫伺服器。
nvidia-cuda10.1.243Nvidia 驅動程式和 Cuda 工具組
oozie-client5.2.1Oozie 命令列用戶端。
oozie-server5.2.1接受 Oozie 工作流程要求的服務。
opencv4.5.0開放原始碼電腦 Vision 程式庫。
phoenix-libraryHBase適用於伺服器和用戶端的 phoenix 程式庫
phoenix-query-serverHBase輕量級服務器,提供對 Avatica 的JDBC訪問以及協議緩衝區和JSON格式訪問 API
presto-coordinator0.245.1-amzn-0在 presto-workers 之間接受查詢和執行管理查詢的服務。
presto-worker0.245.1-amzn-0執行查詢各部分的服務。
presto-client0.245.1-amzn-0安裝於 HA 叢集的待命主節點的 Presto 命令列用戶端,該主節點上的 Presto 伺服器未啟動。
prestosql-coordinator350在 prestosql-workers 之間接受查詢和執行管理查詢的服務。
prestosql-worker350執行查詢各部分的服務。
prestosql-client350安裝於 HA 叢集的待命主節點的 Presto 命令列用戶端,該主節點上的 Presto 伺服器未啟動。
pig-client0.17.0Pig 命令列用戶端。
r4.0.2統計運算 R 專案
ranger-kms-server2.0.0Apache Ranger Key Management System
spark-client3.1.1-amzn-0Spark 命令列用戶端。
spark-history-server3.1.1-amzn-0用於檢視完整 Spark 應用程式生命週期記錄事件的 Web 使用者介面。
spark-on-yarn3.1.1-amzn-0的記憶體內執行引擎。YARN
spark-yarn-slave3.1.1-amzn-0阿帕奇星火庫所需的YARN奴隸。
spark-rapids0.4.1Nvidia 的星火RAPIDS插件,加速阿帕奇星火與GPUs。
sqoop-client1.4.7Apache Sqoop 命令列用戶端。
tensorflow2.4.1TensorFlow 用於高性能數值計算的開源軟件庫。
tez-on-yarn0.9.2Tez YARN 應用程式和程式庫。
webserver2.4.41+阿帕奇HTTP服務器。
zeppelin-server0.9.0能進行互動式資料分析,以 Web 為基礎的筆記型電腦。
zookeeper-server3.4.14用於維護組態資訊、命名、提供分散式同步,並提供群組服務的集中化服務。
zookeeper-client3.4.14ZooKeeper 命令行客戶端。

6.3.0 組態類別

組態分類可讓您自訂應用程式。這些通常對應於應用程序的配置XML文件,例如hive-site.xml。如需詳細資訊,請參閱設定應用程式

當您為執行中叢集的執行個體群組指定組態時,就會發生重新設定動作。Amazon EMR 只會針對您修改的分類啟動重新設定動作。如需詳細資訊,請參閱重新設定執行中叢集中的執行個體群組

emr-6.3.0 分類
分類 描述 重新設定動作

capacity-scheduler

變更 Hadoop 中 capacity-scheduler.xml 檔案的值。

Restarts the ResourceManager service.

container-executor

更改哈達通YARN的 container-executor.cfg 文件中的值。

Not available.

container-log4j

更改 Hadoop YARN 的容器,日誌 4j. 屬性文件中的值。

Not available.

core-site

變更 Hadoop 中 core-site.xml 檔案的值。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Ranger KMS, HiveServer2, Hive MetaStore, Hadoop Httpfs, and MapReduce-HistoryServer.

docker-conf

變更 Docker 相關設定。

Not available.

emrfs-site

變更EMRFS設定。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts HBaseRegionserver, HBaseMaster, HBaseThrift, HBaseRest, HiveServer2, Hive MetaStore, Hadoop Httpfs, and MapReduce-HistoryServer.

flink-conf

變更 flink-conf.yaml 設定。

Restarts Flink history server.

flink-log4j

變更 Flink log4j.properties 設定。

Restarts Flink history server.

flink-log4j-session

變更 Kubernetes/Yarn 工作階段的 Flink log4j-session.properties 設定。

Restarts Flink history server.

flink-log4j-cli

變更 Flink log4j-cli.properties 設定。

Restarts Flink history server.

hadoop-env

在 Hadoop 環境中變更所有 Hadoop 元件的值。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts PhoenixQueryserver, HiveServer2, Hive MetaStore, and MapReduce-HistoryServer.

hadoop-log4j

變更 Hadoop 中 log4j.properties 檔案的值。

Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.

hadoop-ssl-server

變更 hadoop ssl 伺服器組態

Not available.

hadoop-ssl-client

變更 hadoop ssl 用戶端組態

Not available.

hbase

Amazon EMR 策劃的阿帕奇HBase設置。

Custom EMR specific property. Sets emrfs-site and hbase-site configs. See those for their associated restarts.

hbase-env

變更環境中HBase的值。

Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer.

hbase-log4j

更改值HBase的 hbase-log4j. 屬性文件。

Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer.

hbase-metrics

更改值的遞增度量 HBase 2 hbase.properties 文件。

Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer.

hbase-policy

變更HBase的 hbase-policy.xml 檔案中的值。

Not available.

hbase-site

變更HBase的 hbase-site.xml 檔案中的值。

Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer. Additionally restarts Phoenix QueryServer.

hdfs-encryption-zones

設定HDFS加密區域。

This classification should not be reconfigured.

hdfs-env

變更HDFS環境中的值。

Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC.

hdfs-site

變更HDFS的 hdfs-site.xml 中的值。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs.

hcatalog-env

變更環境中HCatalog的值。

Restarts Hive HCatalog Server.

hcatalog-server-jndi

變更「jndi.properties」中HCatalog的值。

Restarts Hive HCatalog Server.

hcatalog-server-proto-hive-site

變更HCatalog的 proto-hive-site .xml 中的值。

Restarts Hive HCatalog Server.

hcatalog-webhcat-env

更改 HCatalog W 環境中ebHCat的值。

Restarts Hive WebHCat server.

hcatalog-webhcat-log4j2

更改 HCatalog W ebHCat 的 log4j2. 屬性中的值。

Restarts Hive WebHCat server.

hcatalog-webhcat-site

更改 HCatalog W 的 webhcat-site.xml 文件中ebHCat的值。

Restarts Hive WebHCat server.

hive

Amazon EMR 策劃的阿帕奇蜂巢設置。

Sets configurations to launch Hive LLAP service.

hive-beeline-log4j2

變更 Hive 的 beeline-log4j2.properties 檔案中的值。

Not available.

hive-parquet-logging

變更 Hive 的 parquet-logging.properties 檔案中的值。

Not available.

hive-env

變更 Hive 環境中的值。

Restarts HiveServer2, HiveMetastore, and Hive HCatalog-Server. Runs Hive schemaTool CLI commands to verify hive-metastore.

hive-exec-log4j2

更改蜂巢的 hive-exec-log 4j2. 屬性文件中的值。

Not available.

hive-llap-daemon-log4j2

更改蜂巢的 llap-daemon-log 4j2. 屬性文件中的值。

Not available.

hive-log4j2

變更 Hive 的 hive-log4j2.properties 檔案中的值。

Not available.

hive-site

變更 Hive 的 hive-site.xml 檔案中的值

Restarts HiveServer2, HiveMetastore, and Hive HCatalog-Server. Runs Hive schemaTool CLI commands to verify hive-metastore. Also restarts Oozie and Zeppelin.

hiveserver2-site

變更 Hive Server2 的 hiveserver2-site.xml 檔案中的值

Not available.

hue-ini

變更 Hue 的 ini 檔案中的值

Restarts Hue. Also activates Hue config override CLI commands to pick up new configurations.

httpfs-env

變更HTTPFS環境中的值。

Restarts Hadoop Httpfs service.

httpfs-site

變更 Hadoop 中 httpfs-site.xml 檔案的值。

Restarts Hadoop Httpfs service.

hadoop-kms-acls

變更 Hadoop 中 kms-acls.xml 檔案的值。

Not available.

hadoop-kms-env

變更 Hadoop KMS 環境中的值。

Restarts Hadoop-KMS service.

hadoop-kms-log4j

變更 Hadoop 的 kms-log4j.properties 檔案中的值。

Not available.

hadoop-kms-site

變更 Hadoop 中 kms-site.xml 檔案的值。

Restarts Hadoop-KMS and Ranger-KMS service.

hudi-env

變更 Hudi 環境中的值。

Not available.

jupyter-notebook-conf

變更 Jupyter 筆記本中 jupyter_notebook_config.py 檔案的值。

Not available.

jupyter-hub-conf

變更 JupyterHubs的 jupyterhub_config.py 檔案中的值。

Not available.

jupyter-s3-conf

設定 Jupyter 筆記本 S3 持久性。

Not available.

jupyter-sparkmagic-conf

變更 Sparkmagic 中 config.json 檔案的值。

Not available.

livy-conf

變更 Livy 的 livy.conf 檔案中的值。

Restarts Livy Server.

livy-env

變更 Livy 環境中的值。

Restarts Livy Server.

livy-log4j

變更 Livy log4j.properties 設定。

Restarts Livy Server.

mapred-env

變更 MapReduce 應用程式環境中的值。

Restarts Hadoop MapReduce-HistoryServer.

mapred-site

變更 MapReduce 應用程式的 mapred-site.xml 檔案中的值。

Restarts Hadoop MapReduce-HistoryServer.

oozie-env

變更 Oozie 環境中的值。

Restarts Oozie.

oozie-log4j

變更 Oozie 的 oozie-log4j.properties 檔案中的值。

Restarts Oozie.

oozie-site

變更 Oozie 的 oozie-site.xml 檔案中的值。

Restarts Oozie.

phoenix-hbase-metrics

變更 Phoenix 的 hadoop-metrics2-hbase.properties 檔案中的值。

Not available.

phoenix-hbase-site

變更 Phoenix 的 hbase-site.xml 檔案中的值。

Not available.

phoenix-log4j

變更 Phoenix 中 log4j.properties 檔案的值。

Restarts Phoenix-QueryServer.

phoenix-metrics

變更 Phoenix 的 hadoop-metrics2-phoenix.properties 檔案中的值。

Not available.

pig-env

在 Pig 環境中變更值。

Not available.

pig-properties

變更 Pig 的 pig.properties 檔案中的值。

Restarts Oozie.

pig-log4j

變更 Pig 的 log4j.properties 檔案中的值。

Not available.

presto-log

變更 Presto 的 log.properties 檔案中的值。

Restarts Presto-Server (for PrestoDB)

presto-config

變更 Presto 的 config.properties 檔案中的值。

Restarts Presto-Server (for PrestoDB)

presto-password-authenticator

變更 Presto 的 password-authenticator.properties 檔案中的值。

Not available.

presto-env

變更 Presto 的 presto-env.sh 檔案中的值。

Restarts Presto-Server (for PrestoDB)

presto-node

變更 Presto 的 node.properties 檔案中的值。

Not available.

presto-connector-blackhole

變更 Presto 的 blackhole.properties 檔案中的值。

Not available.

presto-connector-cassandra

變更 Presto 的 cassandra.properties 檔案中的值。

Not available.

presto-connector-hive

變更 Presto 的 hive.properties 檔案中的值。

Restarts Presto-Server (for PrestoDB)

presto-connector-jmx

變更 Presto 的 jmx.properties 檔案中的值。

Not available.

presto-connector-kafka

變更 Presto 的 kafka.properties 檔案中的值。

Not available.

presto-connector-localfile

變更 Presto 的 localfile.properties 檔案中的值。

Not available.

presto-connector-memory

變更 Presto 的 memory.properties 檔案中的值。

Not available.

presto-connector-mongodb

變更 Presto 的 mongodb.properties 檔案中的值。

Not available.

presto-connector-mysql

變更 Presto 的 mysql.properties 檔案中的值。

Not available.

presto-connector-postgresql

變更 Presto 的 postgresql.properties 檔案中的值。

Not available.

presto-connector-raptor

變更 Presto 的 raptor.properties 檔案中的值。

Not available.

presto-connector-redis

變更 Presto 的 redis.properties 檔案中的值。

Not available.

presto-connector-redshift

變更 Presto 的 redshift.properties 檔案中的值。

Not available.

presto-connector-tpch

變更 Presto 的 tpch.properties 檔案中的值。

Not available.

presto-connector-tpcds

變更 Presto 的 tpcds.properties 檔案中的值。

Not available.

prestosql-log

變更 Presto 的 log.properties 檔案中的值。

Restarts Presto-Server (for PrestoSQL)

prestosql-config

變更 Presto 的 config.properties 檔案中的值。

Restarts Presto-Server (for PrestoSQL)

prestosql-password-authenticator

變更 Presto 的 password-authenticator.properties 檔案中的值。

Restarts Presto-Server (for PrestoSQL)

prestosql-env

變更 Presto 的 presto-env.sh 檔案中的值。

Restarts Presto-Server (for PrestoSQL)

prestosql-node

在普雷斯托的節點. 屬性文件SQL中更改值。

Not available.

prestosql-connector-blackhole

在普雷斯托SQL的黑洞. 屬性文件中更改值。

Not available.

prestosql-connector-cassandra

更改值普雷斯托的卡桑德拉. 屬性文件SQL。

Not available.

prestosql-connector-hive

在普雷斯托的隱藏SQL的 .properties 文件中更改值。

Restarts Presto-Server (for PrestoSQL)

prestosql-connector-jmx

在普雷斯托SQL的 jmx.properties 文件中更改值。

Not available.

prestosql-connector-kafka

更改值普雷斯托SQL的卡夫卡. 屬性文件。

Not available.

prestosql-connector-localfile

在普雷斯托SQL的本地文件。屬性文件更改值。

Not available.

prestosql-connector-memory

在普雷斯托SQL的內存 .properties 文件中更改值。

Not available.

prestosql-connector-mongodb

在普雷斯托SQL的 Mongodb.properties 文件更改值。

Not available.

prestosql-connector-mysql

在普雷斯托SQL的 mysql.屬性文件更改值。

Not available.

prestosql-connector-postgresql

更改值普雷斯托SQL的後盾。屬性文件。

Not available.

prestosql-connector-raptor

在普雷斯托SQL的 Raptor.properties 文件更改值。

Not available.

prestosql-connector-redis

在普雷斯托SQL的 redis.properties 文件更改值。

Not available.

prestosql-connector-redshift

在普雷斯托SQL的紅移. 屬性文件中更改值。

Not available.

prestosql-connector-tpch

在普雷斯托SQL的 tpch.properties 文件更改值。

Not available.

prestosql-connector-tpcds

在普雷斯托SQL的 tpcds.properties 文件中更改值。

Not available.

ranger-kms-dbks-site

改變遊俠的 dbks-site.xml 文件中的值KMS。

Restarts Ranger KMS Server.

ranger-kms-site

更改遊俠KMS的 ranger-kms-site .xml 文件中的值。

Restarts Ranger KMS Server.

ranger-kms-env

變更遊俠KMS環境中的值。

Restarts Ranger KMS Server.

ranger-kms-log4j

更改遊俠 KMS-日誌 4j. 屬性文件中的值。KMS

Not available.

ranger-kms-db-ca

為我與遊俠的SQLSSL連接更改 S3 上 CA 文件的值KMS。

Not available.

spark

Amazon EMR 策劃的阿帕奇星火設置。

This property modifies spark-defaults. See actions there.

spark-defaults

變更 Spark 的 spark-defaults.conf 檔案中的值。

Restarts Spark history server and Spark thrift server.

spark-env

變更 Spark 環境中的值。

Restarts Spark history server and Spark thrift server.

spark-hive-site

變更 Spark 的 hive-site.xml 檔案中的值

Not available.

spark-log4j

變更 Spark 中 log4j.properties 檔案的值。

Restarts Spark history server and Spark thrift server.

spark-metrics

變更 Spark 中 metrics.properties 檔案的值。

Restarts Spark history server and Spark thrift server.

sqoop-env

變更 Sqoop 環境中的值。

Not available.

sqoop-oraoop-site

在方向 OraOop的 oraoop-site.xml 文件中更改值。

Not available.

sqoop-site

變更 Sqoop 的 sqoop-site.xml 檔案中的值。

Not available.

tez-site

變更 Tez 的 tez-site.xml 檔案中的值。

Restart Oozie and HiveServer2.

yarn-env

變更YARN環境中的值。

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.

yarn-site

變更YARN的 yarn-site.xml 檔案中的值。

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer.

zeppelin-env

變更 Zeppelin 環境中的值。

Restarts Zeppelin.

zeppelin-site

變更 zeppelin-site.xml 中的組態設定。

Restarts Zeppelin.

zookeeper-config

變更 ZooKeeper的 zoo.cfg 檔案中的值。

Restarts Zookeeper server.

zookeeper-log4j

變更 log4j. 屬性 ZooKeeper檔案中的值。

Restarts Zookeeper server.