Amazon 6.4.0 EMR版 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon 6.4.0 EMR版

6.4.0 應用程式版本

此版本支援下列應用程式: Flink, Ganglia, HBase, HCatalog, Hadoop, Hive, Hudi, Hue, JupyterEnterpriseGateway, JupyterHub, Livy, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Trino, Zeppelin、 和 ZooKeeper.

下表列出此版本 Amazon 中可用的應用程式版本,EMR以及前三個 Amazon EMR版本 (如適用) 中的應用程式版本。

如需每個 Amazon 版本應用程式版本的全面歷史記錄EMR,請參閱下列主題:

應用程式版本資訊
emr-6.4.0 emr-6.3.1 emr-6.3.0 emr-6.2.1
適用於 Java 的AWS SDK 1.12.311.11.9771.11.9771.11.880
Python 2.7、3.72.7、3.72.7、3.72.7、3.7
Scala 2.12.102.12.102.12.102.12.10
AmazonCloudWatchAgent - - - -
Delta - - - -
Flink1.13.11.12.11.12.11.11.2
Ganglia3.7.23.7.23.7.23.7.2
HBase2.4.42.2.62.2.62.2.6-amzn-0
HCatalog3.1.23.1.23.1.23.1.2
Hadoop3.2.13.2.13.2.13.2.1
Hive3.1.23.1.23.1.23.1.2
Hudi0.8.0-amzn-00.7.0-amzn-00.7.0-amzn-00.6.0-amzn-1
Hue4.9.04.9.04.9.04.8.0
Iceberg - - - -
JupyterEnterpriseGateway2.1.02.1.02.1.02.1.0
JupyterHub1.4.11.2.21.2.21.1.0
Livy0.7.10.7.00.7.00.7.0
MXNet1.8.01.7.01.7.01.7.0
Mahout - - - -
Oozie5.2.15.2.15.2.15.2.0
Phoenix5.1.25.0.05.0.05.0.0
Pig0.17.00.17.00.17.00.17.0
Presto0.254.10.245.10.245.10.238.3
Spark3.1.23.1.13.1.13.0.1
Sqoop1.4.71.4.71.4.71.4.7
TensorFlow2.4.12.4.12.4.12.3.1
Tez0.9.20.9.20.9.20.9.2
Trino (PrestoSQL)359350350343
Zeppelin0.9.00.9.00.9.00.9.0
ZooKeeper3.5.73.4.143.4.143.4.14

6.4.0 版本備註

下列版本備註包含 Amazon 6.4.0 EMR版的資訊。變更是相對於 6.3.0 版而言。

初始版本日期:2021 年 9 月 20 日

更新版本日期:2022 年 3 月 21 日

支援的應用程式
  • AWS SDK for Java 1.12.31 版

  • CloudWatch Sink 2.2.0 版

  • DynamoDB 連接器版本 4.16.0

  • EMRFS 2.47.0 版

  • Amazon EMR Goodies 3.2.0 版

  • Amazon EMR Kinesis Connector 3.5.0 版

  • Amazon EMR Record Server 2.1.0 版

  • Amazon EMR Scripts 2.5.0 版

  • Flink 版本 1.13.1

  • Ganglia 3.7.2 版

  • AWS Glue Hive Metastore 用戶端 3.3.0 版

  • Hadoop 版本 3.2.1-amzn-4

  • HBase 2.4.4-amzn-0 版

  • HBase-operator-tools 1.1.0

  • HCatalog 3.1.2-amzn-5 版

  • Hive 版本 3.1.2-amzn-5

  • Hudi 版本 0.8.0-amzn-0

  • Hue 版本 4.9.0

  • Java JDK版本 Corretto-8.302.08.1 (建置 1.8.0_302-b08)

  • JupyterHub 1.4.1 版

  • Livy 版本 0.7.1-incubating

  • MXNet 1.8.0 版

  • Oozie 版本 5.2.1

  • Phoenix 版本 5.1.2

  • Pig 版本 0.17.0

  • Presto 版本 0.254.1-amzn-0

  • Trino 版本 359

  • Apache Ranger KMS(多主機透明加密) 2.0.0 版

  • ranger-plugins 2.0.1-amzn-0

  • ranger-s3-plugin 1.2.0

  • SageMaker Spark 1.4.1 SDK版

  • Scala 2.12.10 版 (開啟JDK 64-Bit伺服器 VM,Java 1.8.0_282)

  • Spark 版本 3.1.2-amzn-0

  • spark-rapids 0.4.1

  • Sqoop 版本 1.4.7

  • TensorFlow 2.4.1 版

  • tez 版本 0.9.2

  • Zeppelin 版本 0.9.0

  • Zookeeper 版本 3.5.7

  • 連接器與驅動程式:DynamoDB 連接器 4.16.0

新功能
  • 【受管擴展】 Spark 隨機擴展資料受管擴展最佳化 - 對於 Amazon 5EMR.34.0 版和更新版本,以及 6.4.0 版和更新EMR版本,受管擴展現在是 Spark 隨機擴展資料感知 (Spark 重新分配到跨分割區以執行特定操作的資料)。如需隨機播放操作的詳細資訊,請參閱《Amazon EMR管理指南》Spark 程式設計指南》中的在 Amazon 中使用EMR受管擴展EMR

  • 在啟用 Apache Ranger 的 Amazon EMR叢集上,您可以使用 Apache Spark 將資料SQL插入 ,或使用 INSERT INTOINSERT OVERWRITE和 更新 Apache Hive 中繼存放區資料表ALTER TABLE。ALTER TABLE 搭配 Spark 使用 時SQL,分割區位置必須是資料表位置的子目錄。Amazon 目前EMR不支援將資料插入分割區,其中分割區位置與資料表位置不同。

  • PrestoSQL 已重新命名為 Trino。

  • Hive:只要擷取LIMIT子句中提到的記錄數目,就會停止查詢執行,以加速SELECT執行具有LIMIT子句的簡單查詢。簡單SELECT查詢是依子ORDER句或沒有減少器階段的查詢,沒有 GROUP BY / 的查詢。例如:SELECT * from <TABLE> WHERE <Condition> LIMIT <Number>

Hudi 並行控制
  • Hudi 現在支援最佳化並行控制 (OCC),可與寫入操作搭配使用,例如 INSERT UPSERT和 允許從多個寫入器變更為相同的 Hudi 資料表。這是檔案層級 OCC,因此如果兩個遞交 (或寫入器) 的變更沒有衝突,則可以寫入相同的資料表。如需詳細資料,請參閱 Hudi 並行控制

  • Amazon EMR叢集已安裝 Zookeeper,可用作 的鎖定提供者OCC。為了更輕鬆地使用此功能,Amazon EMR叢集具有下列預先設定的屬性:

    hoodie.write.lock.provider=org.apache.hudi.client.transaction.lock.ZookeeperBasedLockProvider hoodie.write.lock.zookeeper.url=<EMR Zookeeper URL> hoodie.write.lock.zookeeper.port=<EMR Zookeeper Port> hoodie.write.lock.zookeeper.base_path=/hudi

    若要啟用 OCC,您需要使用 Hudi 任務選項或在叢集層級使用 Amazon EMR組態 設定下列屬性API:

    hoodie.write.concurrency.mode=optimistic_concurrency_control hoodie.cleaner.policy.failed.writes=LAZY (Performs cleaning of failed writes lazily instead of inline with every write) hoodie.write.lock.zookeeper.lock_key=<Key to uniquely identify the Hudi table> (Table Name is a good option)
Hudi 監控:Amazon CloudWatch 整合以報告 Hudi 指標
  • Amazon EMR支援將 Hudi 指標發佈至 Amazon CloudWatch。透過設定下列必要組態啟用此功能:

    hoodie.metrics.on=true hoodie.metrics.reporter.type=CLOUDWATCH
  • 以下是您可以變更的選用 Hudi 組態:

    設定 描述 Value

    hoodie.metrics.cloudwatch.report.period.seconds

    向 Amazon 報告指標的頻率 (以秒為單位) CloudWatch

    預設值為 60 秒,這對於 Amazon 提供的預設一分鐘解析度沒有問題 CloudWatch

    hoodie.metrics.cloudwatch.metric.prefix

    要新增至每個指標名稱的字首

    預設值為空 (無字首)

    hoodie.metrics.cloudwatch.namespace

    發佈指標的 Amazon CloudWatch 命名空間

    預設值為 Hudi

    hoodtas.metrics.cloudwatch.maxDatumsPerRequest

    要包含在向 Amazon 提出的單一請求中的基準數量上限 CloudWatch

    預設值為 20,與 Amazon CloudWatch 預設值相同

Amazon EMR Hudi 組態支援和改善
  • 客戶現在可以利用EMR組態API和重新組態功能,在叢集層級設定 Hudi 組態。已沿 Spark、Hive 等其他應用程式一行推出新的以檔案為基礎的組態支援 via /etc/hudi/conf/hudi-defaults.conf。 會EMR設定一些預設值來改善使用者體驗:

    hoodie.datasource.hive_sync.jdbcurl 已設定為叢集 Hive 伺服器URL,且不再需要指定。這在 Spark 叢集模式下執行任務時特別有用,您之前必須指定 Amazon EMR主 IP。

    — HBase特定組態,可用於搭配 Hudi 使用HBase索引。

    — Zookeeper 鎖定提供者特定的組態,如並行控制所述,這可讓您更輕鬆地使用最佳化並行控制 (OCC)。

  • 已引入其他變更,以減少您需要傳遞的組態數量,並在可能時自動推斷:

    partitionBy 關鍵字可用於指定分割區資料欄。

    – 當啟用「Hive 同步」時,不再強制傳遞 HIVE_TABLE_OPT_KEY, HIVE_PARTITION_FIELDS_OPT_KEY, HIVE_PARTITION_EXTRACTOR_CLASS_OPT_KEY。這些值可從 Hudi 資料表名稱和分割區欄位推斷得出。

    – 不用強制傳遞 KEYGENERATOR_CLASS_OPT_KEY,可從更簡單的情況 (SimpleKeyGeneratorComplexKeyGenerator) 推斷得出。

Hudi 警告
  • Hudi 不支援在 Hive 中針對「讀取時合併」(MoR) 和引導資料表的向量化執行。例如,當 hive.vectorized.execution.enabled 設為 true 時,使用 Hudi 即時資料表的 count(*) 將會失敗。作為解決方法之一,您可以透過將 hive.vectorized.execution.enabled 設為 false 停用向量化讀取。

  • 多寫入器支援與 Hudi 引導功能不相容。

  • Flink Streamer 和 Flink SQL是此版本的實驗性功能。不建議在生產部署中使用這些功能。

變更、強化功能和已解決的問題

這是一個版本,用於修正 Amazon EMR Scaling 無法成功擴展叢集或導致應用程式失敗的問題。

  • 先前,在多主機叢集上手動重新啟動資源管理員,會導致 Amazon 叢集EMR上精靈,例如 Zookeeper,重新載入 Zookeeper znode 檔案中所有先前停用或遺失的節點。這會使得在特定情形中超過預設限制。Amazon EMR 現在會從 Zookeeper 檔案移除超過一小時的停用或遺失節點記錄,並提高內部限制。

  • 修正 Amazon 叢集EMR上精靈正在執行運作運作狀態檢查活動時,大型、高度使用叢集的擴展請求失敗的問題,例如收集YARN節點狀態和HDFS節點狀態。發生這種情況是因為叢集上精靈無法將節點的運作狀態資料傳達給內部 Amazon EMR元件。

  • 改善叢集EMR內精靈,以便在重複使用 IP 地址時正確追蹤節點狀態,以在擴展操作期間提高可靠性。

  • SPARK-29683。修正因為 Spark 擔任的所有可用的節點被列入拒絕清單,而導致作業在叢集縮減規模期間失敗的問題。

  • YARN-9011。修正叢集嘗試擴展或縮減規模時,因YARN停用競爭條件而導致任務失敗的問題。

  • 透過確保 Amazon 叢集EMR上精靈和 YARN/ 之間的節點狀態始終一致,修正叢集擴展期間步驟或任務失敗的問題HDFS。

  • 已修正以下問題:使用 Kerberos 身分驗證啟用的 Amazon EMR叢集,例如縮減規模和提交步驟失敗。這是因為 Amazon EMR on-cluster 協助程式未續約 Kerberos 票證,這是與主節點上安全通訊HDFS/YARN執行的必要條件。

  • 設定叢集以修正 Apache YARN Timeline Server 第 1 版和 1.5 版的效能問題

    Apache YARN Timeline Server 第 1 版和第 1.5 版可能會導致非常活躍的大型EMR叢集的效能問題,特別是使用 yarn.resourcemanager.system-metrics-publisher.enabled=true時,這是 Amazon 中的預設設定EMR。開放原始碼 YARN Timeline Server v2 可解決與 YARN Timeline Server 可擴展性相關的效能問題。

    此問題的其他解決辦法包括:

    • 在 yarn-sitesystem-metrics-publisher.xml 中設定 yarn.resourcemanager.enabled=false。

    • 在建立叢集時啟用此問題的修正程式,如下所述。

    下列 Amazon EMR版本包含此YARN時間軸伺服器效能問題的修正。

    EMR 5.30.2、5.31.1、5.32.1、5.33.1、5.34.x、6.0.1、6.1.1、6.2.1、6.3.1、6.4.x

    若要啟用上述任何指定 Amazon EMR版本的修正,true請在使用aws emr create-cluster命令參數傳入的組態JSON檔案中將這些屬性設定為 :--configurations file://./configurations.json。或使用重新設定主控台 UI啟用修正程式。

    configurations.json 檔案內容的範例:

    [ { "Classification": "yarn-site", "Properties": { "yarn.resourcemanager.system-metrics-publisher.timeline-server-v1.enable-batch": "true", "yarn.resourcemanager.system-metrics-publisher.enabled": "true" }, "Configurations": [] } ]
  • WebHDFS 和 HttpFS 伺服器預設為停用。您可以使用 Hadoop 組態 重新啟用 WebHDFSdfs.webhdfs.enabled。HttpFS 伺服器可透過使用 sudo systemctl start hadoop-httpfs 啟動。

  • HTTPS Amazon Linux 儲存庫現在預設為啟用 。如果您使用 Amazon S3 VPCE政策來限制對特定儲存貯體的存取,則必須將新的 Amazon Linux 儲存貯體新增至您的政策 ARN arn:aws:s3:::amazonlinux-2-repos-$region/* ($region取代為端點所在的區域)。如需詳細資訊,請參閱 AWS 討論論壇中的此主題。公告:Amazon Linux 2 現在支援在連線至套件儲存庫 HTTPS時使用 。

  • Hive:啟用HDFS上一個任務在 上使用暫存目錄,可改善寫入查詢效能。最終任務的暫存資料會寫入 HDFS而非 Amazon S3,且效能會有所改善,因為資料會從 移至最終資料表位置 (Amazon S3),而不是HDFS在 Amazon S3 裝置之間移動。

  • Hive:使用 Glue 中繼存放區分割區剔除,讓查詢編譯時間最多改進 2.5 倍。

  • 根據預設,當 Hive 將內建UDFs傳遞至 Hive Metastore Server 時,由於 Glue 僅支援有限的表達式運算子,因此只有一部分內建的子集UDFs會傳遞至 Glue Metastore。如果您設定 hive.glue.partition.pruning.client=true,則所有分割區剔除將在用戶端發生。如果您設定 hive.glue.partition.pruning.server=true,則所有分割區剔除將在伺服器端發生。

已知問題
  • Hue 查詢無法在 Amazon EMR 6.4.0 中運作,因為 Apache Hadoop HttpFS 伺服器預設為停用。若要在 Amazon EMR 6.4.0 上使用 Hue,請使用 在 Amazon EMR主節點上手動啟動 HttpFS 伺服器sudo systemctl start hadoop-httpfs或使用 Amazon EMR 步驟

  • 搭配 Livy 使用者模擬使用的 Amazon EMR Notebooks 功能無法運作,因為 HttpFS 預設為停用。在此情況下,EMR筆記本無法連線至已啟用 Livy 模擬的叢集。解決方法是先啟動 HttpFS 伺服器,再使用 將EMR筆記本連接到叢集sudo systemctl start hadoop-httpfs

  • 在 Amazon 6.4.0 EMR版中,Phoenix 不支援 Phoenix 連接器元件。

  • 若要搭配使用 Spark 動作和 Apache Oozie,您必須新增以下組態至您的 Oozie workflow.xml 檔案。否則,數個關鍵程式庫,例如 Hadoop 和 EMRFS將會從 Oozie 啟動的 Spark 執行器的 classpath 中遺失。

    <spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
  • 當您使用 Spark 搭配 Hive 分割區位置格式化來讀取 Amazon S3 中的資料時,並在 Amazon EMR版本 5.30.0 到 5.36.0 以及 6.2.0 到 6.9.0 上執行 Spark 時,您可能會遇到問題,導致叢集無法正確讀取資料。如果您的分割區具有以下所有特性,便會發生此種情形:

    • 兩個或更多分割區從同一資料表掃描而來。

    • 至少有一個分割區目錄路徑是其他一或多個分割區目錄路徑的字首,例如,s3://bucket/table/p=as3://bucket/table/p=a b 的字首。

    • 另一個分割區目錄中字首後面的第一個字元具有小於/字元 (U+002F) 的 UTF-8 值。例如,s3://bucket/table/p=a b 中 a 和 b 之間有空白字元 (U+0020) 即屬於此類別。請注意還有 14 個其他非控制字元:!"#$%&‘()*+,-。如需詳細資訊,請參閱 UTF-8 編碼資料表和 Unicode 字元

    若要避免發生此問題,請在 spark-defaults 分類中將 spark.sql.sources.fastS3PartitionDiscovery.enabled 組態設定為 false

6.4.0 元件版本

Amazon 使用此版本EMR安裝的元件如下所示。其中有一些屬於大數據應用程式套件。其他則對 Amazon 而言是獨一無二的EMR,並針對系統程序和功能進行安裝。這些通常會以 emraws 開頭。Amazon EMR最新版本中的大數據應用程式套件通常是社群中發現的最新版本。我們會EMR盡快在 Amazon 中提供社群版本。

Amazon 中的某些元件與社群版本EMR不同。這些元件具有版本標籤,格式為 CommunityVersion-amzn-EmrVersionEmrVersion 從 0 開始。例如,如果使用 2.2 版命名myapp-component的開放原始碼社群元件已修改三次,以納入不同的 Amazon EMR版本,則其發行版本會列為 2.2-amzn-2

元件 版本 描述
aws-sagemaker-spark-sdk1.4.1Amazon SageMaker Spark SDK
emr-ddb4.16.0適用於 Hadoop 生態系統應用程式的 Amazon DynamoDB 連接器。
emr-goodies3.2.0適用 Hadoop 生態系統的超便利程式庫。
emr-kinesis3.5.0適用於 Hadoop 生態系統應用程式的 Amazon Kinesis 連接器。
emr-notebook-env1.3.0適用於 emr 筆記本的 Conda env,前者包含 Jupyter Enterprise Gateway
emr-s3-dist-cp2.18.0針對 Amazon S3 最佳化的分散式複製應用程式。
emr-s3-select2.1.0EMR S3Select 連接器
emrfs2.47.0適用於 Hadoop 生態系統應用程式的 Amazon S3 連接器。
flink-client1.13.1Apache Flink 命令列用戶端指令碼和應用程式。
flink-jobmanager-config1.13.1管理 Apache Flink EMR節點上的資源 JobManager。
ganglia-monitor3.7.2Hadoop 生態系統應用程式內嵌 Ganglia 代理程式以及 Ganglia 監控代理程式。
ganglia-metadata-collector3.7.2Ganglia 監控代理程式的彙總指標 Ganglia 中繼資料收集器。
ganglia-web3.7.1由 Ganglia 中繼資料收集器收集,以檢視指標的 Web 應用程式。
hadoop-client3.2.1-amzn-4Hadoop 命令列用戶端,例如「hdfs」、「Hadoop」或「yarn」。
hadoop-hdfs-datanode3.2.1-amzn-4HDFS 用於儲存區塊的節點層級服務。
hadoop-hdfs-library3.2.1-amzn-4HDFS command-line 用戶端和程式庫
hadoop-hdfs-namenode3.2.1-amzn-4HDFS 服務,用於追蹤檔案名稱和區塊位置。
hadoop-hdfs-journalnode3.2.1-amzn-4HDFS 服務,用於管理 HA 叢集上的 Hadoop 檔案系統日誌。
hadoop-httpfs-server3.2.1-amzn-4HTTP HDFS操作的 端點。
hadoop-kms-server3.2.1-amzn-4以 Hadoop 的 為基礎的密碼編譯金鑰管理伺服器 KeyProvider API。
hadoop-mapred3.2.1-amzn-4MapReduce 執行引擎程式庫,用於執行 MapReduce 應用程式。
hadoop-yarn-nodemanager3.2.1-amzn-4YARN 服務,用於管理個別節點上的容器。
hadoop-yarn-resourcemanager3.2.1-amzn-4YARN 服務,用於配置和管理叢集資源和分散式應用程式。
hadoop-yarn-timeline-server3.2.1-amzn-4擷取YARN應用程式目前和歷史資訊的 服務。
hbase-hmaster2.4.4-amzn-0負責協調區域和執行管理命令的HBase叢集服務。
hbase-region-server2.4.4-amzn-0為一或多個HBase區域提供服務。
hbase-client2.4.4-amzn-0HBase command-line 用戶端。
hbase-rest-server2.4.4-amzn-0為 提供RESTfulHTTP端點的服務HBase。
hbase-thrift-server2.4.4-amzn-0向 提供 Thrift 端點的服務HBase。
hcatalog-client3.1.2-amzn-5操作 hcatalog-server 的「hcat」命令列用戶端。
hcatalog-server3.1.2-amzn-5為分散式應用程式提供 HCatalog、資料表和儲存管理層的服務。
hcatalog-webhcat-server3.1.2-amzn-5HTTP 端點提供REST介面給 HCatalog。
hive-client3.1.2-amzn-5Hive 命令列用戶端。
hive-hbase3.1.2-amzn-5Hive-hbase 用戶端。
hive-metastore-server3.1.2-amzn-5存取 Hive 中繼存放區的服務,這是在 Hadoop 操作SQL上存放 中繼資料的語意儲存庫。
hive-server23.1.2-amzn-5依 Web 請求接受 Hive 查詢的服務。
hudi0.8.0-amzn-0增量處理架構,以低延遲和高效率強化資料管道。
hudi-presto0.8.0-amzn-0用於使用 Hudi 執行 Presto 的套件程式庫。
hudi-trino0.8.0-amzn-0用於使用 Hudi 執行 Trino 的套件程式庫。
hudi-spark0.8.0-amzn-0用於使用 Hudi 執行 Spark 的套件程式庫。
hue-server4.9.0使用 Hadoop 生態系統應用程式分析資料的 Web 應用程式
jupyterhub1.4.1適用於 Jupyter 筆記本的多使用者伺服器
livy-server0.7.1-incubatingREST 與 Apache Spark 互動的界面
nginx1.12.1nginx 【引擎 x】 是 HTTP和反向代理伺服器
mxnet1.8.0靈活有效率的程式庫,具可擴展性,適用於深度學習。
mariadb-server5.5.68+MariaDB 資料庫伺服器。
nvidia-cuda10.1.243Nvidia 驅動程式和 Cuda 工具組
oozie-client5.2.1Oozie 命令列用戶端。
oozie-server5.2.1接受 Oozie 工作流程要求的服務。
opencv4.5.0開放原始碼電腦 Vision 程式庫。
phoenix-library5.1.2適用於伺服器和用戶端的 phoenix 程式庫
phoenix-query-server5.1.2輕量型伺服器,提供對 Avatica 的JDBC存取以及通訊協定緩衝區和JSON格式存取 API
presto-coordinator0.254.1-amzn-0在 presto-workers 之間接受查詢和執行管理查詢的服務。
presto-worker0.254.1-amzn-0執行查詢各部分的服務。
presto-client0.254.1-amzn-0安裝於 HA 叢集的待命主節點的 Presto 命令列用戶端,該主節點上的 Presto 伺服器未啟動。
trino-coordinator359在 trino-workers 之間接受查詢和執行管理查詢的服務。
trino-worker359執行查詢各部分的服務。
trino-client359安裝於 HA 叢集的待命主節點的 Trino 命令列用戶端,該主節點上的 Trino 伺服器未啟動。
pig-client0.17.0Pig 命令列用戶端。
r4.0.2統計運算 R 專案
ranger-kms-server2.0.0Apache Ranger Key Management System
spark-client3.1.2-amzn-0Spark 命令列用戶端。
spark-history-server3.1.2-amzn-0用於檢視完整 Spark 應用程式生命週期記錄事件的 Web 使用者介面。
spark-on-yarn3.1.2-amzn-0的記憶體內執行引擎YARN。
spark-yarn-slave3.1.2-amzn-0從屬所需的 Apache Spark YARN 程式庫。
spark-rapids0.4.1使用 加速 Apache Spark 的 Nvidia Spark RAPIDS外掛程式GPUs。
sqoop-client1.4.7Apache Sqoop 命令列用戶端。
tensorflow2.4.1TensorFlow 適用於高效能數值運算的開放原始碼軟體程式庫。
tez-on-yarn0.9.2tez YARN 應用程式和程式庫。
webserver2.4.41+Apache HTTP 伺服器。
zeppelin-server0.9.0能進行互動式資料分析,以 Web 為基礎的筆記型電腦。
zookeeper-server3.5.7用於維護組態資訊、命名、提供分散式同步,並提供群組服務的集中化服務。
zookeeper-client3.5.7ZooKeeper 命令列用戶端。

6.4.0 組態類別

組態分類可讓您自訂應用程式。這些檔案通常對應於應用程式的組態XML檔案,例如 hive-site.xml。如需詳細資訊,請參閱設定應用程式

當您為執行中叢集的執行個體群組指定組態時,就會發生重新設定動作。Amazon EMR只會為您修改的分類啟動重新設定動作。如需詳細資訊,請參閱重新設定執行中叢集中的執行個體群組

emr-6.4.0 分類
分類 描述 重新設定動作

capacity-scheduler

變更 Hadoop 中 capacity-scheduler.xml 檔案的值。

Restarts the ResourceManager service.

container-executor

變更 Hadoop YARN的 container-executor.cfg 檔案中的值。

Not available.

container-log4j

變更 Hadoop YARN的 container-log4j.properties 檔案中的值。

Not available.

core-site

變更 Hadoop 中 core-site.xml 檔案的值。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Ranger KMS, HiveServer2, Hive MetaStore, Hadoop Httpfs, and MapReduce-HistoryServer.

docker-conf

變更 Docker 相關設定。

Not available.

emrfs-site

變更EMRFS設定。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts HBaseRegionserver, HBaseMaster, HBaseThrift, HBaseRest, HiveServer2, Hive MetaStore, Hadoop Httpfs, and MapReduce-HistoryServer.

flink-conf

變更 flink-conf.yaml 設定。

Restarts Flink history server.

flink-log4j

變更 Flink log4j.properties 設定。

Restarts Flink history server.

flink-log4j-session

變更 Kubernetes/Yarn 工作階段的 Flink log4j-session.properties 設定。

Restarts Flink history server.

flink-log4j-cli

變更 Flink log4j-cli.properties 設定。

Restarts Flink history server.

hadoop-env

在 Hadoop 環境中變更所有 Hadoop 元件的值。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts PhoenixQueryserver, HiveServer2, Hive MetaStore, and MapReduce-HistoryServer.

hadoop-log4j

變更 Hadoop 中 log4j.properties 檔案的值。

Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.

hadoop-ssl-server

變更 hadoop ssl 伺服器組態

Not available.

hadoop-ssl-client

變更 hadoop ssl 用戶端組態

Not available.

hbase

Apache 的 Amazon EMR精選設定HBase。

Custom EMR specific property. Sets emrfs-site and hbase-site configs. See those for their associated restarts.

hbase-env

變更 HBase環境中的值。

Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer.

hbase-log4j

變更 HBasehbase-log4j.properties 檔案中的值。

Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer.

hbase-metrics

變更 HBase的 hadoop-metrics2-hbase.properties 檔案中的值。

Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer.

hbase-policy

變更 hbase-policy.xml HBase檔案中的值。

Not available.

hbase-site

變更 HBasehbase-site.xml 檔案中的值。

Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer. Additionally restarts Phoenix QueryServer.

hdfs-encryption-zones

設定HDFS加密區域。

This classification should not be reconfigured.

hdfs-env

變更HDFS環境中的值。

Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC.

hdfs-site

變更 HDFShdfs-site.xml 中的值。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs.

hcatalog-env

變更 HCatalog環境中的值。

Restarts Hive HCatalog Server.

hcatalog-server-jndi

變更 HCatalogjndi.properties 中的值。

Restarts Hive HCatalog Server.

hcatalog-server-proto-hive-site

變更 HCatalog's.xml 中的值 proto-hive-site。

Restarts Hive HCatalog Server.

hcatalog-webhcat-env

變更 HCatalog W ebHCat環境中的值。

Restarts Hive WebHCat server.

hcatalog-webhcat-log4j2

在 HCatalog W ebHCat的 log4j2.properties 中變更值。

Restarts Hive WebHCat server.

hcatalog-webhcat-site

變更 HCatalog W ebHCatWebhcat-site.xml 檔案中的值。

Restarts Hive WebHCat server.

hive

Apache Hive 的 Amazon EMR精選設定。

Sets configurations to launch Hive LLAP service.

hive-beeline-log4j2

變更 Hive 的 beeline-log4j2.properties 檔案中的值。

Not available.

hive-parquet-logging

變更 Hive 的 parquet-logging.properties 檔案中的值。

Not available.

hive-env

變更 Hive 環境中的值。

Restarts HiveServer2, HiveMetastore, and Hive HCatalog-Server. Runs Hive schemaTool CLI commands to verify hive-metastore.

hive-exec-log4j2

變更 Hive 的 hive-exec-log4j2.properties 檔案中的值。

Not available.

hive-llap-daemon-log4j2

變更 Hive 的 llap-daemon-log4j2.properties 檔案中的值。

Not available.

hive-log4j2

變更 Hive 的 hive-log4j2.properties 檔案中的值。

Not available.

hive-site

變更 Hive 的 hive-site.xml 檔案中的值

Restarts HiveServer2, HiveMetastore, and Hive HCatalog-Server. Runs Hive schemaTool CLI commands to verify hive-metastore. Also restarts Oozie and Zeppelin.

hiveserver2-site

變更 Hive Server2 的 hiveserver2-site.xml 檔案中的值

Not available.

hue-ini

變更 Hue 的 ini 檔案中的值

Restarts Hue. Also activates Hue config override CLI commands to pick up new configurations.

httpfs-env

變更HTTPFS環境中的值。

Restarts Hadoop Httpfs service.

httpfs-site

變更 Hadoop 中 httpfs-site.xml 檔案的值。

Restarts Hadoop Httpfs service.

hadoop-kms-acls

變更 Hadoop 中 kms-acls.xml 檔案的值。

Not available.

hadoop-kms-env

在 Hadoop KMS環境中變更值。

Restarts Hadoop-KMS service.

hadoop-kms-log4j

變更 Hadoop 的 kms-log4j.properties 檔案中的值。

Not available.

hadoop-kms-site

變更 Hadoop 中 kms-site.xml 檔案的值。

Restarts Hadoop-KMS and Ranger-KMS service.

hudi-env

變更 Hudi 環境中的值。

Not available.

hudi-defaults

變更 Hudi 的 hudi-defaults.conf 檔案中的值。

Not available.

jupyter-notebook-conf

變更 Jupyter 筆記本中 jupyter_notebook_config.py 檔案的值。

Not available.

jupyter-hub-conf

變更 JupyterHubsjupyterhub_config.py 檔案中的值。

Not available.

jupyter-s3-conf

設定 Jupyter 筆記本 S3 持久性。

Not available.

jupyter-sparkmagic-conf

變更 Sparkmagic 中 config.json 檔案的值。

Not available.

livy-conf

變更 Livy 的 livy.conf 檔案中的值。

Restarts Livy Server.

livy-env

變更 Livy 環境中的值。

Restarts Livy Server.

livy-log4j

變更 Livy log4j.properties 設定。

Restarts Livy Server.

mapred-env

變更 MapReduce 應用程式環境中的值。

Restarts Hadoop MapReduce-HistoryServer.

mapred-site

變更 MapReduce 應用程式 mapred-site.xml 檔案中的值。

Restarts Hadoop MapReduce-HistoryServer.

oozie-env

變更 Oozie 環境中的值。

Restarts Oozie.

oozie-log4j

變更 Oozie 的 oozie-log4j.properties 檔案中的值。

Restarts Oozie.

oozie-site

變更 Oozie 的 oozie-site.xml 檔案中的值。

Restarts Oozie.

phoenix-hbase-metrics

變更 Phoenix 的 hadoop-metrics2-hbase.properties 檔案中的值。

Not available.

phoenix-hbase-site

變更 Phoenix 的 hbase-site.xml 檔案中的值。

Not available.

phoenix-log4j

變更 Phoenix 中 log4j.properties 檔案的值。

Restarts Phoenix-QueryServer.

phoenix-metrics

變更 Phoenix 的 hadoop-metrics2-phoenix.properties 檔案中的值。

Not available.

pig-env

在 Pig 環境中變更值。

Not available.

pig-properties

變更 Pig 的 pig.properties 檔案中的值。

Restarts Oozie.

pig-log4j

變更 Pig 的 log4j.properties 檔案中的值。

Not available.

presto-log

變更 Presto 的 log.properties 檔案中的值。

Restarts Presto-Server (for PrestoDB)

presto-config

變更 Presto 的 config.properties 檔案中的值。

Restarts Presto-Server (for PrestoDB)

presto-password-authenticator

變更 Presto 的 password-authenticator.properties 檔案中的值。

Not available.

presto-env

變更 Presto 的 presto-env.sh 檔案中的值。

Restarts Presto-Server (for PrestoDB)

presto-node

變更 Presto 的 node.properties 檔案中的值。

Not available.

presto-connector-blackhole

變更 Presto 的 blackhole.properties 檔案中的值。

Not available.

presto-connector-cassandra

變更 Presto 的 cassandra.properties 檔案中的值。

Not available.

presto-connector-hive

變更 Presto 的 hive.properties 檔案中的值。

Restarts Presto-Server (for PrestoDB)

presto-connector-jmx

變更 Presto 的 jmx.properties 檔案中的值。

Not available.

presto-connector-kafka

變更 Presto 的 kafka.properties 檔案中的值。

Not available.

presto-connector-localfile

變更 Presto 的 localfile.properties 檔案中的值。

Not available.

presto-connector-memory

變更 Presto 的 memory.properties 檔案中的值。

Not available.

presto-connector-mongodb

變更 Presto 的 mongodb.properties 檔案中的值。

Not available.

presto-connector-mysql

變更 Presto 的 mysql.properties 檔案中的值。

Not available.

presto-connector-postgresql

變更 Presto 的 postgresql.properties 檔案中的值。

Not available.

presto-connector-raptor

變更 Presto 的 raptor.properties 檔案中的值。

Not available.

presto-connector-redis

變更 Presto 的 redis.properties 檔案中的值。

Not available.

presto-connector-redshift

變更 Presto 的 redshift.properties 檔案中的值。

Not available.

presto-connector-tpch

變更 Presto 的 tpch.properties 檔案中的值。

Not available.

presto-connector-tpcds

變更 Presto 的 tpcds.properties 檔案中的值。

Not available.

trino-log

變更 Trino 的 log.properties 檔案中的值。

Restarts Trino-Server (for Trino)

trino-config

變更 Trino 的 config.properties 檔案中的值。

Restarts Trino-Server (for Trino)

trino-password-authenticator

變更 Trino 的 password-authenticator.properties 檔案中的值。

Restarts Trino-Server (for Trino)

trino-env

變更 Trino 的 trino-env.sh 檔案中的值。

Restarts Trino-Server (for Trino)

trino-node

變更 Trino 的 node.properties 檔案中的值。

Not available.

trino-connector-blackhole

變更 Trino 的 blackhole.properties 檔案中的值。

Not available.

trino-connector-cassandra

變更 Trino 的 cassandra.properties 檔案中的值。

Not available.

trino-connector-hive

變更 Trino 的 hive.properties 檔案中的值。

Restarts Trino-Server (for Trino)

trino-connector-jmx

變更 Trino 的 jmx.properties 檔案中的值。

Not available.

trino-connector-kafka

變更 Trino 的 kafka.properties 檔案中的值。

Not available.

trino-connector-localfile

變更 Trino 的 localfile.properties 檔案中的值。

Not available.

trino-connector-memory

變更 Trino 的 memory.properties 檔案中的值。

Not available.

trino-connector-mongodb

變更 Trino 的 mongodb.properties 檔案中的值。

Not available.

trino-connector-mysql

變更 Trino 的 mysql.properties 檔案中的值。

Not available.

trino-connector-postgresql

變更 Trino 的 postgresql.properties 檔案中的值。

Not available.

trino-connector-raptor

變更 Trino 的 raptor.properties 檔案中的值。

Not available.

trino-connector-redis

變更 Trino 的 redis.properties 檔案中的值。

Not available.

trino-connector-redshift

變更 Trino 的 redshift.properties 檔案中的值。

Not available.

trino-connector-tpch

變更 Trino 的 tpch.properties 檔案中的值。

Not available.

trino-connector-tpcds

變更 Trino 的 tpcds.properties 檔案中的值。

Not available.

ranger-kms-dbks-site

變更 Ranger 的 dbks-site.xml 檔案中的值KMS。

Restarts Ranger KMS Server.

ranger-kms-site

變更 Ranger 的 ranger-kms-site.xml 檔案中的值KMS。

Restarts Ranger KMS Server.

ranger-kms-env

在 Ranger KMS環境中變更值。

Restarts Ranger KMS Server.

ranger-kms-log4j

變更 Ranger 的 kms-log4j.properties 檔案中的值KMS。

Not available.

ranger-kms-db-ca

變更 S3 for MySQL SSL connection with Ranger 上的 CA 檔案值KMS。

Not available.

spark

Apache Spark 的 Amazon EMR精選設定。

This property modifies spark-defaults. See actions there.

spark-defaults

變更 Spark 的 spark-defaults.conf 檔案中的值。

Restarts Spark history server and Spark thrift server.

spark-env

變更 Spark 環境中的值。

Restarts Spark history server and Spark thrift server.

spark-hive-site

變更 Spark 的 hive-site.xml 檔案中的值

Not available.

spark-log4j

變更 Spark 中 log4j.properties 檔案的值。

Restarts Spark history server and Spark thrift server.

spark-metrics

變更 Spark 中 metrics.properties 檔案的值。

Restarts Spark history server and Spark thrift server.

sqoop-env

變更 Sqoop 環境中的值。

Not available.

sqoop-oraoop-site

變更 Sqoop OraOop的 oraoop-site.xml 檔案中的值。

Not available.

sqoop-site

變更 Sqoop 的 sqoop-site.xml 檔案中的值。

Not available.

tez-site

變更 Tez 的 tez-site.xml 檔案中的值。

Restart Oozie and HiveServer2.

yarn-env

變更YARN環境中的值。

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.

yarn-site

變更 YARN的 yarn-site.xml 檔案中的值。

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer.

zeppelin-env

變更 Zeppelin 環境中的值。

Restarts Zeppelin.

zeppelin-site

變更 zeppelin-site.xml 中的組態設定。

Restarts Zeppelin.

zookeeper-config

變更 ZooKeeperzoo.cfg 檔案中的值。

Restarts Zookeeper server.

zookeeper-log4j

變更 ZooKeeperlog4j.properties 檔案中的值。

Restarts Zookeeper server.