本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon EMR 6.4.0 版
6.4.0 應用程式版本
此版本包含下列應用程式:Flink
下表列出此 Amazon EMR 版本中提供的應用程式版本,以及前三個 Amazon EMR 版本 (如果適用) 中的應用程式版本。
如需完整了解各 Amazon EMR 版之應用程式版本的完整歷史記錄,請參閱以下主題:
emr-6.4.0 | emr-6.3.1 | emr-6.3.0 | emr-6.2.1 | |
---|---|---|---|---|
AWS 適用於 Java 的開發套件 | 1.12.31 | 1.11.977 | 1.11.977 | 1.11.880 |
Python | 2.7、3.7 | 2.7、3.7 | 2.7、3.7 | 2.7、3.7 |
Scala | 2.12.10 | 2.12.10 | 2.12.10 | 2.12.10 |
AmazonCloudWatchAgent | - | - | - | - |
Delta | - | - | - | - |
Flink | 1.13.1 | 1.12.1 | 1.12.1 | 1.11.2 |
Ganglia | 3.7.2 | 3.7.2 | 3.7.2 | 3.7.2 |
HBase | 2.4.4 | 2.2.6 | 2.2.6 | 2.2.6-amzn-0 |
HCatalog | 3.1.2 | 3.1.2 | 3.1.2 | 3.1.2 |
Hadoop | 3.2.1 | 3.2.1 | 3.2.1 | 3.2.1 |
Hive | 3.1.2 | 3.1.2 | 3.1.2 | 3.1.2 |
Hudi | 0.8.0-amzn-0 | 0.7.0-amzn-0 | 0.7.0-amzn-0 | 0.6.0-amzn-1 |
Hue | 4.9.0 | 4.9.0 | 4.9.0 | 4.8.0 |
Iceberg | - | - | - | - |
JupyterEnterpriseGateway | 2.1.0 | 2.1.0 | 2.1.0 | 2.1.0 |
JupyterHub | 1.4.1 | 1.2.2 | 1.2.2 | 1.1.0 |
Livy | 0.7.1 | 0.7.0 | 0.7.0 | 0.7.0 |
MXNet | 1.8.0 | 1.7.0 | 1.7.0 | 1.7.0 |
Mahout | - | - | - | - |
Oozie | 5.2.1 | 5.2.1 | 5.2.1 | 5.2.0 |
Phoenix | 5.1.2 | 5.0.0 | 5.0.0 | 5.0.0 |
Pig | 0.17.0 | 0.17.0 | 0.17.0 | 0.17.0 |
Presto | 0.254.1 | 0.245.1 | 0.245.1 | 0.238.3 |
Spark | 3.1.2 | 3.1.1 | 3.1.1 | 3.0.1 |
Sqoop | 1.4.7 | 1.4.7 | 1.4.7 | 1.4.7 |
TensorFlow | 2.4.1 | 2.4.1 | 2.4.1 | 2.3.1 |
Tez | 0.9.2 | 0.9.2 | 0.9.2 | 0.9.2 |
Trino (PrestoSQL) | 359 | 350 | 350 | 343 |
Zeppelin | 0.9.0 | 0.9.0 | 0.9.0 | 0.9.0 |
ZooKeeper | 3.5.7 | 3.4.14 | 3.4.14 | 3.4.14 |
6.4.0 版本備註
以下版本備註包含 Amazon EMR 6.4.0 版的資訊。變更是相對於 6.3.0 版而言。
初始版本日期:2021 年 9 月 20 日
更新版本日期:2022 年 3 月 21 日
支援的應用程式
-
AWS SDK for Java 1.12.31 版
-
CloudWatch Sink 版本 2.2.0
-
DynamoDB 連接器版本 4.16.0
-
EMRFS 版本 2.47.0
-
Amazon EMR Goodies 版本 3.2.0
-
Amazon EMR Kinesis 連接器版本 3.5.0
-
Amazon EMR 記錄伺服器版本 2.1.0
-
Amazon EMR 指令碼版本 2.5.0
-
Flink 版本 1.13.1
-
Ganglia 3.7.2 版
-
AWS Glue Hive 中繼存放區用戶端 3.3.0 版
-
Hadoop 版本 3.2.1-amzn-4
-
HBase 版本 2.4.4-amzn-0
-
HBase-operator-tools 1.1.0
-
HCatalog 版本 3.1.2-amzn-5
-
Hive 版本 3.1.2-amzn-5
-
Hudi 版本 0.8.0-amzn-0
-
Hue 版本 4.9.0
-
Java JDK 版本 Corretto-8.302.08.1 (組建 1.8.0_302-b08)
-
JupyterHub 版本 1.4.1
-
Livy 版本 0.7.1-incubating
-
MXNet 版本 1.8.0
-
Oozie 版本 5.2.1
-
Phoenix 版本 5.1.2
-
Pig 版本 0.17.0
-
Presto 版本 0.254.1-amzn-0
-
Trino 版本 359
-
Apache Ranger KMS (多主節點透明加密) 版本 2.0.0
-
ranger-plugins 2.0.1-amzn-0
-
ranger-s3-plugin 1.2.0
-
SageMaker Spark SDK 版本 1.4.1
-
Scala 版本 2.12.10 (OpenJDK 64-Bit Server VM、Java 1.8.0_282)
-
Spark 版本 3.1.2-amzn-0
-
spark-rapids 0.4.1
-
Sqoop 版本 1.4.7
-
TensorFlow 版本 2.4.1
-
tez 版本 0.9.2
-
Zeppelin 版本 0.9.0
-
Zookeeper 版本 3.5.7
-
連接器與驅動程式:DynamoDB 連接器 4.16.0
新功能
-
[受管擴展] Spark 隨機顯示資料受管擴展優化 - 對於 Amazon EMR 版本 5.34.0 及更高版本和 EMR 版本 6.4.0 及更高版本,受管擴展現在可感知 Spark 隨機顯示資料 (Spark 為執行特定操作而重新分配到多個分割區的資料)。如需有關隨機排序操作的詳細資訊,請參閱《Amazon EMR 管理指南》和《Spark 程式設計指南》https://spark.apache.org/docs/latest/rdd-programming-guide.html#shuffle-operations
中的在 Amazon EMR 中使用 EMR 受管擴展。 -
在啟用 Apache Ranger 的 Amazon EMR 叢集上,您可以使用
INSERT INTO
、INSERT OVERWRITE
和ALTER TABLE
,透過 Apache Spark SQL 將資料插入到 Apache Hive 中繼存放區資料表或更新這些資料表。將 ALTER TABLE 與 Spark SQL 搭配使用時,分割區位置必須是資料表位置的子目錄。Amazon EMR 目前不支援將資料插入到分割區位置與資料表位置不同的分割區。 -
PrestoSQL 已被重新命名為 Trino。
-
Hive:執行帶 LIMIT 子句的簡單 SELECT 查詢會加速,因為當擷取達到 LIMIT 子句中提及的記錄數量時,查詢會停止執行。簡單 SELECT 查詢是指沒有 GROUP BY / ORDER by 子句的查詢,或沒有縮減器階段的查詢。例如:
SELECT * from <TABLE> WHERE <Condition> LIMIT <Number>
。
Hudi 並行控制
-
Hudi 現在支援開放式並行控制 (OCC),它可與 UPSERT 和 INSERT 等操作一起使用,以允許多個寫入器對同一 Hudi 資料表執行變更。這是檔案層級的 OCC,因此只要變更不衝突,任何兩個遞交 (或寫入器) 都能寫入相同的資料表。如需詳細資料,請參閱 Hudi 並行控制
。 -
Amazon EMR 叢集安裝了 Zookeeper,可用作 OCC 的鎖機制提供者。為讓使用此功能變得更簡單,Amazon EMR 有以下預先設定的屬性:
hoodie.write.lock.provider=org.apache.hudi.client.transaction.lock.ZookeeperBasedLockProvider hoodie.write.lock.zookeeper.url=<
EMR Zookeeper URL
> hoodie.write.lock.zookeeper.port=<EMR Zookeeper Port
> hoodie.write.lock.zookeeper.base_path=/hudi若要啟用 OCC,您需要使用其 Hudi 作業選項或在叢集層級使用 Amazon EMR 組態 API 來設定下列屬性:
hoodie.write.concurrency.mode=optimistic_concurrency_control hoodie.cleaner.policy.failed.writes=LAZY (Performs cleaning of failed writes lazily instead of inline with every write) hoodie.write.lock.zookeeper.lock_key=
<Key to uniquely identify the Hudi table>
(Table Name is a good option)
Hudi 監控:Amazon CloudWatch 整合可報告 Hudi 指標
-
Amazon EMR 支援將 Hudi 指標發布到 Amazon CloudWatch。透過設定下列必要組態啟用此功能:
hoodie.metrics.on=true hoodie.metrics.reporter.type=CLOUDWATCH
以下是您可以變更的選用 Hudi 組態:
設定 描述 Value hoodie.metrics.cloudwatch.report.period.seconds
向 Amazon CloudWatch 報告指標的頻率 (以秒為單位)
預設值為 60 秒,它適用於 Amazon CloudWatch 提供的預設一分鐘解析度
hoodie.metrics.cloudwatch.metric.prefix
要新增至每個指標名稱的字首
預設值為空 (無字首)
hoodie.metrics.cloudwatch.namespace
Amazon CloudWatch 命名空間,在其下發布指標
預設值為 Hudi
hoodie.metrics.cloudwatch.maxDatumsPerRequest
向 Amazon CloudWatch 傳送的一個請求中包含基準的數量上限
預設值為 20,與 Amazon CloudWatch 的預設值相同
Amazon EMR Hudi 組態支援和改進
-
客戶現在可以利用 EMR 組態 API 和重新設定功能,在叢集層級設定 Hudi 組態。引入一種新的檔案型組態支援,其類似於 Spark、Hive 等其他應用程式,可透過 /etc/hudi/conf/hudi-defaults.conf 進行設定。EMR 設定一些預設值,以改善使用者體驗:
– 向叢集 Hive 伺服器 URL 設定
hoodie.datasource.hive_sync.jdbcurl
,且不再需要指定。這在 Spark 叢集模式下執行作業時特別有用,您過去必須指定 Amazon EMR 的主節點 IP。– HBase 特定組態,在搭配使用 HBase 索引和 Hudi 時非常有用。
– Zookeeper 鎖機制提供者特定組態,如在並行控制下討論的,可讓使用開放式並行控制 (OCC) 變得更簡單。
-
已引入其他變更,以減少您需要傳遞的組態數量,並在可能時自動推斷:
–
partitionBy
關鍵字可用於指定分割區資料欄。– 當啟用「Hive 同步」時,不再強制傳遞
HIVE_TABLE_OPT_KEY, HIVE_PARTITION_FIELDS_OPT_KEY, HIVE_PARTITION_EXTRACTOR_CLASS_OPT_KEY
。這些值可從 Hudi 資料表名稱和分割區欄位推斷得出。– 不用強制傳遞
KEYGENERATOR_CLASS_OPT_KEY
,可從更簡單的情況 (SimpleKeyGenerator
和ComplexKeyGenerator
) 推斷得出。
Hudi 警告
-
Hudi 不支援在 Hive 中針對「讀取時合併」(MoR) 和引導資料表的向量化執行。例如,當
hive.vectorized.execution.enabled
設為 true 時,使用 Hudi 即時資料表的count(*)
將會失敗。作為解決方法之一,您可以透過將hive.vectorized.execution.enabled
設為false
停用向量化讀取。 -
多寫入器支援與 Hudi 引導功能不相容。
-
Flink Streamer 和 Flink SQL 是此版本中的實驗性功能。不建議在生產部署中使用這些功能。
變更、強化功能和已解決的問題
此版本修正 Amazon EMR 擴展無法成功縱向擴展/縮減叢集規模或導致應用程式發生故障的問題。
以前,手動重新啟動多節點叢集上的資源管理器會導致 Amazon EMR 叢集上常駐程式 (如 Zookeeper) 重新載入 Zookeeper znode 檔案中過去被停用或遺失的所有節點。這會使得在特定情形中超過預設限制。Amazon EMR 現在會從 Zookeeper 檔案中移除早於一個小時前的已停用或遺失的節點記錄,並提高內部限制。
修正當 Amazon EMR 叢集上常駐程式執行運作狀態檢查活動 (例如收集 YARN 節點狀態和 HDFS 節點狀態) 時,對大型、高度使用的叢集發起的擴展請求失敗的問題。發生此問題的原因是,叢集上常駐程式無法將節點的運作狀態資料傳送至內部 Amazon EMR 元件。
改進 EMR 叢集上常駐程式,以便在擴展操作期間為提高可靠性而重複使用 IP 地址時,正確地追蹤節點狀態。
SPARK-29683
。修正因為 Spark 擔任的所有可用的節點被列入拒絕清單,而導致作業在叢集縮減規模期間失敗的問題。 YARN-9011
。修正當叢集嘗試縱向擴展或縮減規模時,作業因 YARN 除役中的競爭條件而失敗的問題。 透過確保 Amazon EMR 叢集上常駐程式和 YARN/HDFS 之間的節點狀態始終是一致的,修正叢集擴展期間的步驟或作業失敗問題。
針對使用 Kerberos 身分驗證啟用的 Amazon EMR 叢集,修正某些叢集操作 (例如縮減規模和步驟提交) 失敗的問題。這是因為 Amazon EMR 叢集上的常駐程式未更新 Kerberos 票證,而它對於與主節點上執行的 HDFS/YARN 通訊而言必不可少。
-
設定叢集以修正 Apache YARN 時間軸伺服器版本 1 和 1.5 的效能問題
Apache YARN 時間軸伺服器版本 1 和 1.5 可能導致極活躍的大型 EMR 叢集出現效能問題,尤其是作為 Amazon EMR 中預設設定的
yarn.resourcemanager.system-metrics-publisher.enabled=true
。開放原始碼 YARN 時間軸伺服器版本 2 可解決 YARN 時間軸伺服器可擴展性相關的效能問題。此問題的其他解決辦法包括:
設定 yarn-site.xml 中的 yarn.resourcemanager.system-metrics-publisher.enabled=false。
在建立叢集時啟用此問題的修正程式,如下所述。
下列 Amazon EMR 版本包含對此 YARN 時間軸伺服器效能問題的修正。
EMR 5.30.2、5.31.1、5.32.1、5.33.1、5.34.x、6.0.1、6.1.1、6.2.1、6.3.1、6.4.x
若要在上述任何 Amazon EMR 版本上啟用修正程式,請在使用
aws emr create-cluster
命令參數傳入的組態 JSON 檔案中將這些屬性設為true
:--configurations file://./configurations.json
。或使用重新設定主控台 UI啟用修正程式。configurations.json 檔案內容的範例:
[ { "Classification": "yarn-site", "Properties": { "yarn.resourcemanager.system-metrics-publisher.timeline-server-v1.enable-batch": "true", "yarn.resourcemanager.system-metrics-publisher.enabled": "true" }, "Configurations": [] } ]
WebHDFS 和 HttpFS 伺服器預設為停用。您可以使用 Hadoop 組態
dfs.webhdfs.enabled
重新啟用 WebHDFS。HttpFS 伺服器可透過使用sudo systemctl start hadoop-httpfs
啟動。-
Amazon Linux 儲存庫現預設啟用 HTTPS。若您使用 Amazon S3 VPCE 政策來限制對特定儲存貯體的存取,則必須新增 Amazon Linux 儲存貯體 ARN
arn:aws:s3:::amazonlinux-2-repos-$region/*
至您的政策 (使用端點所在區域取代$region
)。如需詳細資訊,請參閱 AWS 討論論壇中的此主題。公告:Amazon Linux 2 現支援在連線至套件儲存庫時使用 HTTPS。 -
Hive:透過在 HDFS 上為最後一個作業啟用暫存目錄改善寫入查詢的效能。最後一個作業的暫時資料被寫入 HDFS,而非 Amazon S3,且效能得以提升,因為資料從 HDFS 移至最後的資料表位置 (Amazon S3),而不是在 Amazon S3 裝置之間。
-
Hive:使用 Glue 中繼存放區分割區剔除,讓查詢編譯時間最多改進 2.5 倍。
-
在預設情況下,當 Hive 將內建的 UDF 傳遞至 Hive Metastore Server,僅這些內建 UDF 的子集會被傳遞到 Glue 中繼存放區,因為 Glue 只支援有限的表達式運算子。如果您設定
hive.glue.partition.pruning.client=true
,則所有分割區剔除將在用戶端發生。如果您設定hive.glue.partition.pruning.server=true
,則所有分割區剔除將在伺服器端發生。
已知問題
Hue 查詢在 Amazon EMR 6.4.0 中無法正常運作,因為 Apache Hadoop HttpFS 伺服器預設為停用。若要在 Amazon EMR 6.4.0 上使用 Hue,您可以使用
sudo systemctl start hadoop-httpfs
手動啟動 Amazon EMR 主節點上的 HttpFS 伺服器,或採取 Amazon EMR 步驟。與 Livy 使用者模擬搭配使用的 Amazon EMR Notebooks 無法正常運作,因為 HttpFS 預設為停用。在此情形中,EMR 筆記本無法連線到已啟用 Livy 模擬的叢集。解決辦法為,在將 EMR 筆記本連線到叢集前,使用
sudo systemctl start hadoop-httpfs
啟動 HttpFS 伺服器。在 Amazon EMR 版本 6.4.0 中,Phoenix 不支援 Phoenix 連接器元件。
若要搭配使用 Spark 動作和 Apache Oozie,您必須新增以下組態至您的 Oozie
workflow.xml
檔案。否則,對於 Oozie 啟動的 Spark 執行器,多個關鍵程式庫 (例如 Hadoop 和 EMRFS) 將從 classpath 中遺失。<spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
當您使用具有 Hive 分割區位置格式設定的 Spark 讀取 Amazon S3 中的資料,而您在 Amazon EMR 版本 5.30.0 至 5.36.0、6.2.0 至 6.9.0 上執行 Spark 時,您可能遇到叢集無法正確讀取資料的問題。如果您的分割區具有以下所有特性,便會發生此種情形:
-
兩個或更多分割區從同一資料表掃描而來。
-
至少有一個分割區目錄路徑是其他一或多個分割區目錄路徑的字首,例如,
s3://bucket/table/p=a
是s3://bucket/table/p=a b
的字首。 -
在另一個分割區目錄中,字首後的第一個字元有小於
/
字元 (U+002F) 的 UTF-8 值。例如,s3://bucket/table/p=a b
中 a 和 b 之間有空白字元 (U+0020) 即屬於此類別。請注意還有 14 個其他非控制字元:!"#$%&‘()*+,-
。如需詳細資訊,請參閱 UTF-8 編碼表和 Unicode 字元。
若要避免發生此問題,請在
spark-defaults
分類中將spark.sql.sources.fastS3PartitionDiscovery.enabled
組態設定為false
。-
6.4.0 元件版本
Amazon EMR 在此版本安裝的元件列出如下。其中有一些屬於大數據應用程式套件。其他的則為 Amazon EMR 獨有,並安裝為系統程序和功能。這些通常會以 emr
或 aws
開頭。在最新 Amazon EMR 版本中的大數據應用程式套件,通常也是社群中可找到的最新版本。我們致力盡快提供 Amazon EMR 的社群版本。
Amazon EMR 中的某些元件與社群版本不同。這些元件具有版本標籤,格式為
。CommunityVersion
-amzn-EmrVersion
從 0 開始。例如,假設有一個名為 EmrVersion
myapp-component
的開放原始碼社群元件 2.2 版為了包含在不同 Amazon EMR 發行版本中而修改過三次,則其發行版本會列為 2.2-amzn-2
。
元件 | 版本 | 描述 |
---|---|---|
aws-sagemaker-spark-sdk | 1.4.1 | Amazon SageMaker Spark SDK |
emr-ddb | 4.16.0 | 適用於 Hadoop 生態系統應用程式的 Amazon DynamoDB 連接器。 |
emr-goodies | 3.2.0 | 適用 Hadoop 生態系統的超便利程式庫。 |
emr-kinesis | 3.5.0 | 適用於 Hadoop 生態系統應用程式的 Amazon Kinesis 連接器。 |
emr-notebook-env | 1.3.0 | 適用於 emr 筆記本的 Conda env,前者包含 Jupyter Enterprise Gateway |
emr-s3-dist-cp | 2.18.0 | 針對 Amazon S3 最佳化的分散式複製應用程式。 |
emr-s3-select | 2.1.0 | EMR S3Select Connector |
emrfs | 2.47.0 | 適用於 Hadoop 生態系統應用程式的 Amazon S3 連接器。 |
flink-client | 1.13.1 | Apache Flink 命令列用戶端指令碼和應用程式。 |
flink-jobmanager-config | 1.13.1 | 管理 Apache Flink JobManager 的 EMR 節點上的資源。 |
ganglia-monitor | 3.7.2 | Hadoop 生態系統應用程式內嵌 Ganglia 代理程式以及 Ganglia 監控代理程式。 |
ganglia-metadata-collector | 3.7.2 | Ganglia 監控代理程式的彙總指標 Ganglia 中繼資料收集器。 |
ganglia-web | 3.7.1 | 由 Ganglia 中繼資料收集器收集,以檢視指標的 Web 應用程式。 |
hadoop-client | 3.2.1-amzn-4 | Hadoop 命令列用戶端,例如「hdfs」、「Hadoop」或「yarn」。 |
hadoop-hdfs-datanode | 3.2.1-amzn-4 | 用於存放區塊的 HDFS 節點層級服務。 |
hadoop-hdfs-library | 3.2.1-amzn-4 | HDFS 命令列用戶端和程式庫 |
hadoop-hdfs-namenode | 3.2.1-amzn-4 | 用於追蹤檔案名稱和區塊位置的 HDFS 服務。 |
hadoop-hdfs-journalnode | 3.2.1-amzn-4 | HDFS 檔案系統中的 Hadoop 服務,用於管理在 HA 叢集。 |
hadoop-httpfs-server | 3.2.1-amzn-4 | HDFS 操作的 HTTP 端點。 |
hadoop-kms-server | 3.2.1-amzn-4 | 以 Hadoop 金鑰供應商 API 為基礎的加密金鑰管理伺服器。 |
hadoop-mapred | 3.2.1-amzn-4 | 執行 MapReduce 應用程式的 MapReduce 執行引擎程式庫。 |
hadoop-yarn-nodemanager | 3.2.1-amzn-4 | 在個別節點用於管理容器的 YARN 服務。 |
hadoop-yarn-resourcemanager | 3.2.1-amzn-4 | 用於分配和管理叢集資源,以及分散式應用程式的 YARN 服務。 |
hadoop-yarn-timeline-server | 3.2.1-amzn-4 | 為 YARN 應用程式擷取目前和歷史資訊的服務。 |
hbase-hmaster | 2.4.4-amzn-0 | 負責區域協調和執行管理命令的 HBase 叢集服務。 |
hbase-region-server | 2.4.4-amzn-0 | 提供一或多個 HBase 區域的服務。 |
hbase-client | 2.4.4-amzn-0 | HBase 命令列用戶端。 |
hbase-rest-server | 2.4.4-amzn-0 | 為 HBase 提供 RESTful HTTP 端點的服務。 |
hbase-thrift-server | 2.4.4-amzn-0 | 提供 Thrift 端點到 HBase 的服務。 |
hcatalog-client | 3.1.2-amzn-5 | 操作 hcatalog-server 的「hcat」命令列用戶端。 |
hcatalog-server | 3.1.2-amzn-5 | 服務為分散式應用程式提供 HCatalog、表格和儲存管理層。 |
hcatalog-webhcat-server | 3.1.2-amzn-5 | HTTP 端點提供了 REST 介面至 HCatalog。 |
hive-client | 3.1.2-amzn-5 | Hive 命令列用戶端。 |
hive-hbase | 3.1.2-amzn-5 | Hive-hbase 用戶端。 |
hive-metastore-server | 3.1.2-amzn-5 | 為 Hadoop 操作的 SQL 提供存取 Hive 中繼儲存、存放中繼資料語意儲存庫的服務。 |
hive-server2 | 3.1.2-amzn-5 | 依 Web 請求接受 Hive 查詢的服務。 |
hudi | 0.8.0-amzn-0 | 增量處理架構,以低延遲和高效率強化資料管道。 |
hudi-presto | 0.8.0-amzn-0 | 用於使用 Hudi 執行 Presto 的套件程式庫。 |
hudi-trino | 0.8.0-amzn-0 | 用於使用 Hudi 執行 Trino 的套件程式庫。 |
hudi-spark | 0.8.0-amzn-0 | 用於使用 Hudi 執行 Spark 的套件程式庫。 |
hue-server | 4.9.0 | 使用 Hadoop 生態系統應用程式分析資料的 Web 應用程式 |
jupyterhub | 1.4.1 | 適用於 Jupyter 筆記本的多使用者伺服器 |
livy-server | 0.7.1-incubating | 與 Apache Spark 互動的 REST 介面 |
nginx | 1.12.1 | nginx [engine x] 是 HTTP 和反向代理伺服器 |
mxnet | 1.8.0 | 靈活有效率的程式庫,具可擴展性,適用於深度學習。 |
mariadb-server | 5.5.68+ | MariaDB 資料庫伺服器。 |
nvidia-cuda | 10.1.243 | Nvidia 驅動程式和 Cuda 工具組 |
oozie-client | 5.2.1 | Oozie 命令列用戶端。 |
oozie-server | 5.2.1 | 接受 Oozie 工作流程要求的服務。 |
opencv | 4.5.0 | 開放原始碼電腦 Vision 程式庫。 |
phoenix-library | 5.1.2 | 適用於伺服器和用戶端的 phoenix 程式庫 |
phoenix-query-server | 5.1.2 | 此為一輕量伺服器,可提供對 Avatica API 的 JDBC 存取以及通訊協定緩衝區和 JSON 格式存取 |
presto-coordinator | 0.254.1-amzn-0 | 在 presto-workers 之間接受查詢和執行管理查詢的服務。 |
presto-worker | 0.254.1-amzn-0 | 執行查詢各部分的服務。 |
presto-client | 0.254.1-amzn-0 | 安裝於 HA 叢集的待命主節點的 Presto 命令列用戶端,該主節點上的 Presto 伺服器未啟動。 |
trino-coordinator | 359 | 在 trino-workers 之間接受查詢和執行管理查詢的服務。 |
trino-worker | 359 | 執行查詢各部分的服務。 |
trino-client | 359 | 安裝於 HA 叢集的待命主節點的 Trino 命令列用戶端,該主節點上的 Trino 伺服器未啟動。 |
pig-client | 0.17.0 | Pig 命令列用戶端。 |
r | 4.0.2 | 統計運算 R 專案 |
ranger-kms-server | 2.0.0 | Apache Ranger Key Management System |
spark-client | 3.1.2-amzn-0 | Spark 命令列用戶端。 |
spark-history-server | 3.1.2-amzn-0 | 用於檢視完整 Spark 應用程式生命週期記錄事件的 Web 使用者介面。 |
spark-on-yarn | 3.1.2-amzn-0 | 適用於 YARN 的記憶體內執行引擎。 |
spark-yarn-slave | 3.1.2-amzn-0 | YARN 從屬所需的 Apache Spark 程式庫。 |
spark-rapids | 0.4.1 | Nvidia Spark RAPIDS 外掛程式利用 GPU 加快 Apache Spark。 |
sqoop-client | 1.4.7 | Apache Sqoop 命令列用戶端。 |
tensorflow | 2.4.1 | 適用於高效能數值運算的 TensorFlow 開放原始碼軟體程式庫。 |
tez-on-yarn | 0.9.2 | tez YARN 應用程式和程式庫。 |
webserver | 2.4.41+ | Apache HTTP 伺服器。 |
zeppelin-server | 0.9.0 | 能進行互動式資料分析,以 Web 為基礎的筆記型電腦。 |
zookeeper-server | 3.5.7 | 用於維護組態資訊、命名、提供分散式同步,並提供群組服務的集中化服務。 |
zookeeper-client | 3.5.7 | ZooKeeper 命令列用戶端。 |
6.4.0 組態類別
組態分類可讓您自訂應用程式。這些檔案通常對應於應用程式的組態 XML 檔案,例如 hive-site.xml
。如需詳細資訊,請參閱設定應用程式。
當您為執行中叢集的執行個體群組指定組態時,就會發生重新設定動作。Amazon EMR 只會為您修改的分類啟動重新設定動作。如需詳細資訊,請參閱重新設定執行中叢集中的執行個體群組。
分類 | 描述 | 重新設定動作 |
---|---|---|
capacity-scheduler | 變更 Hadoop 中 capacity-scheduler.xml 檔案的值。 | Restarts the ResourceManager service. |
container-executor | 在 Hadoop YARN 的 container-executor.cfg 檔案中變更值。 | Not available. |
container-log4j | 變更 Hadoop YARN 的 container-log4j.properties 檔案中的值。 | Not available. |
core-site | 變更 Hadoop 中 core-site.xml 檔案的值。 | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Ranger KMS, HiveServer2, Hive MetaStore, Hadoop Httpfs, and MapReduce-HistoryServer. |
docker-conf | 變更 Docker 相關設定。 | Not available. |
emrfs-site | 變更 EMRFS 設定。 | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts HBaseRegionserver, HBaseMaster, HBaseThrift, HBaseRest, HiveServer2, Hive MetaStore, Hadoop Httpfs, and MapReduce-HistoryServer. |
flink-conf | 變更 flink-conf.yaml 設定。 | Restarts Flink history server. |
flink-log4j | 變更 Flink log4j.properties 設定。 | Restarts Flink history server. |
flink-log4j-session | 變更 Kubernetes/Yarn 工作階段的 Flink log4j-session.properties 設定。 | Restarts Flink history server. |
flink-log4j-cli | 變更 Flink log4j-cli.properties 設定。 | Restarts Flink history server. |
hadoop-env | 在 Hadoop 環境中變更所有 Hadoop 元件的值。 | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts PhoenixQueryserver, HiveServer2, Hive MetaStore, and MapReduce-HistoryServer. |
hadoop-log4j | 變更 Hadoop 中 log4j.properties 檔案的值。 | Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer. |
hadoop-ssl-server | 變更 hadoop ssl 伺服器組態 | Not available. |
hadoop-ssl-client | 變更 hadoop ssl 用戶端組態 | Not available. |
hbase | Apache HBase 的 Amazon EMR 彙整設定。 | Custom EMR specific property. Sets emrfs-site and hbase-site configs. See those for their associated restarts. |
hbase-env | 變更 HBase 環境中的值。 | Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer. |
hbase-log4j | 變更 HBase 的 hbase-log4j.properties 檔案中的值。 | Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer. |
hbase-metrics | 變更 HBase 的 hadoop-metrics2-hbase.properties 檔案中的值。 | Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer. |
hbase-policy | 變更 HBase 的 hbase-policy.xml 檔案中的值。 | Not available. |
hbase-site | 變更 HBase 的 hbase-site.xml 檔案中的值。 | Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer. Additionally restarts Phoenix QueryServer. |
hdfs-encryption-zones | 設定 HDFS 加密區域。 | This classification should not be reconfigured. |
hdfs-env | 變更 HDFS 環境中的值。 | Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC. |
hdfs-site | 變更 HDFS 的 hdfs-site.xml 中的值。 | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs. |
hcatalog-env | 變更 HCatalog 環境中的值。 | Restarts Hive HCatalog Server. |
hcatalog-server-jndi | 變更 HCatalog 的 jndi.properties 中的值。 | Restarts Hive HCatalog Server. |
hcatalog-server-proto-hive-site | 變更 HCatalog 的 proto-hive-site.xml 中的值。 | Restarts Hive HCatalog Server. |
hcatalog-webhcat-env | 變更 HCatalog WebHCat 環境中的值。 | Restarts Hive WebHCat server. |
hcatalog-webhcat-log4j2 | 變更 HCatalog WebHCat 的 log4j2.properties 中的值。 | Restarts Hive WebHCat server. |
hcatalog-webhcat-site | 變更 HCatalog WebHCat 的 webhcat-site.xml 檔案中的值。 | Restarts Hive WebHCat server. |
hive | Apache Hive 的 Amazon EMR 彙整設定。 | Sets configurations to launch Hive LLAP service. |
hive-beeline-log4j2 | 變更 Hive 的 beeline-log4j2.properties 檔案中的值。 | Not available. |
hive-parquet-logging | 變更 Hive 的 parquet-logging.properties 檔案中的值。 | Not available. |
hive-env | 變更 Hive 環境中的值。 | Restarts HiveServer2, HiveMetastore, and Hive HCatalog-Server. Runs Hive schemaTool CLI commands to verify hive-metastore. |
hive-exec-log4j2 | 變更 Hive 的 hive-exec-log4j2.properties 檔案中的值。 | Not available. |
hive-llap-daemon-log4j2 | 變更 Hive 的 llap-daemon-log4j2.properties 檔案中的值。 | Not available. |
hive-log4j2 | 變更 Hive 的 hive-log4j2.properties 檔案中的值。 | Not available. |
hive-site | 變更 Hive 的 hive-site.xml 檔案中的值 | Restarts HiveServer2, HiveMetastore, and Hive HCatalog-Server. Runs Hive schemaTool CLI commands to verify hive-metastore. Also restarts Oozie and Zeppelin. |
hiveserver2-site | 變更 Hive Server2 的 hiveserver2-site.xml 檔案中的值 | Not available. |
hue-ini | 變更 Hue 的 ini 檔案中的值 | Restarts Hue. Also activates Hue config override CLI commands to pick up new configurations. |
httpfs-env | 變更 HTTPFS 環境中的值。 | Restarts Hadoop Httpfs service. |
httpfs-site | 變更 Hadoop 中 httpfs-site.xml 檔案的值。 | Restarts Hadoop Httpfs service. |
hadoop-kms-acls | 變更 Hadoop 中 kms-acls.xml 檔案的值。 | Not available. |
hadoop-kms-env | 變更 Hadoop KMS 環境中的值。 | Restarts Hadoop-KMS service. |
hadoop-kms-log4j | 變更 Hadoop 的 kms-log4j.properties 檔案中的值。 | Not available. |
hadoop-kms-site | 變更 Hadoop 中 kms-site.xml 檔案的值。 | Restarts Hadoop-KMS and Ranger-KMS service. |
hudi-env | 變更 Hudi 環境中的值。 | Not available. |
hudi-defaults | 變更 Hudi 的 hudi-defaults.conf 檔案中的值。 | Not available. |
jupyter-notebook-conf | 變更 Jupyter 筆記本中 jupyter_notebook_config.py 檔案的值。 | Not available. |
jupyter-hub-conf | 變更 JupyterHubs 中 jupyterhub_config.py 檔案的值。 | Not available. |
jupyter-s3-conf | 設定 Jupyter 筆記本 S3 持久性。 | Not available. |
jupyter-sparkmagic-conf | 變更 Sparkmagic 中 config.json 檔案的值。 | Not available. |
livy-conf | 變更 Livy 的 livy.conf 檔案中的值。 | Restarts Livy Server. |
livy-env | 變更 Livy 環境中的值。 | Restarts Livy Server. |
livy-log4j | 變更 Livy log4j.properties 設定。 | Restarts Livy Server. |
mapred-env | 變更 MapReduce 應用程式環境中的值。 | Restarts Hadoop MapReduce-HistoryServer. |
mapred-site | 變更 MapReduce 應用程式 mapred-site.xml 檔案中的值。 | Restarts Hadoop MapReduce-HistoryServer. |
oozie-env | 變更 Oozie 環境中的值。 | Restarts Oozie. |
oozie-log4j | 變更 Oozie 的 oozie-log4j.properties 檔案中的值。 | Restarts Oozie. |
oozie-site | 變更 Oozie 的 oozie-site.xml 檔案中的值。 | Restarts Oozie. |
phoenix-hbase-metrics | 變更 Phoenix 的 hadoop-metrics2-hbase.properties 檔案中的值。 | Not available. |
phoenix-hbase-site | 變更 Phoenix 的 hbase-site.xml 檔案中的值。 | Not available. |
phoenix-log4j | 變更 Phoenix 中 log4j.properties 檔案的值。 | Restarts Phoenix-QueryServer. |
phoenix-metrics | 變更 Phoenix 的 hadoop-metrics2-phoenix.properties 檔案中的值。 | Not available. |
pig-env | 在 Pig 環境中變更值。 | Not available. |
pig-properties | 變更 Pig 的 pig.properties 檔案中的值。 | Restarts Oozie. |
pig-log4j | 變更 Pig 的 log4j.properties 檔案中的值。 | Not available. |
presto-log | 變更 Presto 的 log.properties 檔案中的值。 | Restarts Presto-Server (for PrestoDB) |
presto-config | 變更 Presto 的 config.properties 檔案中的值。 | Restarts Presto-Server (for PrestoDB) |
presto-password-authenticator | 變更 Presto 的 password-authenticator.properties 檔案中的值。 | Not available. |
presto-env | 變更 Presto 的 presto-env.sh 檔案中的值。 | Restarts Presto-Server (for PrestoDB) |
presto-node | 變更 Presto 的 node.properties 檔案中的值。 | Not available. |
presto-connector-blackhole | 變更 Presto 的 blackhole.properties 檔案中的值。 | Not available. |
presto-connector-cassandra | 變更 Presto 的 cassandra.properties 檔案中的值。 | Not available. |
presto-connector-hive | 變更 Presto 的 hive.properties 檔案中的值。 | Restarts Presto-Server (for PrestoDB) |
presto-connector-jmx | 變更 Presto 的 jmx.properties 檔案中的值。 | Not available. |
presto-connector-kafka | 變更 Presto 的 kafka.properties 檔案中的值。 | Not available. |
presto-connector-localfile | 變更 Presto 的 localfile.properties 檔案中的值。 | Not available. |
presto-connector-memory | 變更 Presto 的 memory.properties 檔案中的值。 | Not available. |
presto-connector-mongodb | 變更 Presto 的 mongodb.properties 檔案中的值。 | Not available. |
presto-connector-mysql | 變更 Presto 的 mysql.properties 檔案中的值。 | Not available. |
presto-connector-postgresql | 變更 Presto 的 postgresql.properties 檔案中的值。 | Not available. |
presto-connector-raptor | 變更 Presto 的 raptor.properties 檔案中的值。 | Not available. |
presto-connector-redis | 變更 Presto 的 redis.properties 檔案中的值。 | Not available. |
presto-connector-redshift | 變更 Presto 的 redshift.properties 檔案中的值。 | Not available. |
presto-connector-tpch | 變更 Presto 的 tpch.properties 檔案中的值。 | Not available. |
presto-connector-tpcds | 變更 Presto 的 tpcds.properties 檔案中的值。 | Not available. |
trino-log | 變更 Trino 的 log.properties 檔案中的值。 | Restarts Trino-Server (for Trino) |
trino-config | 變更 Trino 的 config.properties 檔案中的值。 | Restarts Trino-Server (for Trino) |
trino-password-authenticator | 變更 Trino 的 password-authenticator.properties 檔案中的值。 | Restarts Trino-Server (for Trino) |
trino-env | 變更 Trino 的 trino-env.sh 檔案中的值。 | Restarts Trino-Server (for Trino) |
trino-node | 變更 Trino 的 node.properties 檔案中的值。 | Not available. |
trino-connector-blackhole | 變更 Trino 的 blackhole.properties 檔案中的值。 | Not available. |
trino-connector-cassandra | 變更 Trino 的 cassandra.properties 檔案中的值。 | Not available. |
trino-connector-hive | 變更 Trino 的 hive.properties 檔案中的值。 | Restarts Trino-Server (for Trino) |
trino-connector-jmx | 變更 Trino 的 jmx.properties 檔案中的值。 | Not available. |
trino-connector-kafka | 變更 Trino 的 kafka.properties 檔案中的值。 | Not available. |
trino-connector-localfile | 變更 Trino 的 localfile.properties 檔案中的值。 | Not available. |
trino-connector-memory | 變更 Trino 的 memory.properties 檔案中的值。 | Not available. |
trino-connector-mongodb | 變更 Trino 的 mongodb.properties 檔案中的值。 | Not available. |
trino-connector-mysql | 變更 Trino 的 mysql.properties 檔案中的值。 | Not available. |
trino-connector-postgresql | 變更 Trino 的 postgresql.properties 檔案中的值。 | Not available. |
trino-connector-raptor | 變更 Trino 的 raptor.properties 檔案中的值。 | Not available. |
trino-connector-redis | 變更 Trino 的 redis.properties 檔案中的值。 | Not available. |
trino-connector-redshift | 變更 Trino 的 redshift.properties 檔案中的值。 | Not available. |
trino-connector-tpch | 變更 Trino 的 tpch.properties 檔案中的值。 | Not available. |
trino-connector-tpcds | 變更 Trino 的 tpcds.properties 檔案中的值。 | Not available. |
ranger-kms-dbks-site | 變更 Ranger KMS 之 dbks-site.xml 檔案中的值。 | Restarts Ranger KMS Server. |
ranger-kms-site | 變更 Ranger KMS 之 ranger-kms-site.xml 檔案中的值。 | Restarts Ranger KMS Server. |
ranger-kms-env | 變更 Ranger KMS 環境中的值。 | Restarts Ranger KMS Server. |
ranger-kms-log4j | 變更 Ranger KMS 之 kms-log4j.properties 檔案中的值。 | Not available. |
ranger-kms-db-ca | 變更 S3 上 CA 檔案的值,以使用 Ranger KMS 進行 MySQL SSL 連線。 | Not available. |
spark | Apache Spark 的 Amazon EMR 彙整設定。 | This property modifies spark-defaults. See actions there. |
spark-defaults | 變更 Spark 的 spark-defaults.conf 檔案中的值。 | Restarts Spark history server and Spark thrift server. |
spark-env | 變更 Spark 環境中的值。 | Restarts Spark history server and Spark thrift server. |
spark-hive-site | 變更 Spark 的 hive-site.xml 檔案中的值 | Not available. |
spark-log4j | 變更 Spark 中 log4j.properties 檔案的值。 | Restarts Spark history server and Spark thrift server. |
spark-metrics | 變更 Spark 中 metrics.properties 檔案的值。 | Restarts Spark history server and Spark thrift server. |
sqoop-env | 變更 Sqoop 環境中的值。 | Not available. |
sqoop-oraoop-site | 變更 Sqoop OraOop 的 oraoop-site.xml 檔案中的值。 | Not available. |
sqoop-site | 變更 Sqoop 的 sqoop-site.xml 檔案中的值。 | Not available. |
tez-site | 變更 Tez 的 tez-site.xml 檔案中的值。 | Restart Oozie and HiveServer2. |
yarn-env | 變更 YARN 環境中的值。 | Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer. |
yarn-site | 變更 YARN 的 yarn-site.xml 檔案中的值。 | Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer. |
zeppelin-env | 變更 Zeppelin 環境中的值。 | Restarts Zeppelin. |
zeppelin-site | 變更 zeppelin-site.xml 中的組態設定。 | Restarts Zeppelin. |
zookeeper-config | 變更 ZooKeeper 的 zoo.cfg 檔案中的值。 | Restarts Zookeeper server. |
zookeeper-log4j | 變更 ZooKeeper 中 log4j.properties 檔案的值。 | Restarts Zookeeper server. |