Amazon 5.11.0 EMR版 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon 5.11.0 EMR版

5.11.0 應用程式版本

此版本支援下列應用程式: Flink, Ganglia, HBase, HCatalog, Hadoop, Hive, Hue, Livy, MXNet, Mahout, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, Tez, Zeppelin、 和 ZooKeeper.

下表列出此版本 Amazon 中可用的應用程式版本,EMR以及前三個 Amazon EMR版本 (如適用) 中的應用程式版本。

如需每個版本 Amazon 的應用程式版本完整歷史記錄EMR,請參閱下列主題:

應用程式版本資訊
emr-5.11.0 emr-5.10.1 emr-5.10.0 emr-5.9.1
AWS SDK 適用於 Java 1.11.2381.11.2211.11.2211.11.183
Python 2.7、3.42.7、3.42.7、3.4未追蹤
Scala 2.11.82.11.82.11.82.11.8
AmazonCloudWatchAgent - - - -
Delta - - - -
Flink1.3.21.3.21.3.21.3.2
Ganglia3.7.23.7.23.7.23.7.2
HBase1.3.11.3.11.3.11.3.1
HCatalog2.3.22.3.12.3.12.3.0
Hadoop2.7.32.7.32.7.32.7.3
Hive2.3.22.3.12.3.12.3.0
Hudi - - - -
Hue4.0.14.0.14.0.14.0.1
Iceberg - - - -
JupyterEnterpriseGateway - - - -
JupyterHub - - - -
Livy0.4.00.4.00.4.00.4.0
MXNet0.12.00.12.00.12.0 -
Mahout0.13.00.13.00.13.00.13.0
Oozie4.3.04.3.04.3.04.3.0
Phoenix4.11.04.11.04.11.04.11.0
Pig0.17.00.17.00.17.00.17.0
Presto0.1870.1870.1870.184
Spark2.2.12.2.02.2.02.2.0
Sqoop1.4.61.4.61.4.61.4.6
TensorFlow - - - -
Tez0.8.40.8.40.8.40.8.4
Trino (Presto SQL) - - - -
Zeppelin0.7.30.7.30.7.30.7.2
ZooKeeper3.4.103.4.103.4.103.4.10

5.11.0 版本備註

下列版本備註包含 Amazon 5.11.0 EMR版的資訊。變更是相對於 5.10.0 版而言。

升級
  • Hive 2.3.2

  • Spark 2.2.1

  • SDK 適用於 Java 1.11.238

新功能
  • Spark

    • 新增 spark.decommissioning.timeout.threshold 設定,改善使用 Spot 執行個體時 Spark 的汰除行為。如需詳細資訊,請參閱設定節點除役行為

    • 已將 aws-sagemaker-spark-sdk 元件新增至 Spark,這會安裝 Amazon SageMaker Spark 和與 Amazon SageMaker整合的 Spark 相關相依性。您可以使用 Amazon SageMaker Spark 建構使用 Amazon SageMaker 階段的 Spark 機器學習 (ML) 管道。如需詳細資訊,請參閱 Amazon SageMaker 開發人員指南 中的 SageMaker Spark 讀我檔案 GitHub 和將 Apache Spark 與 Amazon 搭配使用 SageMaker

已知問題
  • MXNet 不包含 OpenCV 程式庫。

  • Hive 2.3.2 會預設設定為 hive.compute.query.using.stats=true。這會使查詢從現有統計資料而非直接從資料獲得資料,可能會造成混淆。例如,假設您有一個 hive.compute.query.using.stats=true 的資料表,並將新檔案上傳至資料表 LOCATION,則在資料表執行 SELECT COUNT(*) 查詢時會傳回統計資料的計數,而非顯示出新增的資料列。

    解決方法是使用 ANALYZE TABLE 命令來收集新的統計資料,或者設定 hive.compute.query.using.stats=false。如需詳細資訊,請參閱 Apache Hive 文件中 Hive 的統計資料

5.11.0 元件版本

Amazon 在此版本中EMR安裝的元件如下所列。其中有一些屬於大數據應用程式套件。其他則對 Amazon 而言是獨一無二的EMR,並針對系統程序和功能進行安裝。這些通常會以 emraws 開頭。Amazon EMR最新版本中的大數據應用程式套件通常是社群中發現的最新版本。我們EMR盡快在 Amazon 中提供社群版本。

Amazon 中的某些元件與社群版本EMR不同。這些元件具有版本標籤,格式為 CommunityVersion-amzn-EmrVersionEmrVersion 從 0 開始。例如,如果使用 2.2 版命名myapp-component的開放原始碼社群元件已修改三次,以包含在不同的 Amazon EMR版本中,則其發行版本會列為 2.2-amzn-2

元件 版本 描述
aws-sagemaker-spark-sdk1.0Amazon SageMaker Spark SDK
emr-ddb4.5.0適用於 Hadoop 生態系統應用程式的 Amazon DynamoDB 連接器。
emr-goodies2.4.0適用 Hadoop 生態系統的超便利程式庫。
emr-kinesis3.4.0適用於 Hadoop 生態系統應用程式的 Amazon Kinesis 連接器。
emr-s3-dist-cp2.8.0針對 Amazon S3 最佳化的分散式複製應用程式。
emrfs2.20.0適用於 Hadoop 生態系統應用程式的 Amazon S3 連接器。
flink-client1.3.2Apache Flink 命令列用戶端指令碼和應用程式。
ganglia-monitor3.7.2Hadoop 生態系統應用程式內嵌 Ganglia 代理程式以及 Ganglia 監控代理程式。
ganglia-metadata-collector3.7.2Ganglia 監控代理程式的彙總指標 Ganglia 中繼資料收集器。
ganglia-web3.7.1由 Ganglia 中繼資料收集器收集,以檢視指標的 Web 應用程式。
hadoop-client2.7.3-amzn-6Hadoop 命令列用戶端,例如「hdfs」、「Hadoop」或「yarn」。
hadoop-hdfs-datanode2.7.3-amzn-6HDFS 儲存區塊的節點層級服務。
hadoop-hdfs-library2.7.3-amzn-6HDFS command-line 用戶端和程式庫
hadoop-hdfs-namenode2.7.3-amzn-6HDFS 服務,用於追蹤檔案名稱和區塊位置。
hadoop-httpfs-server2.7.3-amzn-6HTTP HDFS操作的端點。
hadoop-kms-server2.7.3-amzn-6以 Hadoop 的 為基礎的密碼編譯金鑰管理伺服器 KeyProvider API。
hadoop-mapred2.7.3-amzn-6MapReduce 執行引擎程式庫,用於執行 MapReduce 應用程式。
hadoop-yarn-nodemanager2.7.3-amzn-6YARN 服務,用於管理個別節點上的容器。
hadoop-yarn-resourcemanager2.7.3-amzn-6YARN 服務,用於配置和管理叢集資源和分散式應用程式。
hadoop-yarn-timeline-server2.7.3-amzn-6用於擷取YARN應用程式目前和歷史資訊的 服務。
hbase-hmaster1.3.1負責協調區域和執行管理命令的HBase叢集的服務。
hbase-region-server1.3.1服務一或多個HBase區域的服務。
hbase-client1.3.1HBase command-line 用戶端。
hbase-rest-server1.3.1為 提供RESTfulHTTP端點的服務HBase。
hbase-thrift-server1.3.1向 提供 Thrift 端點的服務HBase。
hcatalog-client2.3.2-amzn-0操作 hcatalog-server 的「hcat」命令列用戶端。
hcatalog-server2.3.2-amzn-0為分散式應用程式提供 HCatalog、資料表和儲存管理層的服務。
hcatalog-webhcat-server2.3.2-amzn-0HTTP 端點提供REST介面給 HCatalog。
hive-client2.3.2-amzn-0Hive 命令列用戶端。
hive-hbase2.3.2-amzn-0Hive-hbase 用戶端。
hive-metastore-server2.3.2-amzn-0存取 Hive 中繼存放區的服務,這是在 Hadoop 操作SQL上儲存 中繼資料的語意儲存庫。
hive-server22.3.2-amzn-0依 Web 請求接受 Hive 查詢的服務。
hue-server4.0.1使用 Hadoop 生態系統應用程式分析資料的 Web 應用程式
livy-server0.4.0-incubatingREST 與 Apache Spark 互動的介面
mahout-client0.13.0機器學習程式庫。
mxnet0.12.0靈活有效率的程式庫,具可擴展性,適用於深度學習。
mysql-server5.5.54+我的SQL資料庫伺服器。
nvidia-cuda9.0.176Nvidia 驅動程式和 Cuda 工具組
oozie-client4.3.0Oozie 命令列用戶端。
oozie-server4.3.0接受 Oozie 工作流程要求的服務。
phoenix-library4.11.0-HBase-1.3適用於伺服器和用戶端的 phoenix 程式庫
phoenix-query-server4.11.0-HBase-1.3提供 Avatica JDBC存取權以及通訊協定緩衝區和JSON格式存取權的輕量型伺服器 API
presto-coordinator0.187在 presto-workers 之間接受查詢和執行管理查詢的服務。
presto-worker0.187執行查詢各部分的服務。
pig-client0.17.0Pig 命令列用戶端。
spark-client2.2.1Spark 命令列用戶端。
spark-history-server2.2.1用於檢視完整 Spark 應用程式生命週期記錄事件的 Web 使用者介面。
spark-on-yarn2.2.1的記憶體內執行引擎YARN。
spark-yarn-slave2.2.1從屬所需的 Apache Spark YARN 程式庫。
sqoop-client1.4.6Apache Sqoop 命令列用戶端。
tez-on-yarn0.8.4tez YARN 應用程式和程式庫。
webserver2.4.25+Apache HTTP 伺服器。
zeppelin-server0.7.3能進行互動式資料分析,以 Web 為基礎的筆記型電腦。
zookeeper-server3.4.10用於維護組態資訊、命名、提供分散式同步,並提供群組服務的集中化服務。
zookeeper-client3.4.10ZooKeeper 命令列用戶端。

5.11.0 組態類別

組態分類可讓您自訂應用程式。這些檔案通常對應於應用程式的組態XML檔案,例如 hive-site.xml。如需詳細資訊,請參閱設定應用程式

emr-5.11.0 分類
分類 描述

capacity-scheduler

變更 Hadoop 中 capacity-scheduler.xml 檔案的值。

core-site

變更 Hadoop 中 core-site.xml 檔案的值。

emrfs-site

變更EMRFS設定。

flink-conf

變更 flink-conf.yaml 設定。

flink-log4j

變更 Flink log4j.properties 設定。

flink-log4j-yarn-session

變更 Flink log4j-yarn-session.properties 設定。

flink-log4j-cli

變更 Flink log4j-cli.properties 設定。

hadoop-env

在 Hadoop 環境中變更所有 Hadoop 元件的值。

hadoop-log4j

變更 Hadoop 中 log4j.properties 檔案的值。

hadoop-ssl-server

變更 hadoop ssl 伺服器組態

hadoop-ssl-client

變更 hadoop ssl 用戶端組態

hbase

Apache 的 Amazon EMR精選設定HBase。

hbase-env

變更 HBase環境中的值。

hbase-log4j

變更 HBasehbase-log4j.properties 檔案中的值。

hbase-metrics

變更 HBase的 hadoop-metrics2-hbase.properties 檔案中的值。

hbase-policy

變更 HBasehbase-policy.xml 檔案中的值。

hbase-site

變更 HBasehbase-site.xml 檔案中的值。

hdfs-encryption-zones

設定HDFS加密區域。

hdfs-site

變更 HDFShdfs-site.xml 中的值。

hcatalog-env

變更 HCatalog環境中的值。

hcatalog-server-jndi

變更 jndi.properties HCatalog中的值。

hcatalog-server-proto-hive-site

變更 HCatalog. proto-hive-sitexml 中的值。

hcatalog-webhcat-env

變更 HCatalog W ebHCat環境中的值。

hcatalog-webhcat-log4j2

變更 HCatalog W ebHCat的 log4j2.properties 中的值。

hcatalog-webhcat-site

變更 HCatalog W ebHCat的 webhcat-site.xml 檔案中的值。

hive-beeline-log4j2

變更 Hive 的 beeline-log4j2.properties 檔案中的值。

hive-parquet-logging

變更 Hive 的 parquet-logging.properties 檔案中的值。

hive-env

變更 Hive 環境中的值。

hive-exec-log4j2

在 Hive 的 hive-exec-log4j2.properties 檔案中變更值。

hive-llap-daemon-log4j2

變更 Hive llap-daemon-log4j2.properties 檔案中的值。

hive-log4j2

變更 Hive 的 hive-log4j2.properties 檔案中的值。

hive-site

變更 Hive 的 hive-site.xml 檔案中的值

hiveserver2-site

變更 Hive Server2 的 hiveserver2-site.xml 檔案中的值

hue-ini

變更 Hue 的 ini 檔案中的值

httpfs-env

變更HTTPFS環境中的值。

httpfs-site

變更 Hadoop 中 httpfs-site.xml 檔案的值。

hadoop-kms-acls

變更 Hadoop 中 kms-acls.xml 檔案的值。

hadoop-kms-env

變更 Hadoop KMS環境中的值。

hadoop-kms-log4j

變更 Hadoop 的 kms-log4j.properties 檔案中的值。

hadoop-kms-site

變更 Hadoop 中 kms-site.xml 檔案的值。

livy-conf

變更 Livy 的 livy.conf 檔案中的值。

livy-env

變更 Livy 環境中的值。

livy-log4j

變更 Livy log4j.properties 設定。

mapred-env

變更 MapReduce 應用程式環境中的值。

mapred-site

變更 MapReduce 應用程式 mapred-site.xml 檔案中的值。

oozie-env

變更 Oozie 環境中的值。

oozie-log4j

變更 Oozie 的 oozie-log4j.properties 檔案中的值。

oozie-site

變更 Oozie 的 oozie-site.xml 檔案中的值。

phoenix-hbase-metrics

變更 Phoenix 的 hadoop-metrics2-hbase.properties 檔案中的值。

phoenix-hbase-site

變更 Phoenix 的 hbase-site.xml 檔案中的值。

phoenix-log4j

變更 Phoenix 中 log4j.properties 檔案的值。

phoenix-metrics

變更 Phoenix 的 hadoop-metrics2-phoenix.properties 檔案中的值。

pig-properties

變更 Pig 的 pig.properties 檔案中的值。

pig-log4j

變更 Pig 的 log4j.properties 檔案中的值。

presto-log

變更 Presto 的 log.properties 檔案中的值。

presto-config

變更 Presto 的 config.properties 檔案中的值。

presto-env

變更 Presto 的 presto-env.sh 檔案中的值。

presto-node

變更 Presto 的 node.properties 檔案中的值。

presto-connector-blackhole

變更 Presto 的 blackhole.properties 檔案中的值。

presto-connector-cassandra

變更 Presto 的 cassandra.properties 檔案中的值。

presto-connector-hive

變更 Presto 的 hive.properties 檔案中的值。

presto-connector-jmx

變更 Presto 的 jmx.properties 檔案中的值。

presto-connector-kafka

變更 Presto 的 kafka.properties 檔案中的值。

presto-connector-localfile

變更 Presto 的 localfile.properties 檔案中的值。

presto-connector-mongodb

變更 Presto 的 mongodb.properties 檔案中的值。

presto-connector-mysql

變更 Presto 的 mysql.properties 檔案中的值。

presto-connector-postgresql

變更 Presto 的 postgresql.properties 檔案中的值。

presto-connector-raptor

變更 Presto 的 raptor.properties 檔案中的值。

presto-connector-redis

變更 Presto 的 redis.properties 檔案中的值。

presto-connector-tpch

變更 Presto 的 tpch.properties 檔案中的值。

spark

Apache Spark 的 Amazon EMR精選設定。

spark-defaults

變更 Spark 的 spark-defaults.conf 檔案中的值。

spark-env

變更 Spark 環境中的值。

spark-hive-site

變更 Spark 的 hive-site.xml 檔案中的值

spark-log4j

變更 Spark 中 log4j.properties 檔案的值。

spark-metrics

變更 Spark 中 metrics.properties 檔案的值。

sqoop-env

變更 Sqoop 環境中的值。

sqoop-oraoop-site

變更 Sqoop OraOop的 oraoop-site.xml 檔案中的值。

sqoop-site

變更 Sqoop 的 sqoop-site.xml 檔案中的值。

tez-site

變更 Tez 的 tez-site.xml 檔案中的值。

yarn-env

變更YARN環境中的值。

yarn-site

變更 YARN的 yarn-site.xml 檔案中的值。

zeppelin-env

變更 Zeppelin 環境中的值。

zookeeper-config

變更 ZooKeeperzoo.cfg 檔案中的值。

zookeeper-log4j

變更 ZooKeeper的 log4j.properties 檔案中的值。