Amazon EMRリリース 5.24.0 - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon EMRリリース 5.24.0

5.24.0 アプリケーションバージョン

このリリースでは、次のアプリケーションがサポートされています。 Flink, Ganglia, HBase, HCatalog, Hadoop, Hive, Hue, JupyterHub, Livy, MXNet, Mahout, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin、および ZooKeeper.

次の表は、このリリースの Amazon で利用可能なアプリケーションバージョンEMRと、前述の 3 つの Amazon EMRリリース (該当する場合) のアプリケーションバージョンを示しています。

Amazon の各リリースのアプリケーションバージョンの包括的な履歴についてはEMR、以下のトピックを参照してください。

アプリケーションバージョン情報
emr-5.24.0 emr-5.23.1 emr-5.23.0 emr-5.22.0
AWS SDK Java 用 1.11.5461.11.5191.11.5191.11.510
Python 2.7、3.62.7、3.62.7、3.62.7、3.6
Scala 2.11.122.11.122.11.122.11.12
AmazonCloudWatchAgent - - - -
差分 - - - -
Flink1.8.01.7.11.7.11.7.1
Ganglia3.7.23.7.23.7.23.7.2
HBase1.4.91.4.91.4.91.4.9
HCatalog2.3.42.3.42.3.42.3.4
Hadoop2.8.52.8.52.8.52.8.5
[Hive]2.3.42.3.42.3.42.3.4
Hudi - - - -
Hue4.4.04.3.04.3.04.3.0
Iceberg - - - -
JupyterEnterpriseGateway - - - -
JupyterHub0.9.60.9.40.9.40.9.4
Livy0.6.00.5.00.5.00.5.0
MXNet1.4.01.3.11.3.11.3.1
Mahout0.13.00.13.00.13.00.13.0
Oozie5.1.05.1.05.1.05.1.0
フェニックス4.14.14.14.14.14.14.14.1
Pig0.17.00.17.00.17.00.17.0
Presto0.2190.2150.2150.215
Spark2.4.22.4.02.4.02.4.0
Sqoop1.4.71.4.71.4.71.4.7
TensorFlow1.12.01.12.01.12.01.12.0
Tez0.9.10.9.10.9.10.9.1
Trino (Presto SQL) - - - -
Zeppelin0.8.10.8.10.8.10.8.1
ZooKeeper3.4.133.4.133.4.133.4.13

5.24.0 リリースノート

次のリリースノートには、Amazon EMRリリース 5.24.0 に関する情報が含まれています。5.23.0 からの変更が含まれています。

初回リリース日: 2019 年 6 月 11 日

最終更新日: 2019 年 8 月 5 日

アップグレード
  • Flink 1.8.0

  • Hue 4.4.0

  • JupyterHub 0.9.6

  • Livy 0.6.0

  • MxNet 1.4.0

  • Presto 0.219

  • Spark 2.4.2

  • AWS SDK for Java 1.11.546

  • コネクタおよびドライバー:

    • DynamoDB Connector 4.9.0

    • MariaDB Connector 2.4.1

    • Amazon Redshift JDBCドライバー 1.2.27.1051

変更点、機能強化、解決した問題
  • Spark

    • パーティションを動的にプルーニングするための最適化を追加しました。この最適化はデフォルトで無効になっています。これを有効にするには、Spark 設定パラメータ spark.sql.dynamicPartitionPruning.enabledtrue に設定します。

    • INTERSECT のクエリのパフォーマンスが改善されました。この最適化はデフォルトで無効になっています。これを有効にするには、Spark 設定パラメータ spark.sql.optimizer.distinctBeforeIntersect.enabledtrue に設定します。

    • 同じリレーションを使用する集計でスカラーサブクエリをフラット化するための最適化が追加されました。この最適化はデフォルトで無効になっています。これを有効にするには、Spark 設定パラメータ spark.sql.optimizer.flattenScalarSubqueriesWithAggregates.enabledtrue に設定します。

    • 全体的なステージコード生成が改善されました。

    詳細については、「Spark のパフォーマンスの最適化」を参照してください。

  • セキュリティ設定のローカルディスク暗号化と S3 暗号化の改善 (2019 年 8 月 5 日)

    • セキュリティ設定のセットアップで、Amazon S3 暗号化設定をローカルディスク暗号化設定から分離しました。

    • EBS 暗号化を有効にするオプションを追加しました。このオプションを選択すると、ストレージボリュームに加えてルートデバイスボリュームが暗号化されます。以前のバージョンでは、ルートデバイスボリュームを暗号化AMIするためにカスタムを使用する必要があります。

    • 詳細については、「Amazon EMR管理ガイド」の「暗号化オプション」を参照してください。

既知の問題
  • 複数のプライマリノードと Kerberos 認証を使用するクラスターの既知の問題

    Amazon EMRリリース 5.20.0 以降で複数のプライマリノードと Kerberos 認証を使用してクラスターを実行すると、クラスターがしばらく実行された後に、スケールダウンやステップ送信などのクラスターオペレーションに問題がある可能性があります。期間は、定義した Kerberos チケットの有効期間によって異なります。スケールダウンの問題は、自動スケールダウンリクエストと送信した明示的なスケールダウンリクエストの両方に影響します。その他のクラスターオペレーションも影響を受ける可能性があります。

    回避方法:

    • SSH 複数のプライマリノードを持つEMRクラスターのリードプライマリノードへのhadoopユーザーとして。

    • 次のコマンドを実行して hadoop ユーザーの Kerberos チケットを更新します。

      kinit -kt <keytab_file> <principal>

      通常、キータブファイルは /etc/hadoop.keytab にあります。プリンシパルの形式は hadoop/<hostname>@<REALM> です。

    注記

    この回避策は、Kerberos チケットが有効になっている期間、効果があります。この期間はデフォルトで 10 時間ですが、Kerberos の設定で構成できます。Kerberos チケットの有効期限が切れたら、上記のコマンドを再実行する必要があります。

5.24.0 コンポーネントバージョン

このリリースで Amazon がEMRインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon に固有でEMR、システムプロセスと機能用にインストールされます。これらは通常、emr または aws で開始されます。最新の Amazon EMRリリースのビッグデータアプリケーションパッケージは、通常、コミュニティにある最新バージョンです。Amazon では、コミュニティリリースEMRをできるだけ早く利用できるようにします。

Amazon の一部のコンポーネントは、コミュニティバージョンEMRとは異なります。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。EmrVersion は 0 から始まります。例えば、バージョン 2.2 myapp-componentの という名前のオープンソースコミュニティコンポーネントが、異なる Amazon EMRリリースに含めるために 3 回変更された場合、そのリリースバージョンは としてリストされます2.2-amzn-2

コンポーネント Version 説明
aws-sagemaker-spark-sdk1.2.1Amazon SageMaker Spark SDK
emr-ddb4.9.0Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクター。
emr-goodies2.8.0Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis3.4.0Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。
emr-s3-dist-cp2.11.0Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select1.3.0EMR S3Select コネクタ
emrfs2.33.0Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。
flink-client1.8.0Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
ganglia-monitor3.7.2Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector3.7.2Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web3.7.1Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client2.8.5-amzn-4'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode2.8.5-amzn-4HDFS ブロックを保存するためのノードレベルのサービス。
hadoop-hdfs-library2.8.5-amzn-4HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode2.8.5-amzn-4HDFS ファイル名とブロックの場所を追跡するための サービス。
hadoop-hdfs-journalnode2.8.5-amzn-4HDFS HA クラスターの Hadoop ファイルシステムジャーナルを管理するための サービス。
hadoop-httpfs-server2.8.5-amzn-4HTTP HDFSオペレーションの エンドポイント。
hadoop-kms-server2.8.5-amzn-4Hadoop の に基づく暗号化キー管理サーバー KeyProvider API。
hadoop-mapred2.8.5-amzn-4MapReduce MapReduce アプリケーションを実行するための実行エンジンライブラリ。
hadoop-yarn-nodemanager2.8.5-amzn-4YARN 個々のノードのコンテナを管理するための サービス。
hadoop-yarn-resourcemanager2.8.5-amzn-4YARN クラスターリソースと分散アプリケーションの割り当てと管理のための サービス。
hadoop-yarn-timeline-server2.8.5-amzn-4YARN アプリケーションの現在および履歴情報を取得するためのサービス。
hbase-hmaster1.4.9リージョンの調整と管理コマンドの実行を担当するHBaseクラスターのサービス。
hbase-region-server1.4.91 つ以上のHBaseリージョンに対応するサービス。
hbase-client1.4.9HBase コマンドラインクライアント。
hbase-rest-server1.4.9のRESTfulHTTPエンドポイントを提供するサービスHBase。
hbase-thrift-server1.4.9Thrift エンドポイントを に提供するサービスHBase。
hcatalog-client2.3.4-amzn-2hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server2.3.4-amzn-2分散アプリケーション用のテーブルとストレージ管理レイヤーHCatalogである を提供するサービス。
hcatalog-webhcat-server2.3.4-amzn-2HTTP にRESTインターフェイスを提供するエンドポイントHCatalog。
hive-client2.3.4-amzn-2Hive コマンドラインクライアント。
hive-hbase2.3.4-amzn-2Hive-hbase クライアント。
hive-metastore-server2.3.4-amzn-2Hadoop オペレーション上の のメタデータを保存するセマンティックリポジトリである Hive SQL メタストアにアクセスするためのサービス。
hive-server22.3.4-amzn-2Hive クエリをウェブリクエストとして受け入れるサービス。
hue-server4.4.0Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub0.9.6Jupyter Notebook のマルチユーザーサーバー
livy-server0.6.0-incubatingREST Apache Spark とやり取りするためのインターフェイス
nginx1.12.1nginx [エンジン x] は HTTPおよびリバースプロキシサーバーです
mahout-client0.13.0機械学習用のライブラリ。
mxnet1.4.0フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mysql-server5.5.54+データベースSQLサーバー。
nvidia-cuda9.2.88Nvidia ドライバーと Cuda ツールキット
oozie-client5.1.0Oozie コマンドラインクライアント。
oozie-server5.1.0Oozie ワークフローリクエストを受け入れるサービス。
opencv3.4.0オープンソースのコンピュータビジョンライブラリ。
phoenix-library4.14.1-HBase-1.4サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server4.14.1-HBase-1.4Avatica JDBCへのアクセスと Protocol Buffers およびJSONフォーマットアクセスを提供する軽量サーバー API
presto-coordinator0.219presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker0.219いくつかのクエリを実行するサービス。
pig-client0.17.0Pig コマンドラインクライアント。
r3.4.1統計的コンピューティング用 R プロジェクト
spark-client2.4.2Spark コマンドラインクライアント。
spark-history-server2.4.2完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn2.4.2のメモリ内実行エンジンYARN。
spark-yarn-slave2.4.2YARN スレーブに必要な Apache Spark ライブラリ。
sqoop-client1.4.7Apache Sqoop コマンドラインクライアント。
tensorflow1.12.0TensorFlow 高性能数値計算用のオープンソースソフトウェアライブラリ。
tez-on-yarn0.9.1Tez YARNアプリケーションとライブラリ。
webserver2.4.25+Apache HTTPサーバー。
zeppelin-server0.8.1インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server3.4.13設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client3.4.13ZooKeeper コマンドラインクライアント。

5.24.0 設定分類

設定分類を使用すると、アプリケーションをカスタマイズできます。これらは、多くの場合、 などのアプリケーションの設定XMLファイルに対応しますhive-site.xml。詳細については、「アプリケーションの設定」を参照してください。

emr-5.24.0 の分類
分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-log4j

Hadoop YARNの container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS 設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties 設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache の Amazon EMRが厳選した設定HBase。

hbase-env

HBaseの環境の値を変更します。

hbase-log4j

HBaseの hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBaseの hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBaseの hbase-policy.xml ファイルの値を変更します。

hbase-site

HBaseの hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-site

HDFSの hdfs-site.xml の値を変更します。

hcatalog-env

HCatalogの環境の値を変更します。

hcatalog-server-jndi

HCatalogの jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalogの proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog W ebHCatの環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog W ebHCatの log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog W ebHCatの webhcat-site.xml ファイルの値を変更します。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

jupyter-notebook-conf

Jupyter Notebook の jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

JupyterHubsの jupyterhub_config.py ファイルの値を変更します。

jupyter-s3-conf

Jupyter Notebook の S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-env

Pig 環境の値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

spark

Apache Spark の Amazon EMRが厳選した設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoop OraOopの oraoop-site.xml ファイルの値を変更します。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARNの yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

ZooKeeperの zoo.cfg ファイルの値を変更します。

zookeeper-log4j

ZooKeeperの log4j.properties ファイルの値を変更します。