Amazon EMR
Amazon EMR リリースガイド

Amazon EMR 5.x リリースバージョン

以下の各タブには、各 Amazon EMR 5.x リリースバージョンのアプリケーションバージョン、リリースノート、コンポーネントバージョン、および設定分類が一覧表示されています。

すべてのリリースのアプリケーションバージョンの包括的な図については、「Amazon EMR 5.x リリースのアプリケーションバージョン (PNG)」を参照してください。

クラスターを起動するときに、複数のバージョンの Amazon EMR リリースから選択できます。これにより、互換性の要件に適合するアプリケーションバージョンをテストして使用できます。リリースラベルを使用してリリースバージョンを指定します。リリースラベルの形式は emr-x.x.x. For example, emr-5.27.0. です

New Amazon EMR release versions are made available in different regions over a period of several days, beginning with the first region on the initial release date. The latest release version may not be available in your region during this period.

5.27.05.26.05.25.05.24.x5.23.05.22.05.21.x5.20.05.19.05.18.05.17.x5.16.05.15.05.14.x5.13.05.12.x5.11.x5.10.05.9.05.8.x5.7.05.6.05.5.x5.4.05.3.x5.2.x5.1.05.0.x
5.27.0

5.27.0 アプリケーションバージョン

このリリースでは次のアプリケーションがサポートされています。FlinkGangliaHadoopHBaseHCatalogHiveHueJupyterHubLivyMahoutMXNetOoziePhoenixPigPrestoSparkSqoopTensorFlowTezZeppelin、および ZooKeeper

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

5.27.0 リリースノート

次のリリースノートには、Amazon EMR リリースバージョン 5.27.0 に関する情報が含まれています。変更は 5.26.0 に関連するものです。

初回リリース日: 2019 年 9 月 23 日

アップグレード

  • AWS SDK for Java 1.11.615

  • Flink 1.8.1

  • JupyterHub 1.0.0

  • Spark 2.4.4

  • Tensorflow 1.14.0

  • コネクタおよびドライバ:

    • DynamoDB コネクタ 4.12.0

変更、拡張、解決した問題

5.27.0 コンポーネントバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

一部のコンポーネントでは、Amazon EMR 用のコミュニティバージョンからの変更が必要です。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。たとえば、バージョン 2.2 の myapp-component というビッグデータコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-3 として表示されます。

コンポーネント バージョン 説明
aws-sagemaker-spark-sdk 1.2.4 Amazon SageMaker Spark SDK
emr-ddb 4.12.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクタ。
emr-goodies 2.11.0 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.4.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクタ。
emr-s3-dist-cp 2.13.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 1.3.0 EMR S3Select コネクター
emrfs 2.36.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。
flink-client 1.8.1 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 2.8.5-amzn-4 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 2.8.5-amzn-4 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 2.8.5-amzn-4 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 2.8.5-amzn-4 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-hdfs-journalnode 2.8.5-amzn-4 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。
hadoop-httpfs-server 2.8.5-amzn-4 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 2.8.5-amzn-4 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred 2.8.5-amzn-4 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager 2.8.5-amzn-4 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 2.8.5-amzn-4 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 2.8.5-amzn-4 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 1.4.10 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server 1.4.10 1 つ以上の HBase リージョンに対応するサービス。
hbase-client 1.4.10 HBase コマンドラインクライアント。
hbase-rest-server 1.4.10 HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server 1.4.10 HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client 2.3.5-amzn-1 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 2.3.5-amzn-1 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server 2.3.5-amzn-1 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client 2.3.5-amzn-1 Hive コマンドラインクライアント。
hive-hbase 2.3.5-amzn-1 Hive-hbase クライアント。
hive-metastore-server 2.3.5-amzn-1 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 2.3.5-amzn-1 Hive クエリをウェブリクエストとして受け入れるサービス。
hue-server 4.4.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub 1.0.0 Jupyter ノートブックのマルチユーザーサーバー
livy-server 0.6.0-incubating Apache Spark を操作するための REST インターフェイス
nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー
mahout-client 0.13.0 機械学習用のライブラリ。
mxnet 1.4.0 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mysql-server 5.5.54+ MySQL データベースサーバー。
nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット
oozie-client 5.1.0 Oozie コマンドラインクライアント。
oozie-server 5.1.0 Oozie ワークフローリクエストを受け入れるサービス。
opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。
phoenix-library 4.14.2-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server 4.14.2-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator 0.224 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker 0.224 いくつかのクエリを実行するサービス。
pig-client 0.17.0 Pig コマンドラインクライアント。
r 3.4.1 統計的コンピューティング用 R プロジェクト
spark-client 2.4.4 Spark コマンドラインクライアント。
spark-history-server 2.4.4 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn 2.4.4 YARN のメモリ内実行エンジン。
spark-yarn-slave 2.4.4 YARN スレーブで必要な Apache Spark ライブラリ。
sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。
tensorflow 1.14.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。
tez-on-yarn 0.9.2 tez YARN アプリケーションおよびライブラリ。
webserver 2.4.25+ Apache HTTP サーバー。
zeppelin-server 0.8.1 インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server 3.4.14 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client 3.4.14 ZooKeeper コマンドラインクライアント。

5.27.0 設定分類

分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、hive-site.xml など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-5.27.0 分類

分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties の設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

HBase の環境の値を変更します。

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

HCatalog 環境の値を変更します。

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

jupyter-notebook-conf

Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

JupyterHubs の jupyterhub_config.py ファイルの値を変更します。

jupyter-s3-conf

Jupyter ノートブックの S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-env

Pig 環境の値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

ranger-kms-dbks-site

Ranger KMS の dbks-site.xml ファイルの値を変更します。

ranger-kms-site

Ranger KMS の ranger-kms-site.xml ファイルの値を変更します。

ranger-kms-env

Ranger KMS 環境の値を変更します。

ranger-kms-log4j

Ranger KMS の kms-log4j.properties ファイルの値を変更します。

ranger-kms-db-ca

Ranger KMS を使用した MySQL SSL 接続用の S3 の CA ファイルの値を変更します。

recordserver-env

EMR RecordServer 環境の値を変更します。

recordserver-conf

EMR RecordServer の erver.properties ファイルの値を変更します。

recordserver-log4j

EMR RecordServer の log4j.properties ファイルの値を変更します。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

ZooKeeper の zoo.cfg ファイルの値を変更します。

zookeeper-log4j

ZooKeeper の log4j.properties ファイルの値を変更します。

5.26.0

5.26.0 アプリケーションバージョン

このリリースでは次のアプリケーションがサポートされています。FlinkGangliaHadoopHBaseHCatalogHiveHueJupyterHubLivyMahoutMXNetOoziePhoenixPigPrestoSparkSqoopTensorFlowTezZeppelin、および ZooKeeper

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

5.26.0 リリースノート

次のリリースノートには、Amazon EMR リリースバージョン 5.26.0 に関する情報が含まれています。変更は 5.25.0 に関連するものです。

初回リリース日: 2019 年 8 月 8 日

最終更新日: 2019 年 8 月 19 日

アップグレード

  • AWS SDK for Java 1.11.595

  • HBase 1.4.10

  • Phoenix 4.14.2

  • コネクタおよびドライバ:

    • DynamoDB コネクタ 4.11.0

    • MariaDB コネクタ 2.4.2

    • Amazon Redshift JDBC ドライバー 1.2.32.1056

新機能

  • (ベータ) Amazon EMR 5.26.0 以降では、Lake Formation と統合するクラスターを起動できます。この統合により、AWS Glue データカタログ内のデータベースとテーブルへのきめ細かな列レベルのアクセスが提供されます。また、企業の ID システムから EMR ノートブックまたは Apache Zeppelin へのフェデレーションシングルサインオンが可能になります。詳細については、「Amazon EMR の AWS Lake Formation との統合 (ベータ)」を参照してください。

  • (2019 年 8 月 19 日) Amazon EMR のブロックパブリックアクセスが、セキュリティグループをサポートするすべての Amazon EMR リリースで使用可能になりました。ブロックパブリックアクセスは、各 AWS リージョンに適用されるアカウント全体の設定です。ブロックパブリックアクセスにより、クラスターに関連付けられたセキュリティグループに、ポートで IPv4 0.0.0.0/0 または IPv6 ::/0 (パブリックアクセス) からのインバウンドトラフィックを許可するルールがある場合に、クラスターの起動が防止されます (ポートが例外として指定されている場合を除く)。ポート 22 は、デフォルトで例外になります。詳細については、Amazon EMR 管理ガイドの「Amazon EMR ブロックパブリックアクセスの使用」を参照してください。

変更、拡張、解決した問題

  • EMR ノートブック

    • EMR 5.26.0 以降では、EMR ノートブック はデフォルトの Python ライブラリに加えて、ノートブックを範囲とする Python ライブラリがサポートします。ノートブックを範囲とするライブラリは、クラスターを再作成したり、クラスターにノートブックを再アタッチしたりすることなく、ノートブックエディタ内からインストールできます。ノートブックを範囲とするライブラリは、Python 仮想環境内で作成されるため、現在のノートブックセッションにのみ適用されます。これにより、ノートブックの依存関係を分離できます。詳細については、Amazon EMR 管理ガイドの「Using Notebook Scoped Libraries」を参照してください。

  • EMRFS

    • fs.s3.consistent.metadata.etag.verification.enabledtrue に設定して、ETag 検証機能 (ベータ) を有効にできます。この機能では、EMRFS は Amazon S3 ETag を使用して、読み取られているオブジェクトが利用可能な最新バージョンであることを確認します。この機能は、Amazon S3 上のファイルが同じ名前を維持しながら上書きされる、更新後の読み取りのユースケースに役立ちます。この ETag 検証機能は、現在 S3 Select では使用できません。詳細については、「一貫性のあるビューを構成する」を参照してください。

  • Spark

    • 次の最適化は、デフォルトで有効になりました: 動的なパーティションプルーニング、INTERSECT の前の DISTINCT、JOIN に続く DISTINCT クエリの SQL プラン統計推論の改善、スカラーサブクエリのフラット化、最適化された結合の順序変更、Bloom フィルターの結合。詳細については、「Spark パフォーマンスの最適化」を参照してください。

    • ソートマージ結合のステージコードの生成が全体的に改善されました。

    • クエリフラグメントとサブクエリの再利用が改善されました。

    • Spark 起動時のエグゼキューターの事前割り当ての改善。

    • 結合の小さい側にブロードキャストヒントが含まれている場合に、Bloom フィルター結合は適用されなくなりました。

  • Tez

    • Tez に関する問題を解決しました。Tez は 複数のマスターノードを持つ EMR クラスター で動作するようになりました。

既知の問題

  • ソートマージ結合のステージコード生成の全体的な改善により、有効時のメモリへの負荷が高まる可能性があります。この最適化によりパフォーマンスが向上しますが、十分なメモリを提供するよう spark.yarn.executor.memoryOverheadFactor がチューニングされていない場合、ジョブの再試行または失敗につながる可能性があります。この機能を無効にするには、spark.sql.sortMergeJoinExec.extendedCodegen.enabled を false に設定します。

5.26.0 コンポーネントバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

一部のコンポーネントでは、Amazon EMR 用のコミュニティバージョンからの変更が必要です。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。たとえば、バージョン 2.2 の myapp-component というビッグデータコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-3 として表示されます。

コンポーネント バージョン 説明
aws-sagemaker-spark-sdk 1.2.4 Amazon SageMaker Spark SDK
emr-ddb 4.11.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクタ。
emr-goodies 2.10.0 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.4.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクタ。
emr-s3-dist-cp 2.12.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 1.3.0 EMR S3Select コネクター
emrfs 2.35.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。
flink-client 1.8.0 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 2.8.5-amzn-4 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 2.8.5-amzn-4 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 2.8.5-amzn-4 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 2.8.5-amzn-4 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-hdfs-journalnode 2.8.5-amzn-4 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。
hadoop-httpfs-server 2.8.5-amzn-4 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 2.8.5-amzn-4 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred 2.8.5-amzn-4 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager 2.8.5-amzn-4 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 2.8.5-amzn-4 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 2.8.5-amzn-4 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 1.4.10 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server 1.4.10 1 つ以上の HBase リージョンに対応するサービス。
hbase-client 1.4.10 HBase コマンドラインクライアント。
hbase-rest-server 1.4.10 HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server 1.4.10 HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client 2.3.5-amzn-0 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 2.3.5-amzn-0 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server 2.3.5-amzn-0 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client 2.3.5-amzn-0 Hive コマンドラインクライアント。
hive-hbase 2.3.5-amzn-0 Hive-hbase クライアント。
hive-metastore-server 2.3.5-amzn-0 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 2.3.5-amzn-0 Hive クエリをウェブリクエストとして受け入れるサービス。
hue-server 4.4.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub 0.9.6 Jupyter ノートブックのマルチユーザーサーバー
livy-server 0.6.0-incubating Apache Spark を操作するための REST インターフェイス
nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー
mahout-client 0.13.0 機械学習用のライブラリ。
mxnet 1.4.0 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mysql-server 5.5.54+ MySQL データベースサーバー。
nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット
oozie-client 5.1.0 Oozie コマンドラインクライアント。
oozie-server 5.1.0 Oozie ワークフローリクエストを受け入れるサービス。
opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。
phoenix-library 4.14.2-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server 4.14.2-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator 0.220 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker 0.220 いくつかのクエリを実行するサービス。
pig-client 0.17.0 Pig コマンドラインクライアント。
r 3.4.1 統計的コンピューティング用 R プロジェクト
spark-client 2.4.3 Spark コマンドラインクライアント。
spark-history-server 2.4.3 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn 2.4.3 YARN のメモリ内実行エンジン。
spark-yarn-slave 2.4.3 YARN スレーブで必要な Apache Spark ライブラリ。
sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。
tensorflow 1.13.1 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。
tez-on-yarn 0.9.2 tez YARN アプリケーションおよびライブラリ。
webserver 2.4.25+ Apache HTTP サーバー。
zeppelin-server 0.8.1 インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server 3.4.14 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client 3.4.14 ZooKeeper コマンドラインクライアント。

5.26.0 設定分類

分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、hive-site.xml など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-5.26.0 分類

分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties の設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

HBase の環境の値を変更します。

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

HCatalog 環境の値を変更します。

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

jupyter-notebook-conf

Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

JupyterHubs の jupyterhub_config.py ファイルの値を変更します。

jupyter-s3-conf

Jupyter ノートブックの S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-env

Pig 環境の値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

recordserver-env

EMR RecordServer 環境の値を変更します。

recordserver-conf

EMR RecordServer の erver.properties ファイルの値を変更します。

recordserver-log4j

EMR RecordServer の log4j.properties ファイルの値を変更します。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

ZooKeeper の zoo.cfg ファイルの値を変更します。

zookeeper-log4j

ZooKeeper の log4j.properties ファイルの値を変更します。

5.25.0

5.25.0 アプリケーションバージョン

このリリースでは次のアプリケーションがサポートされています。FlinkGangliaHadoopHBaseHCatalogHiveHueJupyterHubLivyMahoutMXNetOoziePhoenixPigPrestoSparkSqoopTensorFlowTezZeppelin、および ZooKeeper

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

5.25.0 リリースノート

次のリリースノートには、Amazon EMR リリースバージョン 5.25.0 に関する情報が含まれています。変更は 5.24.1 に関連するものです。

初回リリース日: 2019 年 7 月 17 日

最終更新日: 2019 年 8 月 5 日

Amazon EMR 5.25.0

アップグレード

  • AWS SDK for Java 1.11.566

  • Hive 2.3.5

  • Presto 0.220

  • Spark 2.4.3

  • TensorFlow 1.13.1

  • Tez 0.9.2

  • Zookeeper 3.4.14

変更、拡張、解決した問題

  • Spark

    • Bloom フィルタを使用して入力を事前フィルタリングすることにより、一部の結合のパフォーマンスが改善されました。最適化はデフォルトで無効になり、Spark 設定パラメータ spark.sql.bloomFilterJoin.enabledtrue に設定することにより有効にできます。

    • 文字列型の列によるグループ分けのパフォーマンスが改善されました。

    • HBase がインストールされていないクラスターで、R4 インスタンスタイプのデフォルトの Spark エグゼキュターメモリとコア設定が改善されました。

    • プルーニングされたテーブルが結合の左側になければならない場合に、ダイナミックパーティションプルーニング機能で以前に発生していた問題が解決されました。

    • エイリアスが関連する追加のケースに適用する INTERSECT 最適化の前の DISTINCT が改善されました。

    • 後に DISTINCT クエリが続く JOIN の、SQL 計画の統計的推論が改善されました。この改善はデフォルトで無効になり、Spark 設定パラメータ spark.sql.statsImprovements.enabledtrue に設定することにより有効にできます。この最適化は、Intersect 機能の前の Distinct で必要になり、spark.sql.optimizer.distinctBeforeIntersect.enabledtrue に設定されたときに自動的に有効になります。

    • テーブルサイズとフィルタに基いて、結合順序が最適化されました。この最適化はデフォルトで無効になり、Spark 設定パラメータ spark.sql.optimizer.sizeBasedJoinReorder.enabledtrue に設定することにより有効にできます。

    詳細については、「Spark パフォーマンスの最適化」を参照してください。

  • EMRFS

    • EMRFS 設定 fs.s3.buckets.create.enabled は、デフォルトで無効になりました。テストにより、この設定を無効にするとパフォーマンスが改善され、S3 バケットの予期しない作成を防止できることがわかりました。アプリケーションがこの機能に依存している場合は、emrfs-site 設定分類でプロパティ fs.s3.buckets.create.enabledtrue に設定することにより、機能を有効にできます。詳細については、「クラスターの作成時に設定を指定する」を参照してください。

  • セキュリティ設定におけるローカルディスクの暗号化と S3 暗号化の改善 (2019 年 8 月 5 日)

    • セキュリティ設定のセットアップで、ローカルディスク暗号化設定から Amazon S3 暗号化設定を分離しました。

    • リリース 5.24.0 以降で、EBS 暗号化を有効にするオプションを追加しました。このオプションを選択すると、ストレージボリュームに加えてルートデバイスボリュームが暗号化されます。以前のバージョンでは、カスタム AMI を使用してルートデバイスボリュームを暗号化する必要がありました。

    • 詳細については、Amazon EMR 管理ガイドの「暗号化オプション」を参照してください。

5.25.0 コンポーネントバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

一部のコンポーネントでは、Amazon EMR 用のコミュニティバージョンからの変更が必要です。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。たとえば、バージョン 2.2 の myapp-component というビッグデータコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-3 として表示されます。

コンポーネント バージョン 説明
aws-sagemaker-spark-sdk 1.2.4 Amazon SageMaker Spark SDK
emr-ddb 4.10.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクタ。
emr-goodies 2.9.0 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.4.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクタ。
emr-s3-dist-cp 2.11.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 1.3.0 EMR S3Select コネクター
emrfs 2.34.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。
flink-client 1.8.0 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 2.8.5-amzn-4 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 2.8.5-amzn-4 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 2.8.5-amzn-4 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 2.8.5-amzn-4 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-hdfs-journalnode 2.8.5-amzn-4 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。
hadoop-httpfs-server 2.8.5-amzn-4 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 2.8.5-amzn-4 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred 2.8.5-amzn-4 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager 2.8.5-amzn-4 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 2.8.5-amzn-4 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 2.8.5-amzn-4 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 1.4.9 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server 1.4.9 1 つ以上の HBase リージョンに対応するサービス。
hbase-client 1.4.9 HBase コマンドラインクライアント。
hbase-rest-server 1.4.9 HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server 1.4.9 HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client 2.3.5-amzn-0 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 2.3.5-amzn-0 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server 2.3.5-amzn-0 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client 2.3.5-amzn-0 Hive コマンドラインクライアント。
hive-hbase 2.3.5-amzn-0 Hive-hbase クライアント。
hive-metastore-server 2.3.5-amzn-0 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 2.3.5-amzn-0 Hive クエリをウェブリクエストとして受け入れるサービス。
hue-server 4.4.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub 0.9.6 Jupyter ノートブックのマルチユーザーサーバー
livy-server 0.6.0-incubating Apache Spark を操作するための REST インターフェイス
nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー
mahout-client 0.13.0 機械学習用のライブラリ。
mxnet 1.4.0 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mysql-server 5.5.54+ MySQL データベースサーバー。
nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット
oozie-client 5.1.0 Oozie コマンドラインクライアント。
oozie-server 5.1.0 Oozie ワークフローリクエストを受け入れるサービス。
opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。
phoenix-library 4.14.1-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server 4.14.1-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator 0.220 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker 0.220 いくつかのクエリを実行するサービス。
pig-client 0.17.0 Pig コマンドラインクライアント。
r 3.4.1 統計的コンピューティング用 R プロジェクト
spark-client 2.4.3 Spark コマンドラインクライアント。
spark-history-server 2.4.3 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn 2.4.3 YARN のメモリ内実行エンジン。
spark-yarn-slave 2.4.3 YARN スレーブで必要な Apache Spark ライブラリ。
sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。
tensorflow 1.13.1 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。
tez-on-yarn 0.9.2 tez YARN アプリケーションおよびライブラリ。
webserver 2.4.25+ Apache HTTP サーバー。
zeppelin-server 0.8.1 インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server 3.4.14 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client 3.4.14 ZooKeeper コマンドラインクライアント。

5.25.0 設定分類

分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、hive-site.xml など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-5.25.0 分類

分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties の設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

HBase の環境の値を変更します。

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

HCatalog 環境の値を変更します。

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

jupyter-notebook-conf

Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

JupyterHubs の jupyterhub_config.py ファイルの値を変更します。

jupyter-s3-conf

Jupyter ノートブックの S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-env

Pig 環境の値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

recordserver-env

EMR RecordServer 環境の値を変更します。

recordserver-conf

EMR RecordServer の erver.properties ファイルの値を変更します。

recordserver-log4j

EMR RecordServer の log4j.properties ファイルの値を変更します。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

ZooKeeper の zoo.cfg ファイルの値を変更します。

zookeeper-log4j

ZooKeeper の log4j.properties ファイルの値を変更します。

5.24.x

5.24 シリーズには複数のリリースがあります。このタブ内で特定のリリースの情報を表示するには、以下のリンクを選択します。

5.24.1 (最新) | 5.24.0

Amazon EMR リリース 5.24.1

リリース 5.24.1 アプリケーションバージョン

このリリースでは次のアプリケーションがサポートされています。FlinkGangliaHadoopHBaseHCatalogHiveHueJupyterHubLivyMahoutMXNetOoziePhoenixPigPrestoSparkSqoopTensorFlowTezZeppelin、および ZooKeeper

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

リリース 5.24.1 リリースノート

次のリリースノートには、Amazon EMR リリースバージョン 5.24.1 に関する情報が含まれています。変更は 5.24.0 に関連するものです。

初回リリース日: 2019 年 6 月 26 日

変更、拡張、解決した問題

  • Updated the default Amazon Linux AMI for EMR to include important Linux kernel security updates, including the TCP SACK Denial of Service Issue (AWS-2019-005).

リリース 5.24.1 コンポーネントバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

一部のコンポーネントでは、Amazon EMR 用のコミュニティバージョンからの変更が必要です。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。たとえば、バージョン 2.2 の myapp-component というビッグデータコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-3 として表示されます。

コンポーネント バージョン 説明
aws-sagemaker-spark-sdk 1.2.1 Amazon SageMaker Spark SDK
emr-ddb 4.9.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクタ。
emr-goodies 2.8.0 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.4.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクタ。
emr-s3-dist-cp 2.11.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 1.3.0 EMR S3Select コネクター
emrfs 2.33.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。
flink-client 1.8.0 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 2.8.5-amzn-4 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 2.8.5-amzn-4 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 2.8.5-amzn-4 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 2.8.5-amzn-4 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-hdfs-journalnode 2.8.5-amzn-4 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。
hadoop-httpfs-server 2.8.5-amzn-4 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 2.8.5-amzn-4 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred 2.8.5-amzn-4 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager 2.8.5-amzn-4 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 2.8.5-amzn-4 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 2.8.5-amzn-4 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 1.4.9 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server 1.4.9 1 つ以上の HBase リージョンに対応するサービス。
hbase-client 1.4.9 HBase コマンドラインクライアント。
hbase-rest-server 1.4.9 HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server 1.4.9 HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client 2.3.4-amzn-2 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 2.3.4-amzn-2 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server 2.3.4-amzn-2 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client 2.3.4-amzn-2 Hive コマンドラインクライアント。
hive-hbase 2.3.4-amzn-2 Hive-hbase クライアント。
hive-metastore-server 2.3.4-amzn-2 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 2.3.4-amzn-2 Hive クエリをウェブリクエストとして受け入れるサービス。
hue-server 4.4.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub 0.9.6 Jupyter ノートブックのマルチユーザーサーバー
livy-server 0.6.0-incubating Apache Spark を操作するための REST インターフェイス
nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー
mahout-client 0.13.0 機械学習用のライブラリ。
mxnet 1.4.0 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mysql-server 5.5.54+ MySQL データベースサーバー。
nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット
oozie-client 5.1.0 Oozie コマンドラインクライアント。
oozie-server 5.1.0 Oozie ワークフローリクエストを受け入れるサービス。
opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。
phoenix-library 4.14.1-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server 4.14.1-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator 0.219 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker 0.219 いくつかのクエリを実行するサービス。
pig-client 0.17.0 Pig コマンドラインクライアント。
r 3.4.1 統計的コンピューティング用 R プロジェクト
spark-client 2.4.2 Spark コマンドラインクライアント。
spark-history-server 2.4.2 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn 2.4.2 YARN のメモリ内実行エンジン。
spark-yarn-slave 2.4.2 YARN スレーブで必要な Apache Spark ライブラリ。
sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。
tensorflow 1.12.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。
tez-on-yarn 0.9.1 tez YARN アプリケーションおよびライブラリ。
webserver 2.4.25+ Apache HTTP サーバー。
zeppelin-server 0.8.1 インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server 3.4.13 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client 3.4.13 ZooKeeper コマンドラインクライアント。

リリース 5.24.1 設定分類

分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、hive-site.xml など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-5.24.1 分類

分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties の設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

HBase の環境の値を変更します。

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

HCatalog 環境の値を変更します。

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

jupyter-notebook-conf

Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

JupyterHubs の jupyterhub_config.py ファイルの値を変更します。

jupyter-s3-conf

Jupyter ノートブックの S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-env

Pig 環境の値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

ZooKeeper の zoo.cfg ファイルの値を変更します。

zookeeper-log4j

ZooKeeper の log4j.properties ファイルの値を変更します。

Amazon EMR リリース 5.24.0

リリース 5.24.0 アプリケーションバージョン

このリリースでは次のアプリケーションがサポートされています。FlinkGangliaHadoopHBaseHCatalogHiveHueJupyterHubLivyMahoutMXNetOoziePhoenixPigPrestoSparkSqoopTensorFlowTezZeppelin、および ZooKeeper

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

リリース 5.24.0 リリースノート

次のリリースノートには、Amazon EMR リリースバージョン 5.24.0 に関する情報が含まれています。変更は 5.23.0 に関連するものです。

初回リリース日: 2019 年 6 月 11 日

最終更新日: 2019 年 8 月 5 日

アップグレード

  • Flink 1.8.0

  • Hue 4.4.0

  • JupyterHub 0.9.6

  • Livy 0.6.0

  • MxNet 1.4.0

  • Presto 0.219

  • Spark 2.4.2

  • AWS SDK for Java 1.11.546

  • コネクタおよびドライバ:

    • DynamoDB コネクタ 4.9.0

    • MariaDB コネクタ 2.4.1

    • Amazon Redshift JDBC ドライバ 1.2.27.1051

変更、拡張、解決した問題

  • Spark

    • 動的にパーティションを整理できるように最適化が追加されました。この最適化はデフォルトで無効になっています。この設定を有効にするには、Spark 設定パラメータ spark.sql.dynamicPartitionPruning.enabledtrue に設定します。

    • INTERSECT のクエリのパフォーマンスが改善されました。この最適化はデフォルトで無効になっています。この設定を有効にするには、Spark 設定パラメータ spark.sql.optimizer.distinctBeforeIntersect.enabledtrue に設定します。

    • 同じ関係を使用する集計を使用してスカラーサブクエリを平坦化するための最適化が追加されました。この最適化はデフォルトで無効になっています。この設定を有効にするには、Spark 設定パラメータ spark.sql.optimizer.flattenScalarSubqueriesWithAggregates.enabledtrue に設定します。

    • ステージコードの生成が全体的に改善されました。

    詳細については、「Spark パフォーマンスの最適化」を参照してください。

  • セキュリティ設定におけるローカルディスクの暗号化と S3 暗号化の改善 (2019 年 8 月 5 日)

    • セキュリティ設定のセットアップで、ローカルディスク暗号化設定から Amazon S3 暗号化設定を分離しました。

    • EBS 暗号化を有効にするオプションを追加しました。このオプションを選択すると、ストレージボリュームに加えてルートデバイスボリュームが暗号化されます。以前のバージョンでは、カスタム AMI を使用してルートデバイスボリュームを暗号化する必要がありました。

    • 詳細については、Amazon EMR 管理ガイドの「暗号化オプション」を参照してください。

リリース 5.24.0 コンポーネントバージョン

コンポーネント バージョン 説明
aws-sagemaker-spark-sdk 1.2.1 Amazon SageMaker Spark SDK
emr-ddb 4.9.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクタ。
emr-goodies 2.8.0 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.4.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクタ。
emr-s3-dist-cp 2.11.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 1.3.0 EMR S3Select コネクター
emrfs 2.33.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。
flink-client 1.8.0 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 2.8.5-amzn-4 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 2.8.5-amzn-4 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 2.8.5-amzn-4 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 2.8.5-amzn-4 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-hdfs-journalnode 2.8.5-amzn-4 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。
hadoop-httpfs-server 2.8.5-amzn-4 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 2.8.5-amzn-4 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred 2.8.5-amzn-4 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager 2.8.5-amzn-4 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 2.8.5-amzn-4 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 2.8.5-amzn-4 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 1.4.9 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server 1.4.9 1 つ以上の HBase リージョンに対応するサービス。
hbase-client 1.4.9 HBase コマンドラインクライアント。
hbase-rest-server 1.4.9 HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server 1.4.9 HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client 2.3.4-amzn-2 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 2.3.4-amzn-2 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server 2.3.4-amzn-2 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client 2.3.4-amzn-2 Hive コマンドラインクライアント。
hive-hbase 2.3.4-amzn-2 Hive-hbase クライアント。
hive-metastore-server 2.3.4-amzn-2 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 2.3.4-amzn-2 Hive クエリをウェブリクエストとして受け入れるサービス。
hue-server 4.4.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub 0.9.6 Jupyter ノートブックのマルチユーザーサーバー
livy-server 0.6.0-incubating Apache Spark を操作するための REST インターフェイス
nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー
mahout-client 0.13.0 機械学習用のライブラリ。
mxnet 1.4.0 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mysql-server 5.5.54+ MySQL データベースサーバー。
nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット
oozie-client 5.1.0 Oozie コマンドラインクライアント。
oozie-server 5.1.0 Oozie ワークフローリクエストを受け入れるサービス。
opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。
phoenix-library 4.14.1-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server 4.14.1-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator 0.219 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker 0.219 いくつかのクエリを実行するサービス。
pig-client 0.17.0 Pig コマンドラインクライアント。
r 3.4.1 統計的コンピューティング用 R プロジェクト
spark-client 2.4.2 Spark コマンドラインクライアント。
spark-history-server 2.4.2 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn 2.4.2 YARN のメモリ内実行エンジン。
spark-yarn-slave 2.4.2 YARN スレーブで必要な Apache Spark ライブラリ。
sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。
tensorflow 1.12.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。
tez-on-yarn 0.9.1 tez YARN アプリケーションおよびライブラリ。
webserver 2.4.25+ Apache HTTP サーバー。
zeppelin-server 0.8.1 インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server 3.4.13 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client 3.4.13 ZooKeeper コマンドラインクライアント。

リリース 5.24.0 設定分類

分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、hive-site.xml など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-5.24.0 分類

分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties の設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

HBase の環境の値を変更します。

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

HCatalog 環境の値を変更します。

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

jupyter-notebook-conf

Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

JupyterHubs の jupyterhub_config.py ファイルの値を変更します。

jupyter-s3-conf

Jupyter ノートブックの S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-env

Pig 環境の値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

ZooKeeper の zoo.cfg ファイルの値を変更します。

zookeeper-log4j

ZooKeeper の log4j.properties ファイルの値を変更します。

5.23.0

5.23.0 アプリケーションバージョン

このリリースでは次のアプリケーションがサポートされています。FlinkGangliaHadoopHBaseHCatalogHiveHueJupyterHubLivyMahoutMXNetOoziePhoenixPigPrestoSparkSqoopTensorFlowTezZeppelin、および ZooKeeper

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

5.23.0 リリースノート

次のリリースノートには、Amazon EMR リリースバージョン 5.23.0 に関する情報が含まれています。変更は 5.22.0 に関連するものです。

初回リリース日: 2019 年 4 月 1 日

最終更新日: 2019 年 4 月 30 日

アップグレード

  • AWS SDK for Java 1.11.519

新機能

  • (2019 年 4 月 30 日) Amazon EMR 5.23.0 以降では、YARN リソースマネージャー、HDFS 名前ノード、Spark、Hive、Ganglia といったアプリケーションの高可用性をサポートできるように、3 つのマスターノードでクラスターを起動できます。マスターノードは、現在この機能による潜在的な単一障害点ではありません。マスターノードのいずれかに障害が発生した場合、Amazon EMR は、自動的にスタンバイマスターノードにフェイルオーバーされ、障害が発生したマスターノードを同じ構成およびブートストラップアクションを持つ新しいマスターノードに置き換えられます。詳細については、「マスターノードの計画と構成」を参照してください。

既知の問題

  • Tez UI (Amazon EMR リリースバージョン 5.26.0 で修正)

    Tez UI は、複数のマスターノードを含む EMR クラスターでは動作しません。

  • Hue (Amazon EMR リリースバージョン 5.24.0 で修正)

    • Amazon EMR で実行されている Hue は、Solr をサポートしていません。Amazon EMR リリースバージョン 5.20.0 以降、設定に問題があると、Solr が有効になり、無害なエラーメッセージが次のように表示されます。

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr エラーメッセージが表示されないようにするには:

      1. SSH を使用してマスターノードに接続します。

      2. テキストエディタを使用して、hue.ini ファイルを開きます。次に例を示します。

        sudo vim /etc/hue/conf/hue.ini

      3. 「appblacklist」という用語を検索して、該当の行を次のように変更します。

        appblacklist = search
      4. 変更を保存し、以下の例に示されているように Hue を再起動します。

        sudo stop hue; sudo start hue

5.23.0 コンポーネントバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

一部のコンポーネントでは、Amazon EMR 用のコミュニティバージョンからの変更が必要です。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。たとえば、バージョン 2.2 の myapp-component というビッグデータコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-3 として表示されます。

コンポーネント バージョン 説明
aws-sagemaker-spark-sdk 1.2.1 Amazon SageMaker Spark SDK
emr-ddb 4.8.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクタ。
emr-goodies 2.7.0 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.4.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクタ。
emr-s3-dist-cp 2.11.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 1.2.0 EMR S3Select コネクター
emrfs 2.32.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。
flink-client 1.7.1 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 2.8.5-amzn-3 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 2.8.5-amzn-3 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 2.8.5-amzn-3 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 2.8.5-amzn-3 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-hdfs-journalnode 2.8.5-amzn-3 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。
hadoop-httpfs-server 2.8.5-amzn-3 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 2.8.5-amzn-3 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred 2.8.5-amzn-3 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager 2.8.5-amzn-3 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 2.8.5-amzn-3 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 2.8.5-amzn-3 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 1.4.9 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server 1.4.9 1 つ以上の HBase リージョンに対応するサービス。
hbase-client 1.4.9 HBase コマンドラインクライアント。
hbase-rest-server 1.4.9 HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server 1.4.9 HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client 2.3.4-amzn-1 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 2.3.4-amzn-1 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server 2.3.4-amzn-1 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client 2.3.4-amzn-1 Hive コマンドラインクライアント。
hive-hbase 2.3.4-amzn-1 Hive-hbase クライアント。
hive-metastore-server 2.3.4-amzn-1 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 2.3.4-amzn-1 Hive クエリをウェブリクエストとして受け入れるサービス。
hue-server 4.3.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub 0.9.4 Jupyter ノートブックのマルチユーザーサーバー
livy-server 0.5.0-incubating Apache Spark を操作するための REST インターフェイス
nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー
mahout-client 0.13.0 機械学習用のライブラリ。
mxnet 1.3.1 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mysql-server 5.5.54+ MySQL データベースサーバー。
nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット
oozie-client 5.1.0 Oozie コマンドラインクライアント。
oozie-server 5.1.0 Oozie ワークフローリクエストを受け入れるサービス。
opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。
phoenix-library 4.14.1-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server 4.14.1-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator 0.215 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker 0.215 いくつかのクエリを実行するサービス。
pig-client 0.17.0 Pig コマンドラインクライアント。
r 3.4.1 統計的コンピューティング用 R プロジェクト
spark-client 2.4.0 Spark コマンドラインクライアント。
spark-history-server 2.4.0 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn 2.4.0 YARN のメモリ内実行エンジン。
spark-yarn-slave 2.4.0 YARN スレーブで必要な Apache Spark ライブラリ。
sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。
tensorflow 1.12.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。
tez-on-yarn 0.9.1 tez YARN アプリケーションおよびライブラリ。
webserver 2.4.25+ Apache HTTP サーバー。
zeppelin-server 0.8.1 インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server 3.4.13 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client 3.4.13 ZooKeeper コマンドラインクライアント。

5.23.0 設定分類

分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、hive-site.xml など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-5.23.0 分類

分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties の設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

HBase の環境の値を変更します。

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

HCatalog 環境の値を変更します。

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

jupyter-notebook-conf

Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

JupyterHubs の jupyterhub_config.py ファイルの値を変更します。

jupyter-s3-conf

Jupyter ノートブックの S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-env

Pig 環境の値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

ZooKeeper の zoo.cfg ファイルの値を変更します。

zookeeper-log4j

ZooKeeper の log4j.properties ファイルの値を変更します。

5.22.0

5.22.0 アプリケーションバージョン

このリリースでは次のアプリケーションがサポートされています。FlinkGangliaHadoopHBaseHCatalogHiveHueJupyterHubLivyMahoutMXNetOoziePhoenixPigPrestoSparkSqoopTensorFlowTezZeppelin、および ZooKeeper

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

5.22.0 リリースノート

次のリリースノートには、Amazon EMR リリースバージョン 5.22.0 に関する情報が含まれています。変更は 5.21.0 に関連するものです。

重要

Amazon EMR リリースバージョン 5.22.0 以降では、Amazon EMR は、AWS 署名バージョン 4 を排他的に使用して、Amazon S3 へのリクエストを認証します。それ以前の Amazon EMR リリースバージョンでは、AWS 署名バージョン 2 を使用する場合があります。ただし、署名バージョン 4 が排他的に使用されていることがリリースノートで示されている場合を除きます。詳細については、『Amazon Simple Storage Service 開発者ガイド』の「リクエストの認証 (AWS 署名バージョン 4)」および「リクエストの認証 (AWS 署名バージョン 2)」を参照してください。

初回リリース日: 2019 年 3 月 20 日

アップグレード

  • Flink 1.7.1

  • HBase 1.4.9

  • Oozie 5.1.0

  • Phoenix 4.14.1

  • Zeppelin 0.8.1

  • コネクタおよびドライバ:

    • DynamoDB コネクタ 4.8.0

    • MariaDB コネクタ 2.2.6

    • Amazon Redshift JDBC ドライバ 1.2.20.1043

新機能

  • EBS 専用ストレージを使用する EC2 インスタンスタイプの EBS のデフォルト設定を変更しました。Amazon EMR リリースバージョン 5.22.0 以降を使用してクラスターを作成する場合、デフォルトの EBS ストレージサイズは、インスタンスのサイズに基づいて増加します。さらに、増加したストレージは複数のボリュームに分割されます。これにより、IOPS のパフォーマンスが向上しました。別の EBS インスタンスストレージ設定を使用する場合は、EMR クラスターを作成する際、または既存のクラスターをノードに追加する際に指定することができます。各インスタンスタイプにデフォルトで割り当てられているストレージ容量とボリューム数の詳細については、Amazon EMR 管理ガイド の「インスタンスのデフォルト EBS ストレージ」を参照してください。

変更、拡張、解決した問題

  • Spark

    • YARN の Spark に新しい設定プロパティ spark.yarn.executor.memoryOverheadFactor を追加しました。このプロパティの値は、メモリのオーバーヘッドの値をエグゼキュターのメモリの割合 (%) に設定するスケールファクタで、最小 384 MBです。spark.yarn.executor.memoryOverhead を使用してメモリのオーバーヘッドが明示的に設定されている場合、このプロパティの影響はありません。デフォルト値は 0.1875 であり、18.75% を表します。この Amazon EMR のデフォルト値によって、Spark によって内部的に設定された 10% のデフォルトよりも多くのスペースが、エグゼキュターのメモリのオーバーヘッド用に YARN コンテナに残ります。Amazon EMR のデフォルトの 18.75% は、経験的に TPC-DS ベンチマークでメモリ関連の失敗が少ないことを示していました。

    • SPARK-26316 をバックポートし、パフォーマンスが向上しました。

  • Amazon EMR バージョン 5.19.0、5.20.0、および 5.21.0 では、YARN ノードラベルは HDFS ディレクトリに保存されます。状況によっては、これがコアノード起動の遅延に続いて、クラスターのタイムアウトと起動失敗の原因になります。Amazon EMR 5.22.0 以降では、この問題は解決されています。YARN ノードラベルは各クラスターノードのローカルディスクに保存され、HDFS への依存関係が回避されます。

既知の問題

  • Hue (Amazon EMR リリースバージョン 5.24.0 で修正)

    • Amazon EMR で実行されている Hue は、Solr をサポートしていません。Amazon EMR リリースバージョン 5.20.0 以降、設定に問題があると、Solr が有効になり、無害なエラーメッセージが次のように表示されます。

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr エラーメッセージが表示されないようにするには:

      1. SSH を使用してマスターノードに接続します。

      2. テキストエディタを使用して、hue.ini ファイルを開きます。次に例を示します。

        sudo vim /etc/hue/conf/hue.ini

      3. 「appblacklist」という用語を検索して、該当の行を次のように変更します。

        appblacklist = search
      4. 変更を保存し、以下の例に示されているように Hue を再起動します。

        sudo stop hue; sudo start hue

5.22.0 コンポーネントバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

一部のコンポーネントでは、Amazon EMR 用のコミュニティバージョンからの変更が必要です。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。たとえば、バージョン 2.2 の myapp-component というビッグデータコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-3 として表示されます。

コンポーネント バージョン 説明
aws-sagemaker-spark-sdk 1.2.1 Amazon SageMaker Spark SDK
emr-ddb 4.8.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクタ。
emr-goodies 2.6.0 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.4.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクタ。
emr-s3-dist-cp 2.11.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 1.2.0 EMR S3Select コネクター
emrfs 2.31.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。
flink-client 1.7.1 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 2.8.5-amzn-2 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 2.8.5-amzn-2 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 2.8.5-amzn-2 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 2.8.5-amzn-2 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-httpfs-server 2.8.5-amzn-2 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 2.8.5-amzn-2 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred 2.8.5-amzn-2 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager 2.8.5-amzn-2 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 2.8.5-amzn-2 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 2.8.5-amzn-2 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 1.4.9 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server 1.4.9 1 つ以上の HBase リージョンに対応するサービス。
hbase-client 1.4.9 HBase コマンドラインクライアント。
hbase-rest-server 1.4.9 HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server 1.4.9 HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client 2.3.4-amzn-1 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 2.3.4-amzn-1 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server 2.3.4-amzn-1 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client 2.3.4-amzn-1 Hive コマンドラインクライアント。
hive-hbase 2.3.4-amzn-1 Hive-hbase クライアント。
hive-metastore-server 2.3.4-amzn-1 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 2.3.4-amzn-1 Hive クエリをウェブリクエストとして受け入れるサービス。
hue-server 4.3.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub 0.9.4 Jupyter ノートブックのマルチユーザーサーバー
livy-server 0.5.0-incubating Apache Spark を操作するための REST インターフェイス
nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー
mahout-client 0.13.0 機械学習用のライブラリ。
mxnet 1.3.1 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mysql-server 5.5.54+ MySQL データベースサーバー。
nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット
oozie-client 5.1.0 Oozie コマンドラインクライアント。
oozie-server 5.1.0 Oozie ワークフローリクエストを受け入れるサービス。
opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。
phoenix-library 4.14.1-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server 4.14.1-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator 0.215 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker 0.215 いくつかのクエリを実行するサービス。
pig-client 0.17.0 Pig コマンドラインクライアント。
r 3.4.1 統計的コンピューティング用 R プロジェクト
spark-client 2.4.0 Spark コマンドラインクライアント。
spark-history-server 2.4.0 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn 2.4.0 YARN のメモリ内実行エンジン。
spark-yarn-slave 2.4.0 YARN スレーブで必要な Apache Spark ライブラリ。
sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。
tensorflow 1.12.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。
tez-on-yarn 0.9.1 tez YARN アプリケーションおよびライブラリ。
webserver 2.4.25+ Apache HTTP サーバー。
zeppelin-server 0.8.1 インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server 3.4.13 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client 3.4.13 ZooKeeper コマンドラインクライアント。

5.22.0 設定分類

分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、hive-site.xml など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-5.22.0 分類

分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties の設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

HBase の環境の値を変更します。

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

HCatalog 環境の値を変更します。

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

jupyter-notebook-conf

Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

JupyterHubs の jupyterhub_config.py ファイルの値を変更します。

jupyter-s3-conf

Jupyter ノートブックの S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-env

Pig 環境の値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

ZooKeeper の zoo.cfg ファイルの値を変更します。

zookeeper-log4j

ZooKeeper の log4j.properties ファイルの値を変更します。

5.21.x

5.21 シリーズでは複数のリリースがあります。このタブ内で特定のリリースの情報を表示するには、以下のリンクを選択します。

5.21.1 (最新) | 5.21.0

Amazon EMR リリース 5.21.1

リリース 5.21.1 アプリケーションバージョン

このリリースでは次のアプリケーションがサポートされています。FlinkGangliaHadoopHBaseHCatalogHiveHueJupyterHubLivyMahoutMXNetOoziePhoenixPigPrestoSparkSqoopTensorFlowTezZeppelin、および ZooKeeper

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

リリース 5.21.1 リリースノート

次のリリースノートには、Amazon EMR リリースバージョン 5.21.1 に関する情報が含まれています。変更は 5.21.0 に関連するものです。

初回リリース日: 2019 年 7 月 18 日

変更、拡張、解決した問題

  • Updated the default Amazon Linux AMI for EMR to include important Linux kernel security updates, including the TCP SACK Denial of Service Issue (AWS-2019-005).

リリース 5.21.1 コンポーネントバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

一部のコンポーネントでは、Amazon EMR 用のコミュニティバージョンからの変更が必要です。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。たとえば、バージョン 2.2 の myapp-component というビッグデータコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-3 として表示されます。

コンポーネント バージョン 説明
aws-sagemaker-spark-sdk 1.2.1 Amazon SageMaker Spark SDK
emr-ddb 4.7.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクタ。
emr-goodies 2.5.1 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.4.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクタ。
emr-s3-dist-cp 2.11.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 1.2.0 EMR S3Select コネクター
emrfs 2.30.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。
flink-client 1.7.0 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 2.8.5-amzn-1 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 2.8.5-amzn-1 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 2.8.5-amzn-1 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 2.8.5-amzn-1 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-httpfs-server 2.8.5-amzn-1 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 2.8.5-amzn-1 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred 2.8.5-amzn-1 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager 2.8.5-amzn-1 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 2.8.5-amzn-1 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 2.8.5-amzn-1 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 1.4.8 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server 1.4.8 1 つ以上の HBase リージョンに対応するサービス。
hbase-client 1.4.8 HBase コマンドラインクライアント。
hbase-rest-server 1.4.8 HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server 1.4.8 HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client 2.3.4-amzn-0 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 2.3.4-amzn-0 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server 2.3.4-amzn-0 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client 2.3.4-amzn-0 Hive コマンドラインクライアント。
hive-hbase 2.3.4-amzn-0 Hive-hbase クライアント。
hive-metastore-server 2.3.4-amzn-0 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 2.3.4-amzn-0 Hive クエリをウェブリクエストとして受け入れるサービス。
hue-server 4.3.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub 0.9.4 Jupyter ノートブックのマルチユーザーサーバー
livy-server 0.5.0-incubating Apache Spark を操作するための REST インターフェイス
nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー
mahout-client 0.13.0 機械学習用のライブラリ。
mxnet 1.3.1 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mysql-server 5.5.54+ MySQL データベースサーバー。
nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット
oozie-client 5.0.0 Oozie コマンドラインクライアント。
oozie-server 5.0.0 Oozie ワークフローリクエストを受け入れるサービス。
opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。
phoenix-library 4.14.0-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server 4.14.0-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator 0.215 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker 0.215 いくつかのクエリを実行するサービス。
pig-client 0.17.0 Pig コマンドラインクライアント。
r 3.4.1 統計的コンピューティング用 R プロジェクト
spark-client 2.4.0 Spark コマンドラインクライアント。
spark-history-server 2.4.0 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn 2.4.0 YARN のメモリ内実行エンジン。
spark-yarn-slave 2.4.0 YARN スレーブで必要な Apache Spark ライブラリ。
sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。
tensorflow 1.12.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。
tez-on-yarn 0.9.1 tez YARN アプリケーションおよびライブラリ。
webserver 2.4.25+ Apache HTTP サーバー。
zeppelin-server 0.8.0 インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server 3.4.13 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client 3.4.13 ZooKeeper コマンドラインクライアント。

リリース 5.21.1 設定分類

分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、hive-site.xml など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-5.21.1 分類

分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties の設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

HBase の環境の値を変更します。

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

HCatalog 環境の値を変更します。

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

jupyter-notebook-conf

Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

JupyterHubs の jupyterhub_config.py ファイルの値を変更します。

jupyter-s3-conf

Jupyter ノートブックの S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-env

Pig 環境の値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

ZooKeeper の zoo.cfg ファイルの値を変更します。

zookeeper-log4j

ZooKeeper の log4j.properties ファイルの値を変更します。

Amazon EMR リリース 5.21.0

リリース 5.21.0 アプリケーションバージョン

このリリースでは次のアプリケーションがサポートされています。FlinkGangliaHadoopHBaseHCatalogHiveHueJupyterHubLivyMahoutMXNetOoziePhoenixPigPrestoSparkSqoopTensorFlowTezZeppelin、および ZooKeeper

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

リリース 5.21.0 リリースノート

次のリリースノートには、Amazon EMR リリースバージョン 5.21.0 に関する情報が含まれています。変更は 5.20.0 に関連するものです。

リリース日: 2019 年 2 月 18 日

最終更新日: 2019 年 4 月 3 日

アップグレード

  • Flink 1.7.0

  • Presto 0.215

  • AWS SDK for Java 1.11.479

新機能

  • (2019 年 4 月 3 日) Amazon EMR バージョン 5.21.0 以降では、実行中のクラスター内のインスタンスグループごとに、クラスタ設定を上書きして追加の設定分類を指定できます。これを行うには、Amazon EMR コンソール、AWS Command Line Interface (AWS CLI)、または AWS SDK を使用します。詳細については、「実行中のクラスター内のインスタンスグループの設定を指定する」を参照してください。

変更、拡張、解決した問題

既知の問題

  • Hue (Amazon EMR リリースバージョン 5.24.0 で修正)

    • Amazon EMR で実行されている Hue は、Solr をサポートしていません。Amazon EMR リリースバージョン 5.20.0 以降、設定に問題があると、Solr が有効になり、無害なエラーメッセージが次のように表示されます。

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr エラーメッセージが表示されないようにするには:

      1. SSH を使用してマスターノードに接続します。

      2. テキストエディタを使用して、hue.ini ファイルを開きます。次に例を示します。

        sudo vim /etc/hue/conf/hue.ini

      3. 「appblacklist」という用語を検索して、該当の行を次のように変更します。

        appblacklist = search
      4. 変更を保存し、以下の例に示されているように Hue を再起動します。

        sudo stop hue; sudo start hue
  • Tez

    • この問題は、Amazon EMR 5.22.0 で修正されました。

      クラスターマスターノードに SSH 接続して Tez UI (MasterDNS:8080/tez-ui) に接続すると、エラー「Adapter operation failed - Timeline server (ATS) is out of reach.Either it is down, or CORS is not enabled」が表示されるか、意図せずにタスクに N/A と表示されます。

      これは、Tez UI がマスターノードのホスト名ではなく localhost を使用して YARN タイムラインサーバーにリクエストが送信されたことが原因です。回避策として、スクリプトをブートストラップアクションまたはステップとして実行することができます。このスクリプトによって、Tez の configs.env ファイルのホスト名がアップデートされます。スクリプトの詳細や場所については、「ブートストラップの手順」を参照してください。

  • Amazon EMR バージョン 5.19.0、5.20.0、および 5.21.0 では、YARN ノードラベルは HDFS ディレクトリに保存されます。状況によっては、これがコアノード起動の遅延に続いて、クラスターのタイムアウトと起動失敗の原因になります。Amazon EMR 5.22.0 以降では、この問題は解決されています。YARN ノードラベルは各クラスターノードのローカルディスクに保存され、HDFS への依存関係が回避されます。

リリース 5.21.0 コンポーネントバージョン

コンポーネント バージョン 説明
aws-sagemaker-spark-sdk 1.2.1 Amazon SageMaker Spark SDK
emr-ddb 4.7.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクタ。
emr-goodies 2.5.1 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.4.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクタ。
emr-s3-dist-cp 2.11.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 1.2.0 EMR S3Select コネクター
emrfs 2.30.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。
flink-client 1.7.0 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 2.8.5-amzn-1 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 2.8.5-amzn-1 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 2.8.5-amzn-1 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 2.8.5-amzn-1 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-httpfs-server 2.8.5-amzn-1 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 2.8.5-amzn-1 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred 2.8.5-amzn-1 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager 2.8.5-amzn-1 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 2.8.5-amzn-1 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 2.8.5-amzn-1 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 1.4.8 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server 1.4.8 1 つ以上の HBase リージョンに対応するサービス。
hbase-client 1.4.8 HBase コマンドラインクライアント。
hbase-rest-server 1.4.8 HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server 1.4.8 HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client 2.3.4-amzn-0 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 2.3.4-amzn-0 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server 2.3.4-amzn-0 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client 2.3.4-amzn-0 Hive コマンドラインクライアント。
hive-hbase 2.3.4-amzn-0 Hive-hbase クライアント。
hive-metastore-server 2.3.4-amzn-0 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 2.3.4-amzn-0 Hive クエリをウェブリクエストとして受け入れるサービス。
hue-server 4.3.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub 0.9.4 Jupyter ノートブックのマルチユーザーサーバー
livy-server 0.5.0-incubating Apache Spark を操作するための REST インターフェイス
nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー
mahout-client 0.13.0 機械学習用のライブラリ。
mxnet 1.3.1 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mysql-server 5.5.54+ MySQL データベースサーバー。
nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット
oozie-client 5.0.0 Oozie コマンドラインクライアント。
oozie-server 5.0.0 Oozie ワークフローリクエストを受け入れるサービス。
opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。
phoenix-library 4.14.0-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server 4.14.0-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator 0.215 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker 0.215 いくつかのクエリを実行するサービス。
pig-client 0.17.0 Pig コマンドラインクライアント。
r 3.4.1 統計的コンピューティング用 R プロジェクト
spark-client 2.4.0 Spark コマンドラインクライアント。
spark-history-server 2.4.0 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn 2.4.0 YARN のメモリ内実行エンジン。
spark-yarn-slave 2.4.0 YARN スレーブで必要な Apache Spark ライブラリ。
sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。
tensorflow 1.12.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。
tez-on-yarn 0.9.1 tez YARN アプリケーションおよびライブラリ。
webserver 2.4.25+ Apache HTTP サーバー。
zeppelin-server 0.8.0 インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server 3.4.13 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client 3.4.13 ZooKeeper コマンドラインクライアント。

リリース 5.21.0 設定分類

分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、hive-site.xml など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-5.21.0 分類

分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties の設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

HBase の環境の値を変更します。

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

HCatalog 環境の値を変更します。

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

jupyter-notebook-conf

Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

JupyterHubs の jupyterhub_config.py ファイルの値を変更します。

jupyter-s3-conf

Jupyter ノートブックの S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-env

Pig 環境の値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

ZooKeeper の zoo.cfg ファイルの値を変更します。

zookeeper-log4j

ZooKeeper の log4j.properties ファイルの値を変更します。

5.20.0

5.20.0 アプリケーションバージョン

このリリースでは次のアプリケーションがサポートされています。FlinkGangliaHadoopHBaseHCatalogHiveHueJupyterHubLivyMahoutMXNetOoziePhoenixPigPrestoSparkSqoopTensorFlowTezZeppelin、および ZooKeeper

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

5.20.0 リリースノート

次のリリースノートには、Amazon EMR リリースバージョン 5.20.0 に関する情報が含まれています。変更は 5.19.0 に関連するものです。

初回リリース日: 2018 年 12 月 18 日

最終更新日: 2019 年 1 月 22 日

アップグレード

  • Flink 1.6.2

  • HBase 1.4.8

  • Hive 2.3.4

  • Hue 4.3.0

  • MXNet 1.3.1

  • Presto 0.214

  • Spark 2.4.0

  • TensorFlow 1.12.0

  • Tez 0.9.1

  • AWS SDK for Java 1.11.461

新機能

  • (2019 年 1 月 22 日) Amazon EMR の Kerberos は、外部 KDC からのプリンシパルの認証をサポートするように改良されました。これにより、複数のクラスターが単一の外部 KDC を共有できるため、プリンシパル管理が集中化されます。さらに、外部 KDC は Active Directory ドメインとのクロス領域信頼を得られます。これにより、すべてのクラスターが Active Directory からプリンシパルを認証できます。詳細については、Amazon EMR 管理ガイド の「Kerberos 認証を使用する」を参照してください。

変更、拡張、解決した問題

  • Amazon EMR のデフォルト Amazon Linux AMI

    • Python3 パッケージは Python 3.4 から 3.6 にアップグレードされました。

  • EMRFS S3 向けに最適化されたコミッター

  • Hive

  • Spark および Hive での Glue

    • EMR 5.20.0 以降で AWS Glue Data Catalog がメタストアとして使用されている場合、Spark と Hive に対して並列パーティションの削除が自動的に有効になります。この変更により、パーティションを取得するために複数のリクエストを並行して実行することで、クエリの計画時間は大幅に短縮されます。同時に実行できるセグメントの合計数は、1~10 の範囲です。デフォルト値は 5 です。この設定が推奨されています。この設定を変更するには、hive-site 設定分類のプロパティ aws.glue.partition.num.segments を指定します。スロットリングが発生した場合は、値を 1 に変更して機能を無効にすることができます。詳細については、「AWS Glue セグメント構造」を参照してください。

既知の問題

  • Hue (Amazon EMR リリースバージョン 5.24.0 で修正)

    • Amazon EMR で実行されている Hue は、Solr をサポートしていません。Amazon EMR リリースバージョン 5.20.0 以降、設定に問題があると、Solr が有効になり、無害なエラーメッセージが次のように表示されます。

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr エラーメッセージが表示されないようにするには:

      1. SSH を使用してマスターノードに接続します。

      2. テキストエディタを使用して、hue.ini ファイルを開きます。次に例を示します。

        sudo vim /etc/hue/conf/hue.ini

      3. 「appblacklist」という用語を検索して、該当の行を次のように変更します。

        appblacklist = search
      4. 変更を保存し、以下の例に示されているように Hue を再起動します。

        sudo stop hue; sudo start hue
  • Tez

    • この問題は、Amazon EMR 5.22.0 で修正されました。

      クラスターマスターノードに SSH 接続して Tez UI (MasterDNS:8080/tez-ui) に接続すると、エラー「Adapter operation failed - Timeline server (ATS) is out of reach.Either it is down, or CORS is not enabled」が表示されるか、意図せずにタスクに N/A と表示されます。

      これは、Tez UI がマスターノードのホスト名ではなく localhost を使用して YARN タイムラインサーバーにリクエストが送信されたことが原因です。回避策として、スクリプトをブートストラップアクションまたはステップとして実行することができます。このスクリプトによって、Tez の configs.env ファイルのホスト名がアップデートされます。スクリプトの詳細や場所については、「ブートストラップの手順」を参照してください。

  • Amazon EMR バージョン 5.19.0、5.20.0、および 5.21.0 では、YARN ノードラベルは HDFS ディレクトリに保存されます。状況によっては、これがコアノード起動の遅延に続いて、クラスターのタイムアウトと起動失敗の原因になります。Amazon EMR 5.22.0 以降では、この問題は解決されています。YARN ノードラベルは各クラスターノードのローカルディスクに保存され、HDFS への依存関係が回避されます。

5.20.0 コンポーネントバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

一部のコンポーネントでは、Amazon EMR 用のコミュニティバージョンからの変更が必要です。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。たとえば、バージョン 2.2 の myapp-component というビッグデータコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-3 として表示されます。

コンポーネント バージョン 説明
aws-sagemaker-spark-sdk 1.2.1 Amazon SageMaker Spark SDK
emr-ddb 4.7.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクタ。
emr-goodies 2.5.1 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.4.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクタ。
emr-s3-dist-cp 2.10.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 1.2.0 EMR S3Select コネクター
emrfs 2.29.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。
flink-client 1.6.2 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 2.8.5-amzn-1 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 2.8.5-amzn-1 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 2.8.5-amzn-1 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 2.8.5-amzn-1 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-httpfs-server 2.8.5-amzn-1 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 2.8.5-amzn-1 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred 2.8.5-amzn-1 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager 2.8.5-amzn-1 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 2.8.5-amzn-1 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 2.8.5-amzn-1 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 1.4.8 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server 1.4.8 1 つ以上の HBase リージョンに対応するサービス。
hbase-client 1.4.8 HBase コマンドラインクライアント。
hbase-rest-server 1.4.8 HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server 1.4.8 HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client 2.3.4-amzn-0 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 2.3.4-amzn-0 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server 2.3.4-amzn-0 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client 2.3.4-amzn-0 Hive コマンドラインクライアント。
hive-hbase 2.3.4-amzn-0 Hive-hbase クライアント。
hive-metastore-server 2.3.4-amzn-0 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 2.3.4-amzn-0 Hive クエリをウェブリクエストとして受け入れるサービス。
hue-server 4.3.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub 0.9.4 Jupyter ノートブックのマルチユーザーサーバー
livy-server 0.5.0-incubating Apache Spark を操作するための REST インターフェイス
nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー
mahout-client 0.13.0 機械学習用のライブラリ。
mxnet 1.3.1 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mysql-server 5.5.54+ MySQL データベースサーバー。
nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット
oozie-client 5.0.0 Oozie コマンドラインクライアント。
oozie-server 5.0.0 Oozie ワークフローリクエストを受け入れるサービス。
opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。
phoenix-library 4.14.0-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server 4.14.0-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator 0.214 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker 0.214 いくつかのクエリを実行するサービス。
pig-client 0.17.0 Pig コマンドラインクライアント。
r 3.4.1 統計的コンピューティング用 R プロジェクト
spark-client 2.4.0 Spark コマンドラインクライアント。
spark-history-server 2.4.0 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn 2.4.0 YARN のメモリ内実行エンジン。
spark-yarn-slave 2.4.0 YARN スレーブで必要な Apache Spark ライブラリ。
sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。
tensorflow 1.12.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。
tez-on-yarn 0.9.1 tez YARN アプリケーションおよびライブラリ。
webserver 2.4.25+ Apache HTTP サーバー。
zeppelin-server 0.8.0 インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server 3.4.13 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client 3.4.13 ZooKeeper コマンドラインクライアント。

5.20.0 設定分類

分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、hive-site.xml など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-5.20.0 分類

分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties の設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

HBase の環境の値を変更します。

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

HCatalog 環境の値を変更します。

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

jupyter-notebook-conf

Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

JupyterHubs の jupyterhub_config.py ファイルの値を変更します。

jupyter-s3-conf

Jupyter ノートブックの S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-env

Pig 環境の値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

ZooKeeper の zoo.cfg ファイルの値を変更します。

zookeeper-log4j

ZooKeeper の log4j.properties ファイルの値を変更します。

5.19.0

5.19.0 アプリケーションバージョン

このリリースでは次のアプリケーションがサポートされています。FlinkGangliaHadoopHBaseHCatalogHiveHueJupyterHubLivyMahoutMXNetOoziePhoenixPigPrestoSparkSqoopTensorFlowTezZeppelin、および ZooKeeper

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

5.19.0 リリースノート

次のリリースノートには、Amazon EMR リリースバージョン 5.19.0 に関する情報が含まれています。変更は 5.18.0 に関連するものです。

初回リリース日: 2018 年 11 月 7 日

最終更新日: 2018 年 11 月 19 日

アップグレード

  • Hadoop 2.8.5

  • Flink 1.6.1

  • JupyterHub 0.9.4

  • MXNet 1.3.0

  • Presto 0.212

  • TensorFlow 1.11.0

  • Zookeeper 3.4.13

  • AWS SDK for Java 1.11.433

新機能

  • (2018 年 11 月 19 日) EMR ノートブック は Jupyter Notebook に基づくマネージド環境です。PySpark、Spark SQL、Spark R、および Scala の Spark マジックカーネルをサポートします。EMR ノートブック は、Amazon EMR リリースバージョン 5.18.0 以降を使用して作成されたクラスターで使用できます。詳細については、Amazon EMR 管理ガイド の「EMR ノートブックの使用」を参照してください。

  • EMRFS S3 で最適化されたコミッターは、Spark および EMRFS を使用して Parquet ファイルを記述するときに利用できます。このコミッターにより、書き込みパフォーマンスが向上します。詳細については、「EMRFS S3 向けに最適化されたコミッターの使用」を参照してください。

変更、拡張、解決した問題

  • YARN

  • Amazon EMR のデフォルト Amazon Linux AMI

    • ruby18php56、および gcc48 はデフォルトでインストールされなくなりました。これらが必要な場合は、yum を使用してインストールできます。

    • aws-java-sdk ruby gem はデフォルトでインストールされなくなりました。必要な場合は、gem install aws-java-sdk を使用してインストールできます。特定のコンポーネントをインストールすることもできます。たとえば、gem install aws-java-sdk-s3 と指定します。

既知の問題

  • EMR ノートブック — 特定の状況で、複数のノートブックエディタが開いている場合、ノートブックエディタからクラスターに接続できないように表示されることがあります。このような場合は、ブラウザのクッキーを消去してノートブックエディタを再度開いてください。

  • CloudWatch ContainerPending メトリクスと Automatic Scaling (5.20.0 で修正) では、ContainerPending に対して負の値が出力される場合があります。ContainerPending が自動スケーリングルールで使用されている場合、自動スケーリングは正常に機能しません。ContainerPending を自動スケーリングで使用することは避けてください。

  • Amazon EMR バージョン 5.19.0、5.20.0、および 5.21.0 では、YARN ノードラベルは HDFS ディレクトリに保存されます。状況によっては、これがコアノード起動の遅延に続いて、クラスターのタイムアウトと起動失敗の原因になります。Amazon EMR 5.22.0 以降では、この問題は解決されています。YARN ノードラベルは各クラスターノードのローカルディスクに保存され、HDFS への依存関係が回避されます。

5.19.0 コンポーネントバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

一部のコンポーネントでは、Amazon EMR 用のコミュニティバージョンからの変更が必要です。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。たとえば、バージョン 2.2 の myapp-component というビッグデータコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-3 として表示されます。

コンポーネント バージョン 説明
aws-sagemaker-spark-sdk 1.2.0 Amazon SageMaker Spark SDK
emr-ddb 4.7.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクタ。
emr-goodies 2.5.1 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.4.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクタ。
emr-s3-dist-cp 2.10.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 1.1.0 EMR S3Select コネクター
emrfs 2.28.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。
flink-client 1.6.1 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 2.8.5-amzn-0 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 2.8.5-amzn-0 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 2.8.5-amzn-0 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 2.8.5-amzn-0 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-httpfs-server 2.8.5-amzn-0 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 2.8.5-amzn-0 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred 2.8.5-amzn-0 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager 2.8.5-amzn-0 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 2.8.5-amzn-0 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 2.8.5-amzn-0 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 1.4.7 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server 1.4.7 1 つ以上の HBase リージョンに対応するサービス。
hbase-client 1.4.7 HBase コマンドラインクライアント。
hbase-rest-server 1.4.7 HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server 1.4.7 HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client 2.3.3-amzn-2 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 2.3.3-amzn-2 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server 2.3.3-amzn-2 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client 2.3.3-amzn-2 Hive コマンドラインクライアント。
hive-hbase 2.3.3-amzn-2 Hive-hbase クライアント。
hive-metastore-server 2.3.3-amzn-2 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 2.3.3-amzn-2 Hive クエリをウェブリクエストとして受け入れるサービス。
hue-server 4.2.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub 0.9.4 Jupyter ノートブックのマルチユーザーサーバー
livy-server 0.5.0-incubating Apache Spark を操作するための REST インターフェイス
nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー
mahout-client 0.13.0 機械学習用のライブラリ。
mxnet 1.3.0 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mysql-server 5.5.54+ MySQL データベースサーバー。
nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット
oozie-client 5.0.0 Oozie コマンドラインクライアント。
oozie-server 5.0.0 Oozie ワークフローリクエストを受け入れるサービス。
opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。
phoenix-library 4.14.0-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server 4.14.0-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator 0.212 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker 0.212 いくつかのクエリを実行するサービス。
pig-client 0.17.0 Pig コマンドラインクライアント。
r 3.4.1 統計的コンピューティング用 R プロジェクト
spark-client 2.3.2 Spark コマンドラインクライアント。
spark-history-server 2.3.2 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn 2.3.2 YARN のメモリ内実行エンジン。
spark-yarn-slave 2.3.2 YARN スレーブで必要な Apache Spark ライブラリ。
sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。
tensorflow 1.11.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。
tez-on-yarn 0.8.4 tez YARN アプリケーションおよびライブラリ。
webserver 2.4.25+ Apache HTTP サーバー。
zeppelin-server 0.8.0 インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server 3.4.13 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client 3.4.13 ZooKeeper コマンドラインクライアント。

5.19.0 設定分類

分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、hive-site.xml など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-5.19.0 分類

分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties の設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

HBase の環境の値を変更します。

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

HCatalog 環境の値を変更します。

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

jupyter-notebook-conf

Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

JupyterHubs の jupyterhub_config.py ファイルの値を変更します。

jupyter-s3-conf

Jupyter ノートブックの S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-env

Pig 環境の値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

ZooKeeper の zoo.cfg ファイルの値を変更します。

zookeeper-log4j

ZooKeeper の log4j.properties ファイルの値を変更します。

5.18.0

5.18.0 アプリケーションバージョン

このリリースでは次のアプリケーションがサポートされています。FlinkGangliaHadoopHBaseHCatalogHiveHueJupyterHubLivyMahoutMXNetOoziePhoenixPigPrestoSparkSqoopTensorFlowTezZeppelin、および ZooKeeper

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

5.18.0 リリースノート

次のリリースノートには、Amazon EMR リリースバージョン 5.18.0 に関する情報が含まれています。変更は 5.17.0 に関連するものです。

初回リリース日: 2018 年 10 月 24 日

アップグレード

  • Flink 1.6.0

  • HBase 1.4.7

  • Presto 0.210

  • Spark 2.3.2

  • Zeppelin 0.8.0

新機能

変更、拡張、解決した問題

5.18.0 コンポーネントバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

一部のコンポーネントでは、Amazon EMR 用のコミュニティバージョンからの変更が必要です。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。たとえば、バージョン 2.2 の myapp-component というビッグデータコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-3 として表示されます。

コンポーネント バージョン 説明
aws-sagemaker-spark-sdk 1.1.3 Amazon SageMaker Spark SDK
emr-ddb 4.6.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクタ。
emr-goodies 2.5.0 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.4.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクタ。
emr-s3-dist-cp 2.10.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 1.1.0 EMR S3Select コネクター
emrfs 2.27.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。
flink-client 1.6.0 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 2.8.4-amzn-1 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 2.8.4-amzn-1 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 2.8.4-amzn-1 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 2.8.4-amzn-1 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-httpfs-server 2.8.4-amzn-1 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 2.8.4-amzn-1 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred 2.8.4-amzn-1 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager 2.8.4-amzn-1 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 2.8.4-amzn-1 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 2.8.4-amzn-1 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 1.4.7 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server 1.4.7 1 つ以上の HBase リージョンに対応するサービス。
hbase-client 1.4.7 HBase コマンドラインクライアント。
hbase-rest-server 1.4.7 HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server 1.4.7 HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client 2.3.3-amzn-2 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 2.3.3-amzn-2 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server 2.3.3-amzn-2 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client 2.3.3-amzn-2 Hive コマンドラインクライアント。
hive-hbase 2.3.3-amzn-2 Hive-hbase クライアント。
hive-metastore-server 2.3.3-amzn-2 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 2.3.3-amzn-2 Hive クエリをウェブリクエストとして受け入れるサービス。
hue-server 4.2.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub 0.8.1 Jupyter ノートブックのマルチユーザーサーバー
livy-server 0.5.0-incubating Apache Spark を操作するための REST インターフェイス
nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー
mahout-client 0.13.0 機械学習用のライブラリ。
mxnet 1.2.0 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mysql-server 5.5.54+ MySQL データベースサーバー。
nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット
oozie-client 5.0.0 Oozie コマンドラインクライアント。
oozie-server 5.0.0 Oozie ワークフローリクエストを受け入れるサービス。
opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。
phoenix-library 4.14.0-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server 4.14.0-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator 0.210 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker 0.210 いくつかのクエリを実行するサービス。
pig-client 0.17.0 Pig コマンドラインクライアント。
r 3.4.1 統計的コンピューティング用 R プロジェクト
spark-client 2.3.2 Spark コマンドラインクライアント。
spark-history-server 2.3.2 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn 2.3.2 YARN のメモリ内実行エンジン。
spark-yarn-slave 2.3.2 YARN スレーブで必要な Apache Spark ライブラリ。
sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。
tensorflow 1.9.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。
tez-on-yarn 0.8.4 tez YARN アプリケーションおよびライブラリ。
webserver 2.4.25+ Apache HTTP サーバー。
zeppelin-server 0.8.0 インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server 3.4.12 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client 3.4.12 ZooKeeper コマンドラインクライアント。

5.18.0 設定分類

分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、hive-site.xml など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-5.18.0 分類

分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties の設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

HBase の環境の値を変更します。

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

HCatalog 環境の値を変更します。

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

jupyter-notebook-conf

Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

JupyterHubs の jupyterhub_config.py ファイルの値を変更します。

jupyter-s3-conf

Jupyter ノートブックの S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。