Amazon EMR 5.x リリースバージョン - Amazon EMR

「翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。」

Amazon EMR 5.x リリースバージョン

以下の各タブには、各 Amazon EMR 5.x リリースバージョンのアプリケーションバージョン、リリースノート、コンポーネントバージョン、および設定分類が一覧表示されています。

すべてのリリースのアプリケーションバージョンの包括的な図については、「Amazon EMR 5.x リリースのアプリケーションバージョン (PNG)」を参照してください。

クラスターを起動するときに、複数のバージョンの Amazon EMR リリースから選択できます。これにより、互換性の要件に適合するアプリケーションバージョンをテストして使用できます。リリースラベルを使用してリリースバージョンを指定します。リリースラベルの形式は emr-x.x.x. For example, emr-5.32.0. です

New Amazon EMR release versions are made available in different regions over a period of several days, beginning with the first region on the initial release date. The latest release version may not be available in your region during this period.

5.32.0

リリース 5.32.0 アプリケーションバージョン

このリリースでは、次のアプリケーションがサポートされています。 JupyterEnterpriseGateway, Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin、、および ZooKeeper.

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

リリース 5.32.0 リリースノート

次のリリースノートは、Amazon EMR リリースバージョン 5.32.0 に関する情報を記載しています。5.31.0 からの変更が含まれています。

初回リリース日: 2021 年 1 月 8 日

アップグレード

  • Amazon Glue コネクタをバージョン 1.14.0 にアップグレードしました

  • Amazon SageMaker Spark SDK をバージョン 1.4.1 にアップグレードしました

  • AWS Java SDK をバージョン 1.11.890 にアップグレードしました

  • EMR DynamoDB Connector をバージョン 4.16.0 にアップグレードしました

  • EMRFS をバージョン 2.45.0 にアップグレードしました

  • EMR Log Analytics Metrics をバージョン 1.18.0 にアップグレードしました

  • EMR MetricsAndEventsApiGateway クライアントをバージョン 1.5.0 にアップグレードしました

  • EMR Record Server をバージョン 1.8.0 にアップグレードしました

  • EMR S3 Dist CP をバージョン 2.17.0 にアップグレードしました

  • EMR Secret Agent をバージョン 1.7.0 にアップグレードしました

  • Flink をバージョン 1.11.2 にアップグレードしました

  • Hadoop をバージョン 2.10.1-amzn-0 にアップグレードしました

  • Hive をバージョン 2.3.7-amzn-3 にアップグレードしました

  • Hue をバージョン 4.8.0 にアップグレードしました

  • Mxnet をバージョン 1.7.0 にアップグレードしました

  • OpenCV をバージョン 4.4.0 にアップグレードしました

  • Presto をバージョン 0.240.1-amzn-0 にアップグレードしました

  • Spark をバージョン 2.4.7-amzn-0 にアップグレードしました

  • TensorFlow をバージョン 2.3.1 にアップグレードしました

変更、拡張、解決した問題

  • コンポーネントのバージョンをアップグレードしました。

  • コンポーネントバージョンのリストについては、このガイドの「Amazon EMR リリースについて」を参照してください。

新機能

  • インスタンスメタデータサービス (IMDS) V2 のサポートステータス: Amazon EMR 5.23.1、5.27.1、5.32 以降のコンポーネントは、すべての IMDS 呼び出しで IMDSv2 を使用します。アプリケーションコードでの IMDS 呼び出しの場合、IMDSv1 と IMDSv2 の両方を使用するか、セキュリティを強化するために IMDSv2 のみを使用するように IMDS を設定できます。その他の 5.x EMR リリースでは、IMDSv1 を無効にすると、クラスターの起動に失敗します。

  • Amazon EMR 5.32.0 以降では、Apache Ranger とネイティブに統合するクラスターを起動できます。Apache Ranger は、Hadoop プラットフォーム全体の包括的なデータセキュリティを有効化、モニタリング、管理するオープンソースフレームワークです。詳細については、「Apache Ranger」を参照してください。ネイティブ統合により、独自の Apache Ranger を使用して Amazon EMR に対してきめ細かなデータアクセスコントロールを適用できます。Amazon EMR リリース ガイド の「Amazon EMR と Apache Ranger の統合」を参照してください。

  • Amazon EMR リリース 5.32.0 は、Amazon EMR on EKS をサポートしています。EMR on EKS の開始方法の詳細については、「Amazon EMR on EKS とは」を参照してください。

  • Amazon EMR リリース 5.32.0 は、Amazon EMR Studio (プレビュー) をサポートしています。EMR Studio の開始方法の詳細については、「Amazon EMR Studio (プレビュー)」を参照してください。

  • スコープが設定されたマネージドポリシー: AWS のベストプラクティスに従うために、Amazon EMR は、非推奨となるポリシーの代わりとして、v2 EMR をスコープとするデフォルトのマネージドポリシーを導入しています。「Amazon EMR マネージドポリシー」を参照してください。

既知の問題

  • Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.

    The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.

    Explicitly set a ulimit from the command line

    1. Edit /etc/systemd/system/instance-controller.service to add the following parameters to Service section.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Set a ulimit using bootstrap action (BA)

    You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • 重要

    Amazon Linux または Amazon Linux 2 AMI (Amazon Linux マシンイメージ) を実行している Amazon EMR クラスターは、デフォルトの Amazon Linux 動作を使用します。再起動を必要とする重要かつ不可欠なカーネル更新プログラムを自動的にダウンロードしてインストールすることはありません。これは、デフォルトの Amazon Linux AMI を実行している他の Amazon EC2 インスタンスと同じ動作です。EMR バージョンのリリース後に、再起動を必要とする新しい Amazon Linux ソフトウェア更新プログラム (カーネル、NVIDIA、CUDA 更新プログラムなど) が使用可能になった場合、デフォルト AMI を実行している EMR クラスターインスタンスは、それらの更新プログラムを自動的にダウンロードしてインストールすることはありません。カーネル更新プログラムを取得するには、最新の Amazon Linux AMI を使用するようにAmazon EMR AMI をカスタマイズすることができます。

  • AWS Ranger 統合オプションを指定するセキュリティ設定を作成するコンソールサポートは、現在 GovCloud リージョンではサポートされていません。セキュリティ設定を行うには、CLI を使用できます。Amazon EMR 管理ガイド の「EMR セキュリティ設定の作成」を参照してください。

リリース 5.32.0 コンポーネントバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

Amazon EMR の一部のコンポーネントは、コミュニティバージョンとは異なります。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。EmrVersion は 0 から始まります。たとえば、バージョン 2.2 の myapp-component というオープンソースコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-2 として表示されます。

コンポーネント バージョン 説明
aws-sagemaker-spark-sdk 1.4.1 Amazon SageMaker Spark SDK
emr-ddb 4.16.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクター。
emr-goodies 2.13.0 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.5.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。
emr-notebook-env 1.1.0 Jupyter エンタープライズゲートウェイを含む EMR ノートブック用 Conda env
emr-s3-dist-cp 2.17.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 1.6.0 EMR S3Select コネクター
emrfs 2.45.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクター。
flink-client 1.11.2 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
flink-jobmanager-config 1.11.2 Apache Flink JobManager の EMR ノードのリソースを管理します。
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 2.10.1-amzn-0 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 2.10.1-amzn-0 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 2.10.1-amzn-0 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 2.10.1-amzn-0 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-hdfs-journalnode 2.10.1-amzn-0 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。
hadoop-httpfs-server 2.10.1-amzn-0 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 2.10.1-amzn-0 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred 2.10.1-amzn-0 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager 2.10.1-amzn-0 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 2.10.1-amzn-0 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 2.10.1-amzn-0 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 1.4.13 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server 1.4.13 1 つ以上の HBase リージョンに対応するサービス。
hbase-client 1.4.13 HBase コマンドラインクライアント。
hbase-rest-server 1.4.13 HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server 1.4.13 HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client 2.3.7-amzn-3 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 2.3.7-amzn-3 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server 2.3.7-amzn-3 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client 2.3.7-amzn-3 Hive コマンドラインクライアント。
hive-hbase 2.3.7-amzn-3 Hive-hbase クライアント。
hive-metastore-server 2.3.7-amzn-3 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 2.3.7-amzn-3 Hive クエリをウェブリクエストとして受け入れるサービス。
hudi 0.6.0-amzn-0 データパイプラインを強化する低レイテンシーかつ高効率な増分処理フレームワーク。
Hudi-spark 0.6.0-amzn-0 Hudi で Spark を実行するためのバンドルライブラリ。
hudi-presto 0.6.0-amzn-0 Presto を Hudi で実行するためのバンドルライブラリ。
hue-server 4.8.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub 1.1.0 Jupyter ノートブックのマルチユーザーサーバー
livy-server 0.7.0-incubating Apache Spark を操作するための REST インターフェイス
nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー
mahout-client 0.13.0 機械学習用のライブラリ。
mxnet 1.7.0 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mariadb-server 5.5.68 MySQL データベースサーバー。
nvidia-cuda 10.1.243 Nvidia ドライバーと Cuda ツールキット
oozie-client 5.2.0 Oozie コマンドラインクライアント。
oozie-server 5.2.0 Oozie ワークフローリクエストを受け入れるサービス。
opencv 4.4.0 オープンソースのコンピュータビジョンライブラリ。
phoenix-library 4.14.3-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server 4.14.3-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator 0.240.1-amzn-0 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker 0.240.1-amzn-0 いくつかのクエリを実行するサービス。
presto-client 0.240.1-amzn-0 Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。
pig-client 0.17.0 Pig コマンドラインクライアント。
r 3.4.3 統計的コンピューティング用 R プロジェクト
ranger-kms-server 1.2.0 Apache Ranger Key Management System
spark-client 2.4.7-amzn-0 Spark コマンドラインクライアント。
spark-history-server 2.4.7-amzn-0 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn 2.4.7-amzn-0 YARN のメモリ内実行エンジン。
spark-yarn-slave 2.4.7-amzn-0 YARN スレーブで必要な Apache Spark ライブラリ。
sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。
tensorflow 2.3.1 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。
tez-on-yarn 0.9.2 tez YARN アプリケーションおよびライブラリ。
webserver 2.4.25+ Apache HTTP サーバー。
zeppelin-server 0.8.2 インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server 3.4.14 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client 3.4.14 ZooKeeper コマンドラインクライアント。

リリース 5.32.0 設定分類

分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、hive-site.xml など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-5.32.0 分類
分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-executor

Hadoop YARN の container-executor.cfg ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

docker-conf

Docker 関連の設定を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties の設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

HBase の環境の値を変更します。

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

HCatalog 環境の値を変更します。

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

hudi-env

Hudi 環境の値を変更します。

jupyter-notebook-conf

Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

JupyterHubs の jupyterhub_config.py ファイルの値を変更します。

jupyter-s3-conf

Jupyter ノートブックの S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-env

Pig 環境の値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

ranger-kms-dbks-site

Ranger KMS の dbks-site.xml ファイルの値を変更します。

ranger-kms-site

Ranger KMS の ranger-kms-site.xml ファイルの値を変更します。

ranger-kms-env

Ranger KMS 環境の値を変更します。

ranger-kms-log4j

Ranger KMS の kms-log4j.properties ファイルの値を変更します。

ranger-kms-db-ca

Ranger KMS を使用した MySQL SSL 接続用の S3 の CA ファイルの値を変更します。

recordserver-env

EMR RecordServer 環境の値を変更します。

recordserver-conf

EMR RecordServer の erver.properties ファイルの値を変更します。

recordserver-log4j

EMR RecordServer の log4j.properties ファイルの値を変更します。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

ZooKeeper の zoo.cfg ファイルの値を変更します。

zookeeper-log4j

ZooKeeper の log4j.properties ファイルの値を変更します。

5.31.0

リリース 5.31.0 アプリケーションバージョン

このリリースでは、次のアプリケーションがサポートされています。 Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin、、および ZooKeeper.

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

リリース 5.31.0 リリースノート

次のリリースノートは、Amazon EMR リリースバージョン 5.31.0 に関する情報を記載しています。5.30.1 からの変更が含まれています。

初回リリース日: 2020 年 10 月 9 日

最終更新日: 2020 年 10 月 15 日

アップグレード

  • Amazon Glue コネクタをバージョン 1.13.0 にアップグレードしました

  • Amazon SageMaker Spark SDK をバージョン 1.4.0 にアップグレードしました

  • Amazon Kinesis コネクタをバージョン 3.5.9 にアップグレードしました

  • AWS Java SDK をバージョン 1.11.852 にアップグレードしました

  • Bigtop-tomcat をバージョン 8.5.56 にアップグレードしました

  • EMR FS をバージョン 2.43.0 にアップグレードしました

  • EMR MetricsAndEventsApiGateway クライアントをバージョン 1.4.0 にアップグレードしました

  • EMR S3 Dist CP をバージョン 2.15.0 にアップグレードしました

  • EMR S3 Select をバージョン 1.6.0 にアップグレードしました

  • Flink をバージョン 1.11.0 にアップグレードしました

  • Hadoop をバージョン 2.10.0 にアップグレードしました

  • Hive をバージョン 2.3.7 にアップグレードしました

  • Hudi をバージョン 0.6.0 にアップグレードしました

  • Hue をバージョン 4.7.1 にアップグレードしました

  • JupyterHub をバージョン 1.1.0 にアップグレードしました

  • Mxnet をバージョン 1.6.0 にアップグレードしました

  • OpenCV をバージョン 4.3.0 にアップグレードしました

  • Presto をバージョン 0.238.3 にアップグレードしました

  • TensorFlow をバージョン 2.1.0 にアップグレードしました

変更、拡張、解決した問題

  • Hive 列統計は、Amazon EMR バージョン 5.31.0 以降でサポートされています。

  • コンポーネントのバージョンをアップグレードしました。

  • Amazon EMR 5.31.0 で EMRFS S3EC V2 をサポートしました。S3 Java SDK リリース 1.11.837 以降では、さまざまなセキュリティの機能強化を含む暗号化クライアントバージョン 2 (S3EC V2) が導入されています。詳細については、以下を参照してください。

    下位互換性のために、暗号化クライアント V1 は SDK で引き続き使用できます。

新機能

  • Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.

    The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.

    Explicitly set a ulimit from the command line

    1. Edit /etc/systemd/system/instance-controller.service to add the following parameters to Service section.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Set a ulimit using bootstrap action (BA)

    You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Amazon EMR 5.31.0 では、Lake Formation と統合するクラスターを起動できます。この統合により、AWS Glue データカタログ内のデータベースとテーブルへのきめ細かな列レベルのデータフィルタリングが提供されます。また、企業の ID システムから EMR ノートブックまたは Apache Zeppelin へのフェデレーションシングルサインオンが可能になります。詳細については、Amazon EMR 管理ガイドの「Amazon EMR と AWS Lake Formation の統合」を参照してください。

    Amazon EMR と Lake Formation は、現在、米国東部 (オハイオとバージニア北部)、米国西部 (北カリフォルニアとオレゴン)、アジアパシフィック (ムンバイ、ソウル、シンガポール、シドニー、東京)、カナダ (中部)、ヨーロッパ (フランクフルト、アイルランド、ロンドン、パリ、ストックホルム)、南米 (サンパウロ) の 16 の AWS リージョンで利用できます。

既知の問題

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

リリース 5.31.0 コンポーネントバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

Amazon EMR の一部のコンポーネントは、コミュニティバージョンとは異なります。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。EmrVersion は 0 から始まります。たとえば、バージョン 2.2 の myapp-component というオープンソースコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-2 として表示されます。

コンポーネント バージョン 説明
aws-sagemaker-spark-sdk 1.4.0 アマゾン SageMaker スパークSDK
emr-ddb 4.15.0(4.15.0) アマゾン DynamoDB Hadoopエコシステム・アプリケーション向けのコネクタです。
emr-goodies 2.13.0 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.5.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。
emr-s3-dist-cp 2.15.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 1.6.0 EMR(EMR) S3Select コネクタ
emrfs 2.43.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクター。
flink-client 1.11.0 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
flink-jobmanager-config(flink-jobmanager-config) 1.11.0 Apache FlinkのEMRノードのリソースの管理 JobManager.
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 2.10.0-amzn-0 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 2.10.0-amzn-0 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 2.10.0-amzn-0 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 2.10.0-amzn-0 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-hdfs-journalnode 2.10.0-amzn-0 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。
hadoop-httpfs-server 2.10.0-amzn-0 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 2.10.0-amzn-0 Hadoopの KeyProvider API。
hadoop-mapred 2.10.0-amzn-0 MapReduce 実行エンジン ライブラリ MapReduce アプリケーション。
hadoop-yarn-nodemanager 2.10.0-amzn-0 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 2.10.0-amzn-0 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 2.10.0-amzn-0 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 1.4.13 サービス HBase 地域の調整と管理コマンドの実行を担当するクラスタ。
hbase-region-server 1.4.13 1人または複数の人へのサービス HBase 地域。
hbase-client 1.4.13 HBase コマンド ライン クライアント。
hbase-rest-server 1.4.13 サービスを提供する RESTful のHTTPエンドポイント HBase.
hbase-thrift-server 1.4.13 Thriftエンドポイントを提供するサービス HBase.
hcatalog-client 2.3.7-amzn-1 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 2.3.7-amzn-1 サービス提供 HCatalogは、分散アプリケーション向けのテーブルおよびストレージ管理レイヤーです。
hcatalog-webhcat-server 2.3.7-amzn-1 HTTP エンドポイントが提供する REST インタフェース HCatalog.
hive-client 2.3.7-amzn-1 Hive コマンドラインクライアント。
hive-hbase 2.3.7-amzn-1 Hive-hbase クライアント。
hive-metastore-server 2.3.7-amzn-1 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 2.3.7-amzn-1 Hive クエリをウェブリクエストとして受け入れるサービス。
hudi 0.6.0-amzn-0 データパイプラインを強化する低レイテンシーかつ高効率な増分処理フレームワーク。
ヒューディ・スパーク 0.6.0-amzn-0 Spark with Hudiを実行するためのバンドルライブラリ。
hudi-presto 0.6.0-amzn-0 Presto を Hudi で実行するためのバンドルライブラリ。
hue-server 4.7.1(4.7.1) Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub 1.1.0 Jupyter ノートブックのマルチユーザーサーバー
livy-server 0.7.0-incubating Apache Spark を操作するための REST インターフェイス
nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー
mahout-client 0.13.0 機械学習用のライブラリ。
mxnet 1.6.0 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mariadb-server 5.5.64 MySQL データベース サーバー。
nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット
oozie-client 5.2.0 Oozie コマンドラインクライアント。
oozie-server 5.2.0 Oozie ワークフローリクエストを受け入れるサービス。
opencv 4.3.0 オープンソースのコンピュータビジョンライブラリ。
phoenix-library 4.14.3-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server 4.14.3-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator 0.238.3-amzn-0 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker 0.238.3-amzn-0 いくつかのクエリを実行するサービス。
presto-client 0.238.3-amzn-0 Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。
pig-client 0.17.0 Pig コマンドラインクライアント。
r 3.4.3 統計的コンピューティング用 R プロジェクト
ranger-kms-server 1.2.0 Apache Ranger Key Management System
spark-client 2.4.6-amzn-0 Spark コマンドラインクライアント。
spark-history-server 2.4.6-amzn-0 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn 2.4.6-amzn-0 YARN のメモリ内実行エンジン。
spark-yarn-slave 2.4.6-amzn-0 YARN スレーブで必要な Apache Spark ライブラリ。
sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。
tensorflow 2.1.0 TensorFlow 高性能数値計算用のオープンソース・ソフトウェア・ライブラリ。
tez-on-yarn 0.9.2 tez YARN アプリケーションおよびライブラリ。
webserver 2.4.25+ Apache HTTP サーバー。
zeppelin-server 0.8.2 インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server 3.4.14 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client 3.4.14 ZooKeeper コマンド ライン クライアント。

リリース 5.31.0 設定分類

分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、hive-site.xml など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-5.31.0 分類
分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties の設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache の Amazon EMR 設定 HBase.

hbase-env

で値を変更 HBaseの環境。

hbase-log4j

で値を変更 HBaseの hbase-log4j.properties ファイル。

hbase-metrics

で値を変更 HBaseのhadoop-metrics2-hbase.properties ファイル。

hbase-policy

で値を変更 HBaseの hbase-policy.xml ファイル。

hbase-site

で値を変更 HBaseの hbase-site.xml ファイル。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

で値を変更 HCatalogの環境。

hcatalog-server-jndi

で値を変更 HCatalogのjndi.properties。

hcatalog-server-proto-hive-site

で値を変更 HCatalogの proto-hive-site.xml。

hcatalog-webhcat-env

で値を変更 HCatalog WebHCatの環境。

hcatalog-webhcat-log4j2

で値を変更 HCatalog WebHCatの log4j2.properties。

hcatalog-webhcat-site

で値を変更 HCatalog WebHCatの webhcat-site.xml ファイル。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

hudi-env

Hudi 環境の値を変更します。

jupyter-notebook-conf

Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

で値を変更 JupyterHubsの jupyterhub_config.py ファイル。

jupyter-s3-conf

Jupyter ノートブックの S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

[ MapReduce アプリケーション環境です。

mapred-site

[ MapReduce アプリケーションのmapred-site.xmlファイル。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-env

Pig 環境の値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

ranger-kms-dbks-site

Ranger KMS の dbks-site.xml ファイルの値を変更します。

ranger-kms-site

Ranger KMS の ranger-kms-site.xml ファイルの値を変更します。

ranger-kms-env

Ranger KMS 環境の値を変更します。

ranger-kms-log4j

Ranger KMS の kms-log4j.properties ファイルの値を変更します。

ranger-kms-db-ca

S3 上の CA ファイルの値を変更 MySQL Ranger KMS との SSL 接続。

recordserver-env

EMRの値を変更 RecordServer 環境です。

recordserver-conf

EMRの値を変更 RecordServerの erver.properties ファイル。

recordserver-log4j

EMRの値を変更 RecordServerの log4j.properties ファイル。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoopで値を変更 OraOopの oraauop-site.xml ファイル。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

で値を変更 ZooKeeperのzoo.cfgファイル。

zookeeper-log4j

で値を変更 ZooKeeperの log4j.properties ファイル。

5.30.x

5.30 シリーズでは複数のリリースがあります。このタブ内で特定のリリースの情報を表示するには、以下のリンクを選択します。

5.30.1 (最新) | 5.30.0

Amazon EMR リリース 5.30.1

リリース 5.30.1 アプリケーションバージョン

このリリースでは、次のアプリケーションがサポートされています。 Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin、、および ZooKeeper.

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

リリース 5.30.1 リリースノート

次のリリースノートは、Amazon EMR リリースバージョン 5.30.1 に関する情報を記載しています。5.30.0 からの変更が含まれています。

初回リリース日: 2020 年 6 月 30 日

最終更新日: 2020 年 8 月 24 日

変更、拡張、解決した問題

  • インスタンスコントローラプロセスが無限にプロセスをスポーンする問題を修正しました。

  • Hue が Hive クエリを実行できず、「データベースがロックされています」というメッセージが表示されてクエリを実行できない問題を修正しました。

  • Spark の問題を修正し、EMR クラスターでより多くのタスクを同時に実行できるようにしました。

  • Jupyter サーバーで「開いているファイルが多すぎます」というエラーが発生する Jupyter ノートブックの問題を修正しました。

  • クラスターの開始時刻に関する問題を修正しました。

新機能

  • Tez UI および YARN タイムラインサーバー永続アプリケーションインターフェイスは、Amazon EMR バージョン 6.x および EMR バージョン 5.30.1 以降で使用できます。永続的なアプリケーション履歴へのワンクリックリンクアクセスにより、SSH 接続を介してウェブプロキシを設定することなく、ジョブ履歴にすばやくアクセスできます。アクティブなクラスターと終了したクラスターのログは、アプリケーションの終了から 30 日間使用できます。詳細については、Amazon EMR 管理ガイドの「永続アプリケーションユーザーインターフェイスの表示」を参照してください。

  • EMR Notebook 実行 API は、スクリプトまたはコマンドラインで EMR Notebooks を実行するために使用できます。AWS コンソールを使用せずに EMR ノートブックの実行を開始、停止、一覧表示、記述する機能により、EMR ノートブックをプログラムで制御できます。パラメータ化されたノートブックセルを使用すると、新しいパラメータ値のセットごとにノートブックのコピーを作成しなくても、ノートブックに異なるパラメータ値を渡すことができます。「EMR API アクション」を参照してください。 サンプルコードについては、「EMR Notebooks をプログラムで実行するためのサンプルコマンド」を参照してください。

既知の問題

  • Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.

    The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.

    Explicitly set a ulimit from the command line

    1. Edit /etc/systemd/system/instance-controller.service to add the following parameters to Service section.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Set a ulimit using bootstrap action (BA)

    You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • EMR ノートブック

    クラスターのマスターノードにカーネルと追加の Python ライブラリをインストールできる機能は、EMR バージョン 5.30.1 ではデフォルトで無効になっています。この機能の詳細については、「クラスターマスターノードへのカーネルと Python ライブラリのインストール」を参照してください。

    この機能を有効にするには、次の手順を実行します。

    1. EMR Notebooks のサービスロールにアタッチされているアクセス許可ポリシーで、次の操作が許可されていることを確認します。

      elasticmapreduce:ListSteps

      詳細については、「EMR Notebooks のサービスロール」を参照してください。

    2. AWS CLI を使用して、次の例に示すように、EMR ノートブック をセットアップするクラスターでステップを実行します。us-east-1 を、クラスターが存在するリージョンに置き換えます。詳細については、「AWS CLI を使用したクラスターへのステップの追加」を参照してください。

      aws emr add-steps --cluster-id MyClusterID --steps Type=CUSTOM_JAR,Name=EMRNotebooksSetup,ActionOnFailure=CONTINUE,Jar=s3://us-east-1.elasticmapreduce/libs/script-runner/script-runner.jar,Args=["s3://awssupportdatasvcs.com/bootstrap-actions/EMRNotebooksSetup/emr-notebooks-setup.sh"]
  • マネージドスケーリング

    Presto をインストールせずに 5.30.0 および 5.30.1 クラスターで管理されたスケーリング操作を行うと、アプリケーションの障害を引き起こしたり、均一なインスタンスグループまたはインスタンスフリートが ARRESTED 状態のままになることがあります。特に、スケールダウン操作の後、すぐにスケールアップ操作が実行される場合です。

    回避策として、ジョブの実行に Presto を必要としない場合でも、クラスターの作成時にインストールするアプリケーションとして Presto を選択します。

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

リリース 5.30.1 コンポーネントバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

Amazon EMR の一部のコンポーネントは、コミュニティバージョンとは異なります。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。EmrVersion は 0 から始まります。たとえば、バージョン 2.2 の myapp-component というオープンソースコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-2 として表示されます。

コンポーネント Version 説明:
aws-sagemaker-spark-sdk 1.3.0 Amazon SageMaker Spark SDK
emr-ddb 4.14.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクター。
emr-goodies 2.13.0 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.5.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。
emr-s3-dist-cp 2.14.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 1.5.0 EMR S3Select コネクター
emrfs 2.40.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクター。
flink-client 1.10.0 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 2.8.5-amzn-6 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 2.8.5-amzn-6 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 2.8.5-amzn-6 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 2.8.5-amzn-6 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-hdfs-journalnode 2.8.5-amzn-6 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。
hadoop-httpfs-server 2.8.5-amzn-6 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 2.8.5-amzn-6 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred 2.8.5-amzn-6 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager 2.8.5-amzn-6 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 2.8.5-amzn-6 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 2.8.5-amzn-6 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 1.4.13 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server 1.4.13 1 つ以上の HBase リージョンに対応するサービス。
hbase-client 1.4.13 HBase コマンドラインクライアント。
hbase-rest-server 1.4.13 HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server 1.4.13 HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client 2.3.6-amzn-2 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 2.3.6-amzn-2 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server 2.3.6-amzn-2 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client 2.3.6-amzn-2 Hive コマンドラインクライアント。
hive-hbase 2.3.6-amzn-2 Hive-hbase クライアント。
hive-metastore-server 2.3.6-amzn-2 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 2.3.6-amzn-2 Hive クエリをウェブリクエストとして受け入れるサービス。
hudi 0.5.2-incubating データパイプラインを強化する低レイテンシーかつ高効率な増分処理フレームワーク。
hudi-presto 0.5.2-incubating Presto を Hudi で実行するためのバンドルライブラリ。
hue-server 4.6.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub 1.1.0 Jupyter ノートブックのマルチユーザーサーバー
livy-server 0.7.0-incubating Apache Spark を操作するための REST インターフェイス
nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー
mahout-client 0.13.0 機械学習用のライブラリ。
mxnet. 1.5.1 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mariadb-server 5.5.64 MySQL データベースサーバー。
nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット
oozie-client 5.2.0 Oozie コマンドラインクライアント。
oozie-server 5.2.0 Oozie ワークフローリクエストを受け入れるサービス。
opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。
phoenix-library 4.14.3-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server 4.14.3-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator 0.232 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker 0.232 いくつかのクエリを実行するサービス。
presto-client 0.232 Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。
pig-client 0.17.0 Pig コマンドラインクライアント。
r 3.4.3 統計的コンピューティング用 R プロジェクト
ranger-kms-server 1.2.0 Apache Ranger Key Management System
spark-client 2.4.5-amzn-0 Spark コマンドラインクライアント。
spark-history-server 2.4.5-amzn-0 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn 2.4.5-amzn-0 YARN のメモリ内実行エンジン。
spark-yarn-slave 2.4.5-amzn-0 YARN スレーブで必要な Apache Spark ライブラリ。
sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。
tensorflow 1.14.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。
tez-on-yarn 0.9.2 tez YARN アプリケーションおよびライブラリ。
webserver 2.4.25+ Apache HTTP サーバー。
zeppelin-server 0.8.2 インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server 3.4.14 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client 3.4.14 ZooKeeper コマンドラインクライアント。

リリース 5.30.1 設定分類

分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、hive-site.xml など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-5.30.1 の分類
分類 説明:

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties の設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

HBase の環境の値を変更します。

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

HCatalog 環境の値を変更します。

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

hudi-env

Hudi 環境の値を変更します。

jupyter-notebook-conf

Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

JupyterHubs の jupyterhub_config.py ファイルの値を変更します。

jupyter-s3-conf

Jupyter ノートブックの S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-env

Pig 環境の値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

ranger-kms-dbks-site

Ranger KMS の dbks-site.xml ファイルの値を変更します。

ranger-kms-site

Ranger KMS の ranger-kms-site.xml ファイルの値を変更します。

ranger-kms-env

Ranger KMS 環境の値を変更します。

ranger-kms-log4j

Ranger KMS の kms-log4j.properties ファイルの値を変更します。

ranger-kms-db-ca

Ranger KMS を使用した MySQL SSL 接続用の S3 の CA ファイルの値を変更します。

recordserver-env

EMR RecordServer 環境の値を変更します。

recordserver-conf

EMR RecordServer の erver.properties ファイルの値を変更します。

recordserver-log4j

EMR RecordServer の log4j.properties ファイルの値を変更します。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

ZooKeeper の zoo.cfg ファイルの値を変更します。

zookeeper-log4j

ZooKeeper の log4j.properties ファイルの値を変更します。

Amazon EMR リリース 5.30.0

リリース 5.30.0 アプリケーションバージョン

このリリースでは、次のアプリケーションがサポートされています。 Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin、、および ZooKeeper.

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

リリース 5.30.0 リリースノート

次のリリースノートは、Amazon EMR リリースバージョン 5.30.0 に関する情報を記載しています。5.29.0 からの変更が含まれています。

初回リリース日: 2020 年 5 月 13 日

最終更新日: 2020 年 6 月 25 日

アップグレード

  • AWS SDK for Java をバージョン 1.11.759 にアップグレードしました

  • Amazon SageMaker Spark SDK をバージョン 1.3.0 にアップグレードしました

  • EMR Record Server をバージョン 1.6.0 にアップグレードしました

  • Flink をバージョン 1.10.0 にアップグレードしました

  • Ganglia をバージョン 3.7.2 にアップグレードしました

  • HBase をバージョン 1.4.13 にアップグレードしました

  • Hudi をバージョン 0.5.2 (incubating) にアップグレードしました

  • Hue をバージョン 4.6.0 にアップグレードしました

  • JupyterHub をバージョン 1.1.0 にアップグレードしました

  • Livy をバージョン 0.7.0 (incubating) にアップグレードしました

  • Oozie をバージョン 5.2.0 にアップグレードしました

  • Presto をバージョン 0.232 にアップグレードしました

  • Spark をバージョン 2.4.5 にアップグレードしました

  • コネクタとドライバーをアップグレードしました: Amazon Glue Connector 1.12.0、Amazon Kinesis Connector 3.5.0、EMR DynamoDB Connector 4.14.0

新機能

  • EMR Notebooks – 5.30.0 を使用して作成された EMR クラスターで使用すると、EMR ノートブック カーネルはクラスター上で実行されます。これにより、ノートブックのパフォーマンスが向上し、カーネルをインストールおよびカスタマイズすることができます。また、クラスターのマスターノードに Python ライブラリをインストールすることもできます。詳細については、EMR 管理ガイドの「カーネルとライブラリのインストールと使用」を参照してください。

  • マネージドスケーリング – Amazon EMR バージョン 5.30.0 以降では、EMR マネージドスケーリングを有効にすることで、ワークロードに応じてクラスター内のインスタンスやユニットの数を自動的に増減できます。EMR は引き続きクラスターのメトリクスを評価し、クラスターのコストと速度を最適化するためのスケーリングを決定します。詳細については、Amazon EMR 管理ガイドの「クラスターリソースのスケーリング」を参照してください。

  • Amazon S3 に保存されているログファイルの暗号化 – Amazon EMR バージョン 5.30.0 以降では、AWS KMS カスタマー管理キーを使用して Amazon S3 に格納されたログファイルを暗号化することができます。詳細については、Amazon EMR 管理ガイド の「Amazon S3 に保存されているログファイルを暗号化する」を参照してください。

  • Amazon Linux 2 のサポート –EMR バージョン 5.30.0 以降では、Amazon Linux 2 OS を使用します。新しいカスタム AMI (Amazon マシンイメージ) は、Amazon Linux 2 AMI に基づいている必要があります。詳細については、「カスタム AMI の使用」を参照してください。

  • Presto Graceful Auto Scale – 5.30.0 を使用する EMR クラスターでは、Auto Scaling タイムアウト期間を設定することで、Presto タスクの実行が終了するまで待ってからノードの使用を停止できます。詳細については、「グレースフルな廃止による Presto Auto Scaling の使用」を参照してください。

  • 新しい割り当て戦略オプションを使用したフリートインスタンスの作成 – 新しい割り当て戦略オプションは、EMR バージョン 5.12.1 以降で使用できます。これにより、より高速なクラスターのプロビジョニング、より正確なスポット割り当て、より少ないスポットインスタンスの中断を実現できます。デフォルト以外の EMR サービスロールの更新が必要です。「インスタンスフリートを設定する」を参照してください。

  • sudo systemctl stop および sudo systemctl start コマンド– Amazon Linux 2 OS を使用する EMR バージョン 5.30.0 以降では、EMR は sudo systemctl stop および sudo systemctl start コマンドを使用してサービスを再起動します。詳細については、「Amazon EMR のサービスを再起動するにはどうすればよいですか?」を参照してください。

変更、拡張、解決した問題

  • EMR バージョン 5.30.0 では、デフォルトで Ganglia がインストールされません。クラスターの作成時に、Ganglia を明示的に選択してインストールできます。

  • Spark パフォーマンスの最適化。

  • Presto パフォーマンスの最適化。

  • Amazon EMR バージョン 5.30.0 以降では、Python 3 がデフォルトです。

  • プライベートサブネット内のサービスアクセス用のデフォルトのマネージドセキュリティグループが更新され、複数の新しいルールが追加されました。サービスアクセスにカスタムセキュリティグループを使用している場合は、同じルールをデフォルトのマネージドセキュリティグループとして含める必要があります。詳細については、「サービスアクセスの Amazon EMR マネージドセキュリティグループ (プライベートサブネット)」を参照してください。Amazon EMR でカスタムサービスロールを使用している場合は、ec2:describeSecurityGroups にアクセス許可を付与して、セキュリティグループが正常に作成されたかどうかを EMR で検証できるようにする必要があります。EMR_DefaultRole を使用する場合、このアクセス許可はデフォルトのマネージドポリシーに既に含まれています。

既知の問題

  • Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.

    The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.

    Explicitly set a ulimit from the command line

    1. Edit /etc/systemd/system/instance-controller.service to add the following parameters to Service section.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Set a ulimit using bootstrap action (BA)

    You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • マネージドスケーリング

    Presto をインストールせずに 5.30.0 および 5.30.1 クラスターで管理されたスケーリング操作を行うと、アプリケーションの障害を引き起こしたり、均一なインスタンスグループまたはインスタンスフリートが ARRESTED 状態のままになることがあります。特に、スケールダウン操作の後、すぐにスケールアップ操作が実行される場合です。

    回避策として、ジョブの実行に Presto を必要としない場合でも、クラスターの作成時にインストールするアプリケーションとして Presto を選択します。

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

リリース 5.30.0 コンポーネントバージョン

コンポーネント Version 説明:
aws-sagemaker-spark-sdk 1.3.0 Amazon SageMaker Spark SDK
emr-ddb 4.14.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクター。
emr-goodies 2.13.0 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.5.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。
emr-notebook-env 1.0.0 EMR ノートブック用 Conda env
emr-s3-dist-cp 2.14.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 1.5.0 EMR S3Select コネクター
emrfs 2.40.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクター。
flink-client 1.10.0 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 2.8.5-amzn-6 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 2.8.5-amzn-6 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 2.8.5-amzn-6 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 2.8.5-amzn-6 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-hdfs-journalnode 2.8.5-amzn-6 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。
hadoop-httpfs-server 2.8.5-amzn-6 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 2.8.5-amzn-6 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred 2.8.5-amzn-6 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager 2.8.5-amzn-6 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 2.8.5-amzn-6 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 2.8.5-amzn-6 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 1.4.13 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server 1.4.13 1 つ以上の HBase リージョンに対応するサービス。
hbase-client 1.4.13 HBase コマンドラインクライアント。
hbase-rest-server 1.4.13 HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server 1.4.13 HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client 2.3.6-amzn-2 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 2.3.6-amzn-2 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server 2.3.6-amzn-2 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client 2.3.6-amzn-2 Hive コマンドラインクライアント。
hive-hbase 2.3.6-amzn-2 Hive-hbase クライアント。
hive-metastore-server 2.3.6-amzn-2 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 2.3.6-amzn-2 Hive クエリをウェブリクエストとして受け入れるサービス。
hudi 0.5.2-incubating データパイプラインを強化する低レイテンシーかつ高効率な増分処理フレームワーク。
hudi-presto 0.5.2-incubating Presto を Hudi で実行するためのバンドルライブラリ。
hue-server 4.6.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub 1.1.0 Jupyter ノートブックのマルチユーザーサーバー
livy-server 0.7.0-incubating Apache Spark を操作するための REST インターフェイス
nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー
mahout-client 0.13.0 機械学習用のライブラリ。
mxnet. 1.5.1 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mariadb-server 5.5.64 MySQL データベースサーバー。
nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット
oozie-client 5.2.0 Oozie コマンドラインクライアント。
oozie-server 5.2.0 Oozie ワークフローリクエストを受け入れるサービス。
opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。
phoenix-library 4.14.3-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server 4.14.3-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator 0.232 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker 0.232 いくつかのクエリを実行するサービス。
presto-client 0.232 Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。
pig-client 0.17.0 Pig コマンドラインクライアント。
r 3.4.3 統計的コンピューティング用 R プロジェクト
ranger-kms-server 1.2.0 Apache Ranger Key Management System
spark-client 2.4.5-amzn-0 Spark コマンドラインクライアント。
spark-history-server 2.4.5-amzn-0 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn 2.4.5-amzn-0 YARN のメモリ内実行エンジン。
spark-yarn-slave 2.4.5-amzn-0 YARN スレーブで必要な Apache Spark ライブラリ。
sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。
tensorflow 1.14.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。
tez-on-yarn 0.9.2 tez YARN アプリケーションおよびライブラリ。
webserver 2.4.25+ Apache HTTP サーバー。
zeppelin-server 0.8.2 インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server 3.4.14 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client 3.4.14 ZooKeeper コマンドラインクライアント。

リリース 5.30.0 設定分類

分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、hive-site.xml など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-5.30.0 の分類
分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties の設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

HBase の環境の値を変更します。

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

HCatalog 環境の値を変更します。

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

hudi-env

Hudi 環境の値を変更します。

jupyter-notebook-conf

Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

JupyterHubs の jupyterhub_config.py ファイルの値を変更します。

jupyter-s3-conf

Jupyter ノートブックの S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-env

Pig 環境の値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

ranger-kms-dbks-site

Ranger KMS の dbks-site.xml ファイルの値を変更します。

ranger-kms-site

Ranger KMS の ranger-kms-site.xml ファイルの値を変更します。

ranger-kms-env

Ranger KMS 環境の値を変更します。

ranger-kms-log4j

Ranger KMS の kms-log4j.properties ファイルの値を変更します。

ranger-kms-db-ca

Ranger KMS を使用した MySQL SSL 接続用の S3 の CA ファイルの値を変更します。

recordserver-env

EMR RecordServer 環境の値を変更します。

recordserver-conf

EMR RecordServer の erver.properties ファイルの値を変更します。

recordserver-log4j

EMR RecordServer の log4j.properties ファイルの値を変更します。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

ZooKeeper の zoo.cfg ファイルの値を変更します。

zookeeper-log4j

ZooKeeper の log4j.properties ファイルの値を変更します。

5.29.0

5.29.0 アプリケーションバージョン

このリリースでは、次のアプリケーションがサポートされています。 Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin、、および ZooKeeper.

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

5.29.0 リリースノート

次のリリースノートには、Amazon EMR リリースバージョン 5.29.0 に関する情報が含まれています。変更は 5.28.1 に関連するものです。

初回リリース日: 2020 年 1 月 17 日

アップグレード

  • AWS Java SDK を 1.11.682 にアップグレードしました

  • Hive をバージョン 2.3.6 にアップグレードしました

  • Flink をバージョン 1.9.1 にアップグレードしました

  • EmrFS をバージョン 2.38.0 にアップグレードしました

  • EMR DynamoDB Connector をバージョン 4.13.0 にアップグレードしました

変更、拡張、解決した問題

  • Spark

    • Spark パフォーマンスの最適化。

  • EMRFS

    • 整合性のあるビューが得られるように管理ガイドを emrfs-site.xml デフォルト設定に更新します。

既知の問題

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

5.29.0 コンポーネントバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

Amazon EMR の一部のコンポーネントは、コミュニティバージョンとは異なります。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。EmrVersion は 0 から始まります。たとえば、バージョン 2.2 の myapp-component というオープンソースコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-2 として表示されます。

コンポーネント バージョン 説明
aws-sagemaker-spark-sdk 1.2.6 Amazon SageMaker Spark SDK
emr-ddb 4.13.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクター。
emr-goodies 2.12.0 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.4.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。
emr-s3-dist-cp 2.13.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 1.4.0 EMR S3Select コネクター
emrfs 2.38.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクター。
flink-client 1.9.1 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 2.8.5-amzn-5 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 2.8.5-amzn-5 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 2.8.5-amzn-5 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 2.8.5-amzn-5 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-hdfs-journalnode 2.8.5-amzn-5 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。
hadoop-httpfs-server 2.8.5-amzn-5 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 2.8.5-amzn-5 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred 2.8.5-amzn-5 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager 2.8.5-amzn-5 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 2.8.5-amzn-5 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 2.8.5-amzn-5 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 1.4.10 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server 1.4.10 1 つ以上の HBase リージョンに対応するサービス。
hbase-client 1.4.10 HBase コマンドラインクライアント。
hbase-rest-server 1.4.10 HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server 1.4.10 HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client 2.3.6-amzn-1 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 2.3.6-amzn-1 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server 2.3.6-amzn-1 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client 2.3.6-amzn-1 Hive コマンドラインクライアント。
hive-hbase 2.3.6-amzn-1 Hive-hbase クライアント。
hive-metastore-server 2.3.6-amzn-1 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 2.3.6-amzn-1 Hive クエリをウェブリクエストとして受け入れるサービス。
hudi 0.5.0-incubating データパイプラインを強化する低レイテンシーかつ高効率な増分処理フレームワーク。
hudi-presto 0.5.0-incubating Presto を Hudi で実行するためのバンドルライブラリ。
hue-server 4.4.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub 1.0.0 Jupyter ノートブックのマルチユーザーサーバー
livy-server 0.6.0-incubating Apache Spark を操作するための REST インターフェイス
nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー
mahout-client 0.13.0 機械学習用のライブラリ。
mxnet 1.5.1 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mysql-server 5.5.54+ MySQL データベースサーバー。
nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット
oozie-client 5.1.0 Oozie コマンドラインクライアント。
oozie-server 5.1.0 Oozie ワークフローリクエストを受け入れるサービス。
opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。
phoenix-library 4.14.3-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server 4.14.3-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator 0.227 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker 0.227 いくつかのクエリを実行するサービス。
presto-client 0.227 Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。
pig-client 0.17.0 Pig コマンドラインクライアント。
r 3.4.1 統計的コンピューティング用 R プロジェクト
spark-client 2.4.4 Spark コマンドラインクライアント。
spark-history-server 2.4.4 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn 2.4.4 YARN のメモリ内実行エンジン。
spark-yarn-slave 2.4.4 YARN スレーブで必要な Apache Spark ライブラリ。
sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。
tensorflow 1.14.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。
tez-on-yarn 0.9.2 tez YARN アプリケーションおよびライブラリ。
webserver 2.4.25+ Apache HTTP サーバー。
zeppelin-server 0.8.2 インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server 3.4.14 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client 3.4.14 ZooKeeper コマンドラインクライアント。

5.29.0 設定分類

分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、hive-site.xml など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-5.29.0 分類
分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties の設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

HBase の環境の値を変更します。

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

HCatalog 環境の値を変更します。

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

jupyter-notebook-conf

Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

JupyterHubs の jupyterhub_config.py ファイルの値を変更します。

jupyter-s3-conf

Jupyter ノートブックの S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-env

Pig 環境の値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

ranger-kms-dbks-site

Ranger KMS の dbks-site.xml ファイルの値を変更します。

ranger-kms-site

Ranger KMS の ranger-kms-site.xml ファイルの値を変更します。

ranger-kms-env

Ranger KMS 環境の値を変更します。

ranger-kms-log4j

Ranger KMS の kms-log4j.properties ファイルの値を変更します。

ranger-kms-db-ca

Ranger KMS を使用した MySQL SSL 接続用の S3 の CA ファイルの値を変更します。

recordserver-env

EMR RecordServer 環境の値を変更します。

recordserver-conf

EMR RecordServer の erver.properties ファイルの値を変更します。

recordserver-log4j

EMR RecordServer の log4j.properties ファイルの値を変更します。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

ZooKeeper の zoo.cfg ファイルの値を変更します。

zookeeper-log4j

ZooKeeper の log4j.properties ファイルの値を変更します。

5.28.x

5.28 シリーズでは複数のリリースがあります。このタブ内で特定のリリースの情報を表示するには、以下のリンクを選択します。

5.28.1 (最新) | 5.28.0

Amazon EMR リリース 5.28.1

リリース 5.28.1 アプリケーションバージョン

このリリースでは、次のアプリケーションがサポートされています。 Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin、、および ZooKeeper.

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

リリース 5.28.1 リリースノート

次のリリースノートには、Amazon EMR リリースバージョン 5.28.1 に関する情報が含まれています。変更は 5.28.0 に関連するものです。

初回リリース日: 2020 年 1 月 10 日

変更、拡張、解決した問題

  • Spark

    • Spark の互換性の問題が修正されました。

  • CloudWatch Metrics

    • 複数のマスターノードを持つ EMR クラスターでの Amazon CloudWatch メトリクスの発行が修正されました。

  • 無効にされたログメッセージ

    • 無効にされたログメッセージ、「...Apache http クライアントの古いバージョン (4.5.8 より前) を使用。」

既知の問題

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

リリース 5.28.1 コンポーネントバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

Amazon EMR の一部のコンポーネントは、コミュニティバージョンとは異なります。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。EmrVersion は 0 から始まります。たとえば、バージョン 2.2 の myapp-component というオープンソースコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-2 として表示されます。

コンポーネント バージョン 説明
aws-sagemaker-spark-sdk 1.2.6 Amazon SageMaker Spark SDK
emr-ddb 4.12.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクタ。
emr-goodies 2.11.0 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.4.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。
emr-s3-dist-cp 2.13.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 1.3.0 EMR S3Select コネクター
emrfs 2.37.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。
flink-client 1.9.0 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 2.8.5-amzn-5 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 2.8.5-amzn-5 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 2.8.5-amzn-5 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 2.8.5-amzn-5 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-hdfs-journalnode 2.8.5-amzn-5 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。
hadoop-httpfs-server 2.8.5-amzn-5 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 2.8.5-amzn-5 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred 2.8.5-amzn-5 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager 2.8.5-amzn-5 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 2.8.5-amzn-5 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 2.8.5-amzn-5 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 1.4.10 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server 1.4.10 1 つ以上の HBase リージョンに対応するサービス。
hbase-client 1.4.10 HBase コマンドラインクライアント。
hbase-rest-server 1.4.10 HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server 1.4.10 HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client 2.3.6-amzn-0 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 2.3.6-amzn-0 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server 2.3.6-amzn-0 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client 2.3.6-amzn-0 Hive コマンドラインクライアント。
hive-hbase 2.3.6-amzn-0 Hive-hbase クライアント。
hive-metastore-server 2.3.6-amzn-0 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 2.3.6-amzn-0 Hive クエリをウェブリクエストとして受け入れるサービス。
hudi 0.5.0-incubating データパイプラインを強化する低レイテンシーかつ高効率な増分処理フレームワーク。
hudi-presto 0.5.0-incubating Presto を Hudi で実行するためのバンドルライブラリ。
hue-server 4.4.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub 1.0.0 Jupyter ノートブックのマルチユーザーサーバー
livy-server 0.6.0-incubating Apache Spark を操作するための REST インターフェイス
nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー
mahout-client 0.13.0 機械学習用のライブラリ。
mxnet 1.5.1 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mysql-server 5.5.54+ MySQL データベースサーバー。
nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット
oozie-client 5.1.0 Oozie コマンドラインクライアント。
oozie-server 5.1.0 Oozie ワークフローリクエストを受け入れるサービス。
opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。
phoenix-library 4.14.3-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server 4.14.3-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator 0.227 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker 0.227 いくつかのクエリを実行するサービス。
presto-client 0.227 Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。
pig-client 0.17.0 Pig コマンドラインクライアント。
r 3.4.1 統計的コンピューティング用 R プロジェクト
spark-client 2.4.4 Spark コマンドラインクライアント。
spark-history-server 2.4.4 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn 2.4.4 YARN のメモリ内実行エンジン。
spark-yarn-slave 2.4.4 YARN スレーブで必要な Apache Spark ライブラリ。
sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。
tensorflow 1.14.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。
tez-on-yarn 0.9.2 tez YARN アプリケーションおよびライブラリ。
webserver 2.4.25+ Apache HTTP サーバー。
zeppelin-server 0.8.2 インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server 3.4.14 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client 3.4.14 ZooKeeper コマンドラインクライアント。

リリース 5.28.1 設定分類

分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、hive-site.xml など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-5.28.1 分類
分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties の設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

HBase の環境の値を変更します。

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

HCatalog 環境の値を変更します。

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

jupyter-notebook-conf

Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

JupyterHubs の jupyterhub_config.py ファイルの値を変更します。

jupyter-s3-conf

Jupyter ノートブックの S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-env

Pig 環境の値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

ranger-kms-dbks-site

Ranger KMS の dbks-site.xml ファイルの値を変更します。

ranger-kms-site

Ranger KMS の ranger-kms-site.xml ファイルの値を変更します。

ranger-kms-env

Ranger KMS 環境の値を変更します。

ranger-kms-log4j

Ranger KMS の kms-log4j.properties ファイルの値を変更します。

ranger-kms-db-ca

Ranger KMS を使用した MySQL SSL 接続用の S3 の CA ファイルの値を変更します。

recordserver-env

EMR RecordServer 環境の値を変更します。

recordserver-conf

EMR RecordServer の erver.properties ファイルの値を変更します。

recordserver-log4j

EMR RecordServer の log4j.properties ファイルの値を変更します。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

ZooKeeper の zoo.cfg ファイルの値を変更します。

zookeeper-log4j

ZooKeeper の log4j.properties ファイルの値を変更します。

Amazon EMR リリース 5.28.0

リリース 5.28.0 アプリケーションバージョン

このリリースでは、次のアプリケーションがサポートされています。 Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin、、および ZooKeeper.

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

リリース 5.28.0 リリースノート

次のリリースノートには、Amazon EMR リリースバージョン 5.28.0 に関する情報が含まれています。変更は 5.27.0 に関連するものです。

初回リリース日: 2019 年 11 月 12 日

アップグレード

  • Flink をバージョン 1.9.0 にアップグレードしました

  • Hive をバージョン 2.3.6 にアップグレードしました

  • MXNet をバージョン 1.5.1 にアップグレードしました

  • Phoenix をバージョン 4.14.3 にアップグレードしました

  • Presto をバージョン 0.227 にアップグレードしました

  • Zeppelin をバージョン 0.8.2 にアップグレードしました

新機能

  • クラスターを作成するときに、Apache Hudi を利用して Amazon EMR をインストールできるようになりました。詳細については、「Hudi」を参照してください。

  • (2019 年 11 月 25 日) 複数のステップを並行して選択して、クラスター使用率を改善し、コストを削減できるようになりました。また、保留中および実行中のステップの両方をキャンセルできるようになりました。詳細については、「AWS CLI およびコンソールを使用した手順の作業」を参照してください。

  • (2019 年 12 月 3 日) AWS Outposts で EMR クラスターを作成し、実行できるようになりました。AWS Outposts は、ネイティブの AWS のサービス、インフラストラクチャ、運用モデルをオンプレミス施設で実現します。AWS Outposts 環境では、AWS クラウドで使用するのと同じ AWS API、ツール、インフラストラクチャを使用できます。詳細については、「AWS Outposts 上の EMR クラスター」を参照してください。

  • (2020 年 3 月 11 日) Amazon EMR バージョン 5.28.0 以降では、ローカルゾーン をサポートする AWS リージョンの論理的延長として、AWS Local Zones サブネットで Amazon EMR クラスターを作成および実行できます。ローカルゾーン を使用すると、Amazon EMR 機能と AWS のサービスのサブセット (コンピューティングサービスやストレージサービスなど) をユーザーの近くに配置して、ローカルで実行されるアプリケーションに非常に低いレイテンシーでアクセスできます。使用可能な ローカルゾーン のリストについては、「AWS Local Zones」を参照してください。使用可能な AWS Local Zones へのアクセスの詳細については、「リージョン、アベイラビリティーゾーン、およびローカルゾーン」を参照してください。

    ローカルゾーン は、現在、Amazon EMR Notebooks をサポートしていません。また、インターフェイス VPC エンドポイント (AWS PrivateLink) を使用した Amazon EMR への直接接続もサポートしていません。

変更、拡張、解決した問題

既知の問題

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

リリース 5.28.0 コンポーネントバージョン

コンポーネント バージョン 説明
aws-sagemaker-spark-sdk 1.2.6 Amazon SageMaker Spark SDK
emr-ddb 4.12.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクタ。
emr-goodies 2.11.0 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.4.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。
emr-s3-dist-cp 2.13.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 1.3.0 EMR S3Select コネクター
emrfs 2.37.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。
flink-client 1.9.0 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 2.8.5-amzn-5 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 2.8.5-amzn-5 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 2.8.5-amzn-5 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 2.8.5-amzn-5 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-hdfs-journalnode 2.8.5-amzn-5 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。
hadoop-httpfs-server 2.8.5-amzn-5 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 2.8.5-amzn-5 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred 2.8.5-amzn-5 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager 2.8.5-amzn-5 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 2.8.5-amzn-5 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 2.8.5-amzn-5 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 1.4.10 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server 1.4.10 1 つ以上の HBase リージョンに対応するサービス。
hbase-client 1.4.10 HBase コマンドラインクライアント。
hbase-rest-server 1.4.10 HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server 1.4.10 HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client 2.3.6-amzn-0 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 2.3.6-amzn-0 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server 2.3.6-amzn-0 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client 2.3.6-amzn-0 Hive コマンドラインクライアント。
hive-hbase 2.3.6-amzn-0 Hive-hbase クライアント。
hive-metastore-server 2.3.6-amzn-0 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 2.3.6-amzn-0 Hive クエリをウェブリクエストとして受け入れるサービス。
hudi 0.5.0-incubating データパイプラインを強化する低レイテンシーかつ高効率な増分処理フレームワーク。
hudi-presto 0.5.0-incubating Presto を Hudi で実行するためのバンドルライブラリ。
hue-server 4.4.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub 1.0.0 Jupyter ノートブックのマルチユーザーサーバー
livy-server 0.6.0-incubating Apache Spark を操作するための REST インターフェイス
nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー
mahout-client 0.13.0 機械学習用のライブラリ。
mxnet 1.5.1 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mysql-server 5.5.54+ MySQL データベースサーバー。
nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット
oozie-client 5.1.0 Oozie コマンドラインクライアント。
oozie-server 5.1.0 Oozie ワークフローリクエストを受け入れるサービス。
opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。
phoenix-library 4.14.3-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server 4.14.3-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator 0.227 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker 0.227 いくつかのクエリを実行するサービス。
presto-client 0.227 Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。
pig-client 0.17.0 Pig コマンドラインクライアント。
r 3.4.1 統計的コンピューティング用 R プロジェクト
spark-client 2.4.4 Spark コマンドラインクライアント。
spark-history-server 2.4.4 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn 2.4.4 YARN のメモリ内実行エンジン。
spark-yarn-slave 2.4.4 YARN スレーブで必要な Apache Spark ライブラリ。
sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。
tensorflow 1.14.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。
tez-on-yarn 0.9.2 tez YARN アプリケーションおよびライブラリ。
webserver 2.4.25+ Apache HTTP サーバー。
zeppelin-server 0.8.2 インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server 3.4.14 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client 3.4.14 ZooKeeper コマンドラインクライアント。

リリース 5.28.0 設定分類

分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、hive-site.xml など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-5.28.0 分類
分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties の設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

HBase の環境の値を変更します。

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

HCatalog 環境の値を変更します。

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

jupyter-notebook-conf

Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

JupyterHubs の jupyterhub_config.py ファイルの値を変更します。

jupyter-s3-conf

Jupyter ノートブックの S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-env

Pig 環境の値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

ranger-kms-dbks-site

Ranger KMS の dbks-site.xml ファイルの値を変更します。

ranger-kms-site

Ranger KMS の ranger-kms-site.xml ファイルの値を変更します。

ranger-kms-env

Ranger KMS 環境の値を変更します。

ranger-kms-log4j

Ranger KMS の kms-log4j.properties ファイルの値を変更します。

ranger-kms-db-ca

Ranger KMS を使用した MySQL SSL 接続用の S3 の CA ファイルの値を変更します。

recordserver-env

EMR RecordServer 環境の値を変更します。

recordserver-conf

EMR RecordServer の erver.properties ファイルの値を変更します。

recordserver-log4j

EMR RecordServer の log4j.properties ファイルの値を変更します。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

ZooKeeper の zoo.cfg ファイルの値を変更します。

zookeeper-log4j

ZooKeeper の log4j.properties ファイルの値を変更します。

5.27.0

5.27.0 アプリケーションバージョン

このリリースでは、次のアプリケーションがサポートされています。 Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin、、および ZooKeeper.

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

5.27.0 リリースノート

次のリリースノートには、Amazon EMR リリースバージョン 5.27.0 に関する情報が含まれています。変更は 5.26.0 に関連するものです。

初回リリース日: 2019 年 9 月 23 日

アップグレード

  • AWS SDK for Java 1.11.615

  • Flink 1.8.1

  • JupyterHub 1.0.0

  • Spark 2.4.4

  • Tensorflow 1.14.0

  • コネクタおよびドライバ:

    • DynamoDB コネクタ 4.12.0

新機能

  • (2019 年 10 月 24 日) EMR ノートブックの次の新機能が、すべての Amazon EMR リリースで利用可能になりました。

    • インスタンスメタデータサービス (IMDS) V2 のサポートステータス: Amazon EMR 5.23.1、5.27.1、5.32 以降のコンポーネントは、すべての IMDS 呼び出しで IMDSv2 を使用します。アプリケーションコードでの IMDS 呼び出しの場合、IMDSv1 と IMDSv2 の両方を使用するか、セキュリティを強化するために IMDSv2 のみを使用するように IMDS を設定できます。その他の 5.x EMR リリースでは、IMDSv1 を無効にすると、クラスターの起動に失敗します。

    • これにより、Git リポジトリを EMR ノートブックに関連付けて、バージョン管理された環境でノートブックを保存できます。リモート Git レポジトリを通じてコードを同僚と共有し、既存の Jupyter ノートブックを再利用できます。詳細については、Amazon EMR 管理ガイドの「Git リポジトリを Amazon EMR ノートブックインスタンスに関連付ける」を参照してください。

    • nbdime utility を EMR Notebooks で利用して、ノートブックの比較とマージを簡略化できるようになりました。Â

    • EMR ノートブックが JupyterLab をサポートしました。JupyterLab は、Jupyter ノートブックと完全に互換性があるウェブベースのインターラクティブ開発環境です。JupyterLab または Jupyter ノートブックエディタのいずれかでノートブックを開くことを選択できるようになりました。

  • (2019 年 10 月 30 日) Amazon EMR バージョン 5.25.0 以降では、コンソールでクラスターの [Summary (概要)] ページまたは [Application history (アプリケーション履歴)] タブから Spark 履歴サーバー UI に接続できます。SSH 接続を通じてウェブプロキシをセットアップする代わりに、Spark 履歴サーバー UI にすばやくアクセスしてアプリケーションメトリクスを表示し、アクティブなクラスターや終了したクラスターの該当するログファイルにアクセスできます。詳細については、Amazon EMR 管理ガイドの「永続アプリケーションユーザインターフェイスへのクラスター外アクセス」を参照してください。

変更、拡張、解決した問題

既知の問題

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

5.27.0 コンポーネントバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

Amazon EMR の一部のコンポーネントは、コミュニティバージョンとは異なります。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。EmrVersion は 0 から始まります。たとえば、バージョン 2.2 の myapp-component というオープンソースコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-2 として表示されます。

コンポーネント バージョン 説明
aws-sagemaker-spark-sdk 1.2.4 Amazon SageMaker Spark SDK
emr-ddb 4.12.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクタ。
emr-goodies 2.11.0 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.4.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクタ。
emr-s3-dist-cp 2.13.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 1.3.0 EMR S3Select コネクター
emrfs 2.36.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。
flink-client 1.8.1 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 2.8.5-amzn-4 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 2.8.5-amzn-4 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 2.8.5-amzn-4 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 2.8.5-amzn-4 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-hdfs-journalnode 2.8.5-amzn-4 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。
hadoop-httpfs-server 2.8.5-amzn-4 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 2.8.5-amzn-4 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred 2.8.5-amzn-4 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager 2.8.5-amzn-4 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 2.8.5-amzn-4 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 2.8.5-amzn-4 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 1.4.10 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server 1.4.10 1 つ以上の HBase リージョンに対応するサービス。
hbase-client 1.4.10 HBase コマンドラインクライアント。
hbase-rest-server 1.4.10 HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server 1.4.10 HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client 2.3.5-amzn-1 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 2.3.5-amzn-1 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server 2.3.5-amzn-1 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client 2.3.5-amzn-1 Hive コマンドラインクライアント。
hive-hbase 2.3.5-amzn-1 Hive-hbase クライアント。
hive-metastore-server 2.3.5-amzn-1 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 2.3.5-amzn-1 Hive クエリをウェブリクエストとして受け入れるサービス。
hue-server 4.4.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub 1.0.0 Jupyter ノートブックのマルチユーザーサーバー
livy-server 0.6.0-incubating Apache Spark を操作するための REST インターフェイス
nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー
mahout-client 0.13.0 機械学習用のライブラリ。
mxnet 1.4.0 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mysql-server 5.5.54+ MySQL データベースサーバー。
nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット
oozie-client 5.1.0 Oozie コマンドラインクライアント。
oozie-server 5.1.0 Oozie ワークフローリクエストを受け入れるサービス。
opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。
phoenix-library 4.14.2-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server 4.14.2-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator 0.224 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker 0.224 いくつかのクエリを実行するサービス。
pig-client 0.17.0 Pig コマンドラインクライアント。
r 3.4.1 統計的コンピューティング用 R プロジェクト
spark-client 2.4.4 Spark コマンドラインクライアント。
spark-history-server 2.4.4 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn 2.4.4 YARN のメモリ内実行エンジン。
spark-yarn-slave 2.4.4 YARN スレーブで必要な Apache Spark ライブラリ。
sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。
tensorflow 1.14.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。
tez-on-yarn 0.9.2 tez YARN アプリケーションおよびライブラリ。
webserver 2.4.25+ Apache HTTP サーバー。
zeppelin-server 0.8.1 インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server 3.4.14 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client 3.4.14 ZooKeeper コマンドラインクライアント。

5.27.0 設定分類

分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、hive-site.xml など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-5.27.0 分類
分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties の設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

HBase の環境の値を変更します。

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

HCatalog 環境の値を変更します。

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

jupyter-notebook-conf

Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

JupyterHubs の jupyterhub_config.py ファイルの値を変更します。

jupyter-s3-conf

Jupyter ノートブックの S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-env

Pig 環境の値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

ranger-kms-dbks-site

Ranger KMS の dbks-site.xml ファイルの値を変更します。

ranger-kms-site

Ranger KMS の ranger-kms-site.xml ファイルの値を変更します。

ranger-kms-env

Ranger KMS 環境の値を変更します。

ranger-kms-log4j

Ranger KMS の kms-log4j.properties ファイルの値を変更します。

ranger-kms-db-ca

Ranger KMS を使用した MySQL SSL 接続用の S3 の CA ファイルの値を変更します。

recordserver-env

EMR RecordServer 環境の値を変更します。

recordserver-conf

EMR RecordServer の erver.properties ファイルの値を変更します。

recordserver-log4j

EMR RecordServer の log4j.properties ファイルの値を変更します。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

ZooKeeper の zoo.cfg ファイルの値を変更します。

zookeeper-log4j

ZooKeeper の log4j.properties ファイルの値を変更します。

5.26.0

5.26.0 アプリケーションバージョン

このリリースでは、次のアプリケーションがサポートされています。 Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin、、および ZooKeeper.

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

5.26.0 リリースノート

次のリリースノートには、Amazon EMR リリースバージョン 5.26.0 に関する情報が含まれています。変更は 5.25.0 に関連するものです。

初回リリース日: 2019 年 8 月 8 日

最終更新日: 2019 年 8 月 19 日

アップグレード

  • AWS SDK for Java 1.11.595

  • HBase 1.4.10

  • Phoenix 4.14.2

  • コネクタおよびドライバ:

    • DynamoDB コネクタ 4.11.0

    • MariaDB コネクタ 2.4.2

    • Amazon Redshift JDBC ドライバー 1.2.32.1056

新機能

  • (ベータ) Amazon EMR 5.26.0 以降では、Lake Formation と統合するクラスターを起動できます。この統合により、AWS Glue データカタログ内のデータベースとテーブルへのきめ細かな列レベルのアクセスが提供されます。また、企業の ID システムから EMR ノートブックまたは Apache Zeppelin へのフェデレーションシングルサインオンが可能になります。詳細については、「Amazon EMR の AWS Lake Formation との統合 (ベータ)」を参照してください。

  • (2019 年 8 月 19 日) Amazon EMR のブロックパブリックアクセスが、セキュリティグループをサポートするすべての Amazon EMR リリースで使用可能になりました。ブロックパブリックアクセスは、各 AWS リージョンに適用されるアカウント全体の設定です。ブロックパブリックアクセスにより、クラスターに関連付けられたセキュリティグループに、ポートで IPv4 0.0.0.0/0 または IPv6 ::/0 (パブリックアクセス) からのインバウンドトラフィックを許可するルールがある場合に、クラスターの起動が防止されます (ポートが例外として指定されている場合を除く)。ポート 22 は、デフォルトで例外になります。詳細については、Amazon EMR 管理ガイドの「Amazon EMR ブロックパブリックアクセスの使用」を参照してください。

変更、拡張、解決した問題

  • EMR ノートブック

    • EMR 5.26.0 以降では、EMR ノートブック はデフォルトの Python ライブラリに加えて、ノートブックを範囲とする Python ライブラリがサポートします。ノートブックを範囲とするライブラリは、クラスターを再作成したり、クラスターにノートブックを再アタッチしたりすることなく、ノートブックエディタ内からインストールできます。ノートブックを範囲とするライブラリは、Python 仮想環境内で作成されるため、現在のノートブックセッションにのみ適用されます。これにより、ノートブックの依存関係を分離できます。詳細については、Amazon EMR 管理ガイドの「Using Notebook Scoped Libraries」を参照してください。

  • EMRFS

    • fs.s3.consistent.metadata.etag.verification.enabledtrue に設定して、ETag 検証機能 (ベータ) を有効にできます。この機能では、EMRFS は Amazon S3 ETag を使用して、読み取られているオブジェクトが利用可能な最新バージョンであることを確認します。この機能は、Amazon S3 上のファイルが同じ名前を維持しながら上書きされる、更新後の読み取りのユースケースに役立ちます。この ETag 検証機能は、現在 S3 Select では使用できません。詳細については、「一貫性のあるビューを構成する」を参照してください。

  • Spark

    • 次の最適化は、デフォルトで有効になりました: 動的なパーティションプルーニング、INTERSECT の前の DISTINCT、JOIN に続く DISTINCT クエリの SQL プラン統計推論の改善、スカラーサブクエリのフラット化、最適化された結合の順序変更、Bloom フィルターの結合。詳細については、「Spark パフォーマンスの最適化」を参照してください。

    • ソートマージ結合のステージコードの生成が全体的に改善されました。

    • クエリフラグメントとサブクエリの再利用が改善されました。

    • Spark 起動時のエグゼキューターの事前割り当ての改善。

    • 結合の小さい側にブロードキャストヒントが含まれている場合に、Bloom フィルター結合は適用されなくなりました。

  • Tez

    • Tez に関する問題を解決しました。Tez は 複数のマスターノードを持つ EMR クラスター で動作するようになりました。

既知の問題

  • ソートマージ結合のステージコード生成の全体的な改善により、有効時のメモリへの負荷が高まる可能性があります。この最適化によりパフォーマンスが向上しますが、十分なメモリを提供するよう spark.yarn.executor.memoryOverheadFactor がチューニングされていない場合、ジョブの再試行または失敗につながる可能性があります。この機能を無効にするには、spark.sql.sortMergeJoinExec.extendedCodegen.enabled を false に設定します。

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

5.26.0 コンポーネントバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

Amazon EMR の一部のコンポーネントは、コミュニティバージョンとは異なります。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。EmrVersion は 0 から始まります。たとえば、バージョン 2.2 の myapp-component というオープンソースコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-2 として表示されます。

コンポーネント バージョン 説明
aws-sagemaker-spark-sdk 1.2.4 Amazon SageMaker Spark SDK
emr-ddb 4.11.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクタ。
emr-goodies 2.10.0 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.4.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクタ。
emr-s3-dist-cp 2.12.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 1.3.0 EMR S3Select コネクター
emrfs 2.35.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。
flink-client 1.8.0 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 2.8.5-amzn-4 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 2.8.5-amzn-4 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 2.8.5-amzn-4 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 2.8.5-amzn-4 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-hdfs-journalnode 2.8.5-amzn-4 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。
hadoop-httpfs-server 2.8.5-amzn-4 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 2.8.5-amzn-4 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred 2.8.5-amzn-4 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager 2.8.5-amzn-4 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 2.8.5-amzn-4 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 2.8.5-amzn-4 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 1.4.10 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server 1.4.10 1 つ以上の HBase リージョンに対応するサービス。
hbase-client 1.4.10 HBase コマンドラインクライアント。
hbase-rest-server 1.4.10 HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server 1.4.10 HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client 2.3.5-amzn-0 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 2.3.5-amzn-0 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server 2.3.5-amzn-0 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client 2.3.5-amzn-0 Hive コマンドラインクライアント。
hive-hbase 2.3.5-amzn-0 Hive-hbase クライアント。
hive-metastore-server 2.3.5-amzn-0 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 2.3.5-amzn-0 Hive クエリをウェブリクエストとして受け入れるサービス。
hue-server 4.4.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション