「翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。」
Amazon EMR 5.x リリースバージョン
以下の各タブには、各 Amazon EMR 5.x リリースバージョンのアプリケーションバージョン、リリースノート、コンポーネントバージョン、および設定分類が一覧表示されています。
すべてのリリースのアプリケーションバージョンの包括的な図については、「Amazon EMR 5.x リリースのアプリケーションバージョン (PNG)」を参照してください。
クラスターを起動するときに、複数のバージョンの Amazon EMR リリースから選択できます。これにより、互換性の要件に適合するアプリケーションバージョンをテストして使用できます。リリースラベルを使用してリリースバージョンを指定します。リリースラベルの形式は emr-
です
x.x.x
. For example, emr-5.32.0
.
New Amazon EMR release versions are made available in different regions over a period of several days, beginning with the first region on the initial release date. The latest release version may not be available in your region during this period.
- 5.32.0
-
このリリースでは、次のアプリケーションがサポートされています。 JupyterEnterpriseGateway
, Flink , Ganglia , Hadoop , HBase , HCatalog , Hive , Hue , JupyterHub , Livy , Mahout , MXNet , Oozie , Phoenix , Pig , Presto , Spark , Sqoop , TensorFlow , Tez , Zeppelin 、、および ZooKeeper . 次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。
Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。
次のリリースノートは、Amazon EMR リリースバージョン 5.32.0 に関する情報を記載しています。5.31.0 からの変更が含まれています。
初回リリース日: 2021 年 1 月 8 日
アップグレード
-
Amazon Glue コネクタをバージョン 1.14.0 にアップグレードしました
-
Amazon SageMaker Spark SDK をバージョン 1.4.1 にアップグレードしました
-
AWS Java SDK をバージョン 1.11.890 にアップグレードしました
-
EMR DynamoDB Connector をバージョン 4.16.0 にアップグレードしました
-
EMRFS をバージョン 2.45.0 にアップグレードしました
-
EMR Log Analytics Metrics をバージョン 1.18.0 にアップグレードしました
-
EMR MetricsAndEventsApiGateway クライアントをバージョン 1.5.0 にアップグレードしました
-
EMR Record Server をバージョン 1.8.0 にアップグレードしました
-
EMR S3 Dist CP をバージョン 2.17.0 にアップグレードしました
-
EMR Secret Agent をバージョン 1.7.0 にアップグレードしました
-
Flink をバージョン 1.11.2 にアップグレードしました
-
Hadoop をバージョン 2.10.1-amzn-0 にアップグレードしました
-
Hive をバージョン 2.3.7-amzn-3 にアップグレードしました
-
Hue をバージョン 4.8.0 にアップグレードしました
-
Mxnet をバージョン 1.7.0 にアップグレードしました
-
OpenCV をバージョン 4.4.0 にアップグレードしました
-
Presto をバージョン 0.240.1-amzn-0 にアップグレードしました
-
Spark をバージョン 2.4.7-amzn-0 にアップグレードしました
-
TensorFlow をバージョン 2.3.1 にアップグレードしました
変更、拡張、解決した問題
-
コンポーネントのバージョンをアップグレードしました。
-
コンポーネントバージョンのリストについては、このガイドの「Amazon EMR リリースについて」を参照してください。
新機能
-
インスタンスメタデータサービス (IMDS) V2 のサポートステータス: Amazon EMR 5.23.1、5.27.1、5.32 以降のコンポーネントは、すべての IMDS 呼び出しで IMDSv2 を使用します。アプリケーションコードでの IMDS 呼び出しの場合、IMDSv1 と IMDSv2 の両方を使用するか、セキュリティを強化するために IMDSv2 のみを使用するように IMDS を設定できます。その他の 5.x EMR リリースでは、IMDSv1 を無効にすると、クラスターの起動に失敗します。
-
Amazon EMR 5.32.0 以降では、Apache Ranger とネイティブに統合するクラスターを起動できます。Apache Ranger は、Hadoop プラットフォーム全体の包括的なデータセキュリティを有効化、モニタリング、管理するオープンソースフレームワークです。詳細については、「Apache Ranger
」を参照してください。ネイティブ統合により、独自の Apache Ranger を使用して Amazon EMR に対してきめ細かなデータアクセスコントロールを適用できます。Amazon EMR リリース ガイド の「Amazon EMR と Apache Ranger の統合」を参照してください。 -
Amazon EMR リリース 5.32.0 は、Amazon EMR on EKS をサポートしています。EMR on EKS の開始方法の詳細については、「Amazon EMR on EKS とは」を参照してください。
-
Amazon EMR リリース 5.32.0 は、Amazon EMR Studio (プレビュー) をサポートしています。EMR Studio の開始方法の詳細については、「Amazon EMR Studio (プレビュー)」を参照してください。
-
スコープが設定されたマネージドポリシー: AWS のベストプラクティスに従うために、Amazon EMR は、非推奨となるポリシーの代わりとして、v2 EMR をスコープとするデフォルトのマネージドポリシーを導入しています。「Amazon EMR マネージドポリシー」を参照してください。
既知の問題
-
Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.
The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.
Explicitly set a ulimit from the command line
-
Edit
/etc/systemd/system/instance-controller.service
to add the following parameters to Service section.LimitNOFILE=65536
LimitNPROC=65536
-
Restart InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Set a ulimit using bootstrap action (BA)
You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
-
-
重要 Amazon Linux または Amazon Linux 2 AMI (Amazon Linux マシンイメージ) を実行している Amazon EMR クラスターは、デフォルトの Amazon Linux 動作を使用します。再起動を必要とする重要かつ不可欠なカーネル更新プログラムを自動的にダウンロードしてインストールすることはありません。これは、デフォルトの Amazon Linux AMI を実行している他の Amazon EC2 インスタンスと同じ動作です。EMR バージョンのリリース後に、再起動を必要とする新しい Amazon Linux ソフトウェア更新プログラム (カーネル、NVIDIA、CUDA 更新プログラムなど) が使用可能になった場合、デフォルト AMI を実行している EMR クラスターインスタンスは、それらの更新プログラムを自動的にダウンロードしてインストールすることはありません。カーネル更新プログラムを取得するには、最新の Amazon Linux AMI を使用するようにAmazon EMR AMI をカスタマイズすることができます。
-
AWS Ranger 統合オプションを指定するセキュリティ設定を作成するコンソールサポートは、現在 GovCloud リージョンではサポートされていません。セキュリティ設定を行うには、CLI を使用できます。Amazon EMR 管理ガイド の「EMR セキュリティ設定の作成」を参照してください。
このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、
emr
またはaws
で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。Amazon EMR の一部のコンポーネントは、コミュニティバージョンとは異なります。これらのコンポーネントには、
の形式のバージョンラベルがあります。CommunityVersion
-amzn-EmrVersion
は 0 から始まります。たとえば、バージョン 2.2 のEmrVersion
myapp-component
というオープンソースコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは2.2-amzn-2
として表示されます。コンポーネント バージョン 説明 aws-sagemaker-spark-sdk 1.4.1 Amazon SageMaker Spark SDK emr-ddb 4.16.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクター。 emr-goodies 2.13.0 Hadoop エコシステムに役立つ追加のライブラリ。 emr-kinesis 3.5.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。 emr-notebook-env 1.1.0 Jupyter エンタープライズゲートウェイを含む EMR ノートブック用 Conda env emr-s3-dist-cp 2.17.0 Amazon S3 に最適化された分散コピーアプリケーション。 emr-s3-select 1.6.0 EMR S3Select コネクター emrfs 2.45.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクター。 flink-client 1.11.2 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。 flink-jobmanager-config 1.11.2 Apache Flink JobManager の EMR ノードのリソースを管理します。 ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。 ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。 ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。 hadoop-client 2.10.1-amzn-0 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。 hadoop-hdfs-datanode 2.10.1-amzn-0 ブロックを保存する HDFS ノードレベルのサービス。 hadoop-hdfs-library 2.10.1-amzn-0 HDFS コマンドラインクライアントとライブラリ hadoop-hdfs-namenode 2.10.1-amzn-0 ファイル名を追跡し、場所をブロックする HDFS サービス。 hadoop-hdfs-journalnode 2.10.1-amzn-0 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。 hadoop-httpfs-server 2.10.1-amzn-0 HDFS オペレーションの HTTP エンドポイント。 hadoop-kms-server 2.10.1-amzn-0 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。 hadoop-mapred 2.10.1-amzn-0 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。 hadoop-yarn-nodemanager 2.10.1-amzn-0 個別のノードでコンテナを管理する YARN サービス。 hadoop-yarn-resourcemanager 2.10.1-amzn-0 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。 hadoop-yarn-timeline-server 2.10.1-amzn-0 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。 hbase-hmaster 1.4.13 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。 hbase-region-server 1.4.13 1 つ以上の HBase リージョンに対応するサービス。 hbase-client 1.4.13 HBase コマンドラインクライアント。 hbase-rest-server 1.4.13 HBase の RESTful HTTP エンドポイントを提供するサービス。 hbase-thrift-server 1.4.13 HBase に Thrift エンドポイントを提供するサービス。 hcatalog-client 2.3.7-amzn-3 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。 hcatalog-server 2.3.7-amzn-3 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。 hcatalog-webhcat-server 2.3.7-amzn-3 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。 hive-client 2.3.7-amzn-3 Hive コマンドラインクライアント。 hive-hbase 2.3.7-amzn-3 Hive-hbase クライアント。 hive-metastore-server 2.3.7-amzn-3 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。 hive-server2 2.3.7-amzn-3 Hive クエリをウェブリクエストとして受け入れるサービス。 hudi 0.6.0-amzn-0 データパイプラインを強化する低レイテンシーかつ高効率な増分処理フレームワーク。 Hudi-spark 0.6.0-amzn-0 Hudi で Spark を実行するためのバンドルライブラリ。 hudi-presto 0.6.0-amzn-0 Presto を Hudi で実行するためのバンドルライブラリ。 hue-server 4.8.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション jupyterhub 1.1.0 Jupyter ノートブックのマルチユーザーサーバー livy-server 0.7.0-incubating Apache Spark を操作するための REST インターフェイス nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー mahout-client 0.13.0 機械学習用のライブラリ。 mxnet 1.7.0 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。 mariadb-server 5.5.68 MySQL データベースサーバー。 nvidia-cuda 10.1.243 Nvidia ドライバーと Cuda ツールキット oozie-client 5.2.0 Oozie コマンドラインクライアント。 oozie-server 5.2.0 Oozie ワークフローリクエストを受け入れるサービス。 opencv 4.4.0 オープンソースのコンピュータビジョンライブラリ。 phoenix-library 4.14.3-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ phoenix-query-server 4.14.3-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー presto-coordinator 0.240.1-amzn-0 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。 presto-worker 0.240.1-amzn-0 いくつかのクエリを実行するサービス。 presto-client 0.240.1-amzn-0 Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。 pig-client 0.17.0 Pig コマンドラインクライアント。 r 3.4.3 統計的コンピューティング用 R プロジェクト ranger-kms-server 1.2.0 Apache Ranger Key Management System spark-client 2.4.7-amzn-0 Spark コマンドラインクライアント。 spark-history-server 2.4.7-amzn-0 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。 spark-on-yarn 2.4.7-amzn-0 YARN のメモリ内実行エンジン。 spark-yarn-slave 2.4.7-amzn-0 YARN スレーブで必要な Apache Spark ライブラリ。 sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。 tensorflow 2.3.1 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。 tez-on-yarn 0.9.2 tez YARN アプリケーションおよびライブラリ。 webserver 2.4.25+ Apache HTTP サーバー。 zeppelin-server 0.8.2 インタラクティブなデータ分析を可能にするウェブベースのノートブック。 zookeeper-server 3.4.14 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。 zookeeper-client 3.4.14 ZooKeeper コマンドラインクライアント。 分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、
hive-site.xml
など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。emr-5.32.0 分類分類 説明 capacity-scheduler
Hadoop の capacity-scheduler.xml ファイルの値を変更します。
container-executor
Hadoop YARN の container-executor.cfg ファイルの値を変更します。
container-log4j
Hadoop YARN の container-log4j.properties ファイルの値を変更します。
core-site
Hadoop の core-site.xml ファイルの値を変更します。
docker-conf
Docker 関連の設定を変更します。
emrfs-site
EMRFS の設定を変更します。
flink-conf
flink-conf.yaml の設定を変更します。
flink-log4j
Flink log4j.properties の設定を変更します。
flink-log4j-yarn-session
Flink log4j-yarn-session.properties の設定を変更します。
flink-log4j-cli
Flink log4j-cli.properties の設定を変更します。
hadoop-env
Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。
hadoop-log4j
Hadoop の log4j.properties ファイルの値を変更します。
hadoop-ssl-server
Hadoop ssl のサーバー設定を変更します。
hadoop-ssl-client
Hadoop ssl のクライアント設定を変更します。
hbase
Apache HBase 用の Amazon EMR-curated 設定。
hbase-env
HBase の環境の値を変更します。
hbase-log4j
HBase の hbase-log4j.properties ファイルの値を変更します。
hbase-metrics
HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。
hbase-policy
HBase の hbase-policy.xml ファイルの値を変更します。
hbase-site
HBase の hbase-site.xml ファイルの値を変更します。
hdfs-encryption-zones
HDFS 暗号化ゾーンを設定します。
hdfs-site
HDFS の hdfs-site.xml の値を変更します。
hcatalog-env
HCatalog 環境の値を変更します。
hcatalog-server-jndi
HCatalog の jndi.properties の値を変更します。
hcatalog-server-proto-hive-site
HCatalog の proto-hive-site.xml の値を変更します。
hcatalog-webhcat-env
HCatalog WebHCat 環境の値を変更します。
hcatalog-webhcat-log4j2
HCatalog WebHCat の log4j2.properties の値を変更します。
hcatalog-webhcat-site
HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。
hive-beeline-log4j2
Hive の beeline-log4j2.properties ファイルの値を変更します。
hive-parquet-logging
Hive の parquet-logging.properties ファイルの値を変更します。
hive-env
Hive 環境の値を変更します。
hive-exec-log4j2
Hive の hive-exec-log4j2.properties ファイルの値を変更します。
hive-llap-daemon-log4j2
Hive の llap-daemon-log4j2.properties ファイルの値を変更します。
hive-log4j2
Hive の hive-log4j2.properties ファイルの値を変更します。
hive-site
Hive の hive-site.xml ファイルの値を変更します
hiveserver2-site
Hive Server2 の hiveserver2-site.xml ファイルの値を変更します
hue-ini
Hue の ini ファイルの値を変更します
httpfs-env
HTTPFS 環境の値を変更します。
httpfs-site
Hadoop の httpfs-site.xml ファイルの値を変更します。
hadoop-kms-acls
Hadoop の kms-acls.xml ファイルの値を変更します。
hadoop-kms-env
Hadoop KMS 環境の値を変更します。
hadoop-kms-log4j
Hadoop の kms-log4j.properties ファイルの値を変更します。
hadoop-kms-site
Hadoop の kms-site.xml ファイルの値を変更します。
hudi-env
Hudi 環境の値を変更します。
jupyter-notebook-conf
Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。
jupyter-hub-conf
JupyterHubs の jupyterhub_config.py ファイルの値を変更します。
jupyter-s3-conf
Jupyter ノートブックの S3 の永続性を設定します。
jupyter-sparkmagic-conf
Sparkmagic の config.json ファイルの値を変更します。
livy-conf
Livy の livy.conf ファイルの値を変更します。
livy-env
Livy 環境の値を変更します。
livy-log4j
Livy の log4j.properties の設定を変更します。
mapred-env
MapReduce アプリケーションの環境の値を変更します。
mapred-site
MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。
oozie-env
Oozie の環境の値を変更します。
oozie-log4j
Oozie の oozie-log4j.properties ファイルの値を変更します。
oozie-site
Oozie の oozie-site.xml ファイルの値を変更します。
phoenix-hbase-metrics
Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。
phoenix-hbase-site
Phoenix の hbase-site.xml ファイルの値を変更します。
phoenix-log4j
Phoenix の log4j.properties ファイルの値を変更します。
phoenix-metrics
Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。
pig-env
Pig 環境の値を変更します。
pig-properties
Pig の pig.properties ファイルの値を変更します。
pig-log4j
Pig の log4j.properties ファイルの値を変更します。
presto-log
Presto の log.properties ファイルの値を変更します。
presto-config
Presto の config.properties ファイルの値を変更します。
presto-password-authenticator
Presto の password-authenticator.properties ファイルの値を変更します。
presto-env
Presto の presto-env.sh ファイルの値を変更します。
presto-node
Presto の node.properties ファイルの値を変更します。
presto-connector-blackhole
Presto の blackhole.properties ファイルの値を変更します。
presto-connector-cassandra
Presto の cassandra.properties ファイルの値を変更します。
presto-connector-hive
Presto の hive.properties ファイルの値を変更します。
presto-connector-jmx
Presto の jmx.properties ファイルの値を変更します。
presto-connector-kafka
Presto の kafka.properties ファイルの値を変更します。
presto-connector-localfile
Presto の localfile.properties ファイルの値を変更します。
presto-connector-memory
Presto の memory.properties ファイルの値を変更します。
presto-connector-mongodb
Presto の mongodb.properties ファイルの値を変更します。
presto-connector-mysql
Presto の musql.properties ファイルの値を変更します。
presto-connector-postgresql
Presto の postgresql.properties ファイルの値を変更します。
presto-connector-raptor
Presto の raptor.properties ファイルの値を変更します。
presto-connector-redis
Presto の redis.properties ファイルの値を変更します。
presto-connector-redshift
Presto の redshift.properties ファイルの値を変更します。
presto-connector-tpch
Presto の tpcj.properties ファイルの値を変更します。
presto-connector-tpcds
Presto の tpcds.properties ファイルの値を変更します。
ranger-kms-dbks-site
Ranger KMS の dbks-site.xml ファイルの値を変更します。
ranger-kms-site
Ranger KMS の ranger-kms-site.xml ファイルの値を変更します。
ranger-kms-env
Ranger KMS 環境の値を変更します。
ranger-kms-log4j
Ranger KMS の kms-log4j.properties ファイルの値を変更します。
ranger-kms-db-ca
Ranger KMS を使用した MySQL SSL 接続用の S3 の CA ファイルの値を変更します。
recordserver-env
EMR RecordServer 環境の値を変更します。
recordserver-conf
EMR RecordServer の erver.properties ファイルの値を変更します。
recordserver-log4j
EMR RecordServer の log4j.properties ファイルの値を変更します。
spark
Apache Spark 用の Amazon EMR-curated 設定。
spark-defaults
Spark の spark-defaults.conf ファイルの値を変更します。
spark-env
Spark 環境の値を変更します。
spark-hive-site
Spark の hive-site.xml ファイルの値を変更します
spark-log4j
Spark の log4j.properties ファイルの値を変更します。
spark-metrics
Spark の metrics.properties ファイルの値を変更します。
sqoop-env
Sqoop の環境の値を変更します。
sqoop-oraoop-site
Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。
sqoop-site
Sqoop の sqoop-site.xml ファイルの値を変更します。
tez-site
Tez の tez-site.xml ファイルの値を変更します。
yarn-env
YARN 環境の値を変更します。
yarn-site
YARN の yarn-site.xml ファイルの値を変更します。
zeppelin-env
Zeppelin 環境の値を変更します。
zookeeper-config
ZooKeeper の zoo.cfg ファイルの値を変更します。
zookeeper-log4j
ZooKeeper の log4j.properties ファイルの値を変更します。
-
- 5.31.0
-
このリリースでは、次のアプリケーションがサポートされています。 Flink
, Ganglia , Hadoop , HBase , HCatalog , Hive , Hue , JupyterHub , Livy , Mahout , MXNet , Oozie , Phoenix , Pig , Presto , Spark , Sqoop , TensorFlow , Tez , Zeppelin 、、および ZooKeeper . 次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。
Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。
次のリリースノートは、Amazon EMR リリースバージョン 5.31.0 に関する情報を記載しています。5.30.1 からの変更が含まれています。
初回リリース日: 2020 年 10 月 9 日
最終更新日: 2020 年 10 月 15 日
アップグレード
-
Amazon Glue コネクタをバージョン 1.13.0 にアップグレードしました
-
Amazon SageMaker Spark SDK をバージョン 1.4.0 にアップグレードしました
-
Amazon Kinesis コネクタをバージョン 3.5.9 にアップグレードしました
-
AWS Java SDK をバージョン 1.11.852 にアップグレードしました
-
Bigtop-tomcat をバージョン 8.5.56 にアップグレードしました
-
EMR FS をバージョン 2.43.0 にアップグレードしました
-
EMR MetricsAndEventsApiGateway クライアントをバージョン 1.4.0 にアップグレードしました
-
EMR S3 Dist CP をバージョン 2.15.0 にアップグレードしました
-
EMR S3 Select をバージョン 1.6.0 にアップグレードしました
-
Flink をバージョン 1.11.0 にアップグレードしました
-
Hadoop をバージョン 2.10.0 にアップグレードしました
-
Hive をバージョン 2.3.7 にアップグレードしました
-
Hudi をバージョン 0.6.0 にアップグレードしました
-
Hue をバージョン 4.7.1 にアップグレードしました
-
JupyterHub をバージョン 1.1.0 にアップグレードしました
-
Mxnet をバージョン 1.6.0 にアップグレードしました
-
OpenCV をバージョン 4.3.0 にアップグレードしました
-
Presto をバージョン 0.238.3 にアップグレードしました
-
TensorFlow をバージョン 2.1.0 にアップグレードしました
変更、拡張、解決した問題
-
Hive 列統計
は、Amazon EMR バージョン 5.31.0 以降でサポートされています。 -
コンポーネントのバージョンをアップグレードしました。
-
Amazon EMR 5.31.0 で EMRFS S3EC V2 をサポートしました。S3 Java SDK リリース 1.11.837 以降では、さまざまなセキュリティの機能強化を含む暗号化クライアントバージョン 2 (S3EC V2) が導入されています。詳細については、以下を参照してください。
-
S3 ブログ投稿「Amazon S3 暗号化クライアントの更新
」。 -
AWS SDK for Java デベロッパーガイドの「暗号化および復号クライアントを V2 に移行する」
-
EMR 管理ガイドの「Amazon S3 クライアント側の暗号化」
下位互換性のために、暗号化クライアント V1 は SDK で引き続き使用できます。
-
新機能
-
Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.
The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.
Explicitly set a ulimit from the command line
-
Edit
/etc/systemd/system/instance-controller.service
to add the following parameters to Service section.LimitNOFILE=65536
LimitNPROC=65536
-
Restart InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Set a ulimit using bootstrap action (BA)
You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
-
-
Amazon EMR 5.31.0 では、Lake Formation と統合するクラスターを起動できます。この統合により、AWS Glue データカタログ内のデータベースとテーブルへのきめ細かな列レベルのデータフィルタリングが提供されます。また、企業の ID システムから EMR ノートブックまたは Apache Zeppelin へのフェデレーションシングルサインオンが可能になります。詳細については、Amazon EMR 管理ガイドの「Amazon EMR と AWS Lake Formation の統合」を参照してください。
Amazon EMR と Lake Formation は、現在、米国東部 (オハイオとバージニア北部)、米国西部 (北カリフォルニアとオレゴン)、アジアパシフィック (ムンバイ、ソウル、シンガポール、シドニー、東京)、カナダ (中部)、ヨーロッパ (フランクフルト、アイルランド、ロンドン、パリ、ストックホルム)、南米 (サンパウロ) の 16 の AWS リージョンで利用できます。
既知の問題
-
Known issue in clusters with multiple master nodes and Kerberos authentication
If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.
Workaround:
-
SSH as
hadoop
user to the lead master node of the EMR cluster with multiple master nodes. -
Run the following command to renew Kerberos ticket for
hadoop
user.kinit -kt <keytab_file> <principal>
Typically, the keytab file is located at
/etc/hadoop.keytab
and the principal is in the form ofhadoop/<hostname>@<REALM>
.
注記 This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.
-
このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、
emr
またはaws
で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。Amazon EMR の一部のコンポーネントは、コミュニティバージョンとは異なります。これらのコンポーネントには、
の形式のバージョンラベルがあります。CommunityVersion
-amzn-EmrVersion
は 0 から始まります。たとえば、バージョン 2.2 のEmrVersion
myapp-component
というオープンソースコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは2.2-amzn-2
として表示されます。コンポーネント バージョン 説明 aws-sagemaker-spark-sdk 1.4.0 アマゾン SageMaker スパークSDK emr-ddb 4.15.0(4.15.0) アマゾン DynamoDB Hadoopエコシステム・アプリケーション向けのコネクタです。 emr-goodies 2.13.0 Hadoop エコシステムに役立つ追加のライブラリ。 emr-kinesis 3.5.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。 emr-s3-dist-cp 2.15.0 Amazon S3 に最適化された分散コピーアプリケーション。 emr-s3-select 1.6.0 EMR(EMR) S3Select コネクタ emrfs 2.43.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクター。 flink-client 1.11.0 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。 flink-jobmanager-config(flink-jobmanager-config) 1.11.0 Apache FlinkのEMRノードのリソースの管理 JobManager. ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。 ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。 ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。 hadoop-client 2.10.0-amzn-0 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。 hadoop-hdfs-datanode 2.10.0-amzn-0 ブロックを保存する HDFS ノードレベルのサービス。 hadoop-hdfs-library 2.10.0-amzn-0 HDFS コマンドラインクライアントとライブラリ hadoop-hdfs-namenode 2.10.0-amzn-0 ファイル名を追跡し、場所をブロックする HDFS サービス。 hadoop-hdfs-journalnode 2.10.0-amzn-0 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。 hadoop-httpfs-server 2.10.0-amzn-0 HDFS オペレーションの HTTP エンドポイント。 hadoop-kms-server 2.10.0-amzn-0 Hadoopの KeyProvider API。 hadoop-mapred 2.10.0-amzn-0 MapReduce 実行エンジン ライブラリ MapReduce アプリケーション。 hadoop-yarn-nodemanager 2.10.0-amzn-0 個別のノードでコンテナを管理する YARN サービス。 hadoop-yarn-resourcemanager 2.10.0-amzn-0 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。 hadoop-yarn-timeline-server 2.10.0-amzn-0 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。 hbase-hmaster 1.4.13 サービス HBase 地域の調整と管理コマンドの実行を担当するクラスタ。 hbase-region-server 1.4.13 1人または複数の人へのサービス HBase 地域。 hbase-client 1.4.13 HBase コマンド ライン クライアント。 hbase-rest-server 1.4.13 サービスを提供する RESTful のHTTPエンドポイント HBase. hbase-thrift-server 1.4.13 Thriftエンドポイントを提供するサービス HBase. hcatalog-client 2.3.7-amzn-1 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。 hcatalog-server 2.3.7-amzn-1 サービス提供 HCatalogは、分散アプリケーション向けのテーブルおよびストレージ管理レイヤーです。 hcatalog-webhcat-server 2.3.7-amzn-1 HTTP エンドポイントが提供する REST インタフェース HCatalog. hive-client 2.3.7-amzn-1 Hive コマンドラインクライアント。 hive-hbase 2.3.7-amzn-1 Hive-hbase クライアント。 hive-metastore-server 2.3.7-amzn-1 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。 hive-server2 2.3.7-amzn-1 Hive クエリをウェブリクエストとして受け入れるサービス。 hudi 0.6.0-amzn-0 データパイプラインを強化する低レイテンシーかつ高効率な増分処理フレームワーク。 ヒューディ・スパーク 0.6.0-amzn-0 Spark with Hudiを実行するためのバンドルライブラリ。 hudi-presto 0.6.0-amzn-0 Presto を Hudi で実行するためのバンドルライブラリ。 hue-server 4.7.1(4.7.1) Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション jupyterhub 1.1.0 Jupyter ノートブックのマルチユーザーサーバー livy-server 0.7.0-incubating Apache Spark を操作するための REST インターフェイス nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー mahout-client 0.13.0 機械学習用のライブラリ。 mxnet 1.6.0 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。 mariadb-server 5.5.64 MySQL データベース サーバー。 nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット oozie-client 5.2.0 Oozie コマンドラインクライアント。 oozie-server 5.2.0 Oozie ワークフローリクエストを受け入れるサービス。 opencv 4.3.0 オープンソースのコンピュータビジョンライブラリ。 phoenix-library 4.14.3-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ phoenix-query-server 4.14.3-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー presto-coordinator 0.238.3-amzn-0 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。 presto-worker 0.238.3-amzn-0 いくつかのクエリを実行するサービス。 presto-client 0.238.3-amzn-0 Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。 pig-client 0.17.0 Pig コマンドラインクライアント。 r 3.4.3 統計的コンピューティング用 R プロジェクト ranger-kms-server 1.2.0 Apache Ranger Key Management System spark-client 2.4.6-amzn-0 Spark コマンドラインクライアント。 spark-history-server 2.4.6-amzn-0 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。 spark-on-yarn 2.4.6-amzn-0 YARN のメモリ内実行エンジン。 spark-yarn-slave 2.4.6-amzn-0 YARN スレーブで必要な Apache Spark ライブラリ。 sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。 tensorflow 2.1.0 TensorFlow 高性能数値計算用のオープンソース・ソフトウェア・ライブラリ。 tez-on-yarn 0.9.2 tez YARN アプリケーションおよびライブラリ。 webserver 2.4.25+ Apache HTTP サーバー。 zeppelin-server 0.8.2 インタラクティブなデータ分析を可能にするウェブベースのノートブック。 zookeeper-server 3.4.14 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。 zookeeper-client 3.4.14 ZooKeeper コマンド ライン クライアント。 分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、
hive-site.xml
など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。emr-5.31.0 分類分類 説明 capacity-scheduler
Hadoop の capacity-scheduler.xml ファイルの値を変更します。
container-log4j
Hadoop YARN の container-log4j.properties ファイルの値を変更します。
core-site
Hadoop の core-site.xml ファイルの値を変更します。
emrfs-site
EMRFS の設定を変更します。
flink-conf
flink-conf.yaml の設定を変更します。
flink-log4j
Flink log4j.properties の設定を変更します。
flink-log4j-yarn-session
Flink log4j-yarn-session.properties の設定を変更します。
flink-log4j-cli
Flink log4j-cli.properties の設定を変更します。
hadoop-env
Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。
hadoop-log4j
Hadoop の log4j.properties ファイルの値を変更します。
hadoop-ssl-server
Hadoop ssl のサーバー設定を変更します。
hadoop-ssl-client
Hadoop ssl のクライアント設定を変更します。
hbase
Apache の Amazon EMR 設定 HBase.
hbase-env
で値を変更 HBaseの環境。
hbase-log4j
で値を変更 HBaseの hbase-log4j.properties ファイル。
hbase-metrics
で値を変更 HBaseのhadoop-metrics2-hbase.properties ファイル。
hbase-policy
で値を変更 HBaseの hbase-policy.xml ファイル。
hbase-site
で値を変更 HBaseの hbase-site.xml ファイル。
hdfs-encryption-zones
HDFS 暗号化ゾーンを設定します。
hdfs-site
HDFS の hdfs-site.xml の値を変更します。
hcatalog-env
で値を変更 HCatalogの環境。
hcatalog-server-jndi
で値を変更 HCatalogのjndi.properties。
hcatalog-server-proto-hive-site
で値を変更 HCatalogの proto-hive-site.xml。
hcatalog-webhcat-env
で値を変更 HCatalog WebHCatの環境。
hcatalog-webhcat-log4j2
で値を変更 HCatalog WebHCatの log4j2.properties。
hcatalog-webhcat-site
で値を変更 HCatalog WebHCatの webhcat-site.xml ファイル。
hive-beeline-log4j2
Hive の beeline-log4j2.properties ファイルの値を変更します。
hive-parquet-logging
Hive の parquet-logging.properties ファイルの値を変更します。
hive-env
Hive 環境の値を変更します。
hive-exec-log4j2
Hive の hive-exec-log4j2.properties ファイルの値を変更します。
hive-llap-daemon-log4j2
Hive の llap-daemon-log4j2.properties ファイルの値を変更します。
hive-log4j2
Hive の hive-log4j2.properties ファイルの値を変更します。
hive-site
Hive の hive-site.xml ファイルの値を変更します
hiveserver2-site
Hive Server2 の hiveserver2-site.xml ファイルの値を変更します
hue-ini
Hue の ini ファイルの値を変更します
httpfs-env
HTTPFS 環境の値を変更します。
httpfs-site
Hadoop の httpfs-site.xml ファイルの値を変更します。
hadoop-kms-acls
Hadoop の kms-acls.xml ファイルの値を変更します。
hadoop-kms-env
Hadoop KMS 環境の値を変更します。
hadoop-kms-log4j
Hadoop の kms-log4j.properties ファイルの値を変更します。
hadoop-kms-site
Hadoop の kms-site.xml ファイルの値を変更します。
hudi-env
Hudi 環境の値を変更します。
jupyter-notebook-conf
Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。
jupyter-hub-conf
で値を変更 JupyterHubsの jupyterhub_config.py ファイル。
jupyter-s3-conf
Jupyter ノートブックの S3 の永続性を設定します。
jupyter-sparkmagic-conf
Sparkmagic の config.json ファイルの値を変更します。
livy-conf
Livy の livy.conf ファイルの値を変更します。
livy-env
Livy 環境の値を変更します。
livy-log4j
Livy の log4j.properties の設定を変更します。
mapred-env
[ MapReduce アプリケーション環境です。
mapred-site
[ MapReduce アプリケーションのmapred-site.xmlファイル。
oozie-env
Oozie の環境の値を変更します。
oozie-log4j
Oozie の oozie-log4j.properties ファイルの値を変更します。
oozie-site
Oozie の oozie-site.xml ファイルの値を変更します。
phoenix-hbase-metrics
Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。
phoenix-hbase-site
Phoenix の hbase-site.xml ファイルの値を変更します。
phoenix-log4j
Phoenix の log4j.properties ファイルの値を変更します。
phoenix-metrics
Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。
pig-env
Pig 環境の値を変更します。
pig-properties
Pig の pig.properties ファイルの値を変更します。
pig-log4j
Pig の log4j.properties ファイルの値を変更します。
presto-log
Presto の log.properties ファイルの値を変更します。
presto-config
Presto の config.properties ファイルの値を変更します。
presto-password-authenticator
Presto の password-authenticator.properties ファイルの値を変更します。
presto-env
Presto の presto-env.sh ファイルの値を変更します。
presto-node
Presto の node.properties ファイルの値を変更します。
presto-connector-blackhole
Presto の blackhole.properties ファイルの値を変更します。
presto-connector-cassandra
Presto の cassandra.properties ファイルの値を変更します。
presto-connector-hive
Presto の hive.properties ファイルの値を変更します。
presto-connector-jmx
Presto の jmx.properties ファイルの値を変更します。
presto-connector-kafka
Presto の kafka.properties ファイルの値を変更します。
presto-connector-localfile
Presto の localfile.properties ファイルの値を変更します。
presto-connector-memory
Presto の memory.properties ファイルの値を変更します。
presto-connector-mongodb
Presto の mongodb.properties ファイルの値を変更します。
presto-connector-mysql
Presto の musql.properties ファイルの値を変更します。
presto-connector-postgresql
Presto の postgresql.properties ファイルの値を変更します。
presto-connector-raptor
Presto の raptor.properties ファイルの値を変更します。
presto-connector-redis
Presto の redis.properties ファイルの値を変更します。
presto-connector-redshift
Presto の redshift.properties ファイルの値を変更します。
presto-connector-tpch
Presto の tpcj.properties ファイルの値を変更します。
presto-connector-tpcds
Presto の tpcds.properties ファイルの値を変更します。
ranger-kms-dbks-site
Ranger KMS の dbks-site.xml ファイルの値を変更します。
ranger-kms-site
Ranger KMS の ranger-kms-site.xml ファイルの値を変更します。
ranger-kms-env
Ranger KMS 環境の値を変更します。
ranger-kms-log4j
Ranger KMS の kms-log4j.properties ファイルの値を変更します。
ranger-kms-db-ca
S3 上の CA ファイルの値を変更 MySQL Ranger KMS との SSL 接続。
recordserver-env
EMRの値を変更 RecordServer 環境です。
recordserver-conf
EMRの値を変更 RecordServerの erver.properties ファイル。
recordserver-log4j
EMRの値を変更 RecordServerの log4j.properties ファイル。
spark
Apache Spark 用の Amazon EMR-curated 設定。
spark-defaults
Spark の spark-defaults.conf ファイルの値を変更します。
spark-env
Spark 環境の値を変更します。
spark-hive-site
Spark の hive-site.xml ファイルの値を変更します
spark-log4j
Spark の log4j.properties ファイルの値を変更します。
spark-metrics
Spark の metrics.properties ファイルの値を変更します。
sqoop-env
Sqoop の環境の値を変更します。
sqoop-oraoop-site
Sqoopで値を変更 OraOopの oraauop-site.xml ファイル。
sqoop-site
Sqoop の sqoop-site.xml ファイルの値を変更します。
tez-site
Tez の tez-site.xml ファイルの値を変更します。
yarn-env
YARN 環境の値を変更します。
yarn-site
YARN の yarn-site.xml ファイルの値を変更します。
zeppelin-env
Zeppelin 環境の値を変更します。
zookeeper-config
で値を変更 ZooKeeperのzoo.cfgファイル。
zookeeper-log4j
で値を変更 ZooKeeperの log4j.properties ファイル。
-
- 5.30.x
-
5.30 シリーズでは複数のリリースがあります。このタブ内で特定のリリースの情報を表示するには、以下のリンクを選択します。
このリリースでは、次のアプリケーションがサポートされています。 Flink
, Ganglia , Hadoop , HBase , HCatalog , Hive , Hue , JupyterHub , Livy , Mahout , MXNet , Oozie , Phoenix , Pig , Presto , Spark , Sqoop , TensorFlow , Tez , Zeppelin 、、および ZooKeeper . 次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。
Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。
次のリリースノートは、Amazon EMR リリースバージョン 5.30.1 に関する情報を記載しています。5.30.0 からの変更が含まれています。
初回リリース日: 2020 年 6 月 30 日
最終更新日: 2020 年 8 月 24 日
変更、拡張、解決した問題
-
インスタンスコントローラプロセスが無限にプロセスをスポーンする問題を修正しました。
-
Hue が Hive クエリを実行できず、「データベースがロックされています」というメッセージが表示されてクエリを実行できない問題を修正しました。
-
Spark の問題を修正し、EMR クラスターでより多くのタスクを同時に実行できるようにしました。
-
Jupyter サーバーで「開いているファイルが多すぎます」というエラーが発生する Jupyter ノートブックの問題を修正しました。
-
クラスターの開始時刻に関する問題を修正しました。
新機能
-
Tez UI および YARN タイムラインサーバー永続アプリケーションインターフェイスは、Amazon EMR バージョン 6.x および EMR バージョン 5.30.1 以降で使用できます。永続的なアプリケーション履歴へのワンクリックリンクアクセスにより、SSH 接続を介してウェブプロキシを設定することなく、ジョブ履歴にすばやくアクセスできます。アクティブなクラスターと終了したクラスターのログは、アプリケーションの終了から 30 日間使用できます。詳細については、Amazon EMR 管理ガイドの「永続アプリケーションユーザーインターフェイスの表示」を参照してください。
-
EMR Notebook 実行 API は、スクリプトまたはコマンドラインで EMR Notebooks を実行するために使用できます。AWS コンソールを使用せずに EMR ノートブックの実行を開始、停止、一覧表示、記述する機能により、EMR ノートブックをプログラムで制御できます。パラメータ化されたノートブックセルを使用すると、新しいパラメータ値のセットごとにノートブックのコピーを作成しなくても、ノートブックに異なるパラメータ値を渡すことができます。「EMR API アクション」を参照してください。 サンプルコードについては、「EMR Notebooks をプログラムで実行するためのサンプルコマンド」を参照してください。
既知の問題
-
Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.
The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.
Explicitly set a ulimit from the command line
-
Edit
/etc/systemd/system/instance-controller.service
to add the following parameters to Service section.LimitNOFILE=65536
LimitNPROC=65536
-
Restart InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Set a ulimit using bootstrap action (BA)
You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
-
-
EMR ノートブック
クラスターのマスターノードにカーネルと追加の Python ライブラリをインストールできる機能は、EMR バージョン 5.30.1 ではデフォルトで無効になっています。この機能の詳細については、「クラスターマスターノードへのカーネルと Python ライブラリのインストール」を参照してください。
この機能を有効にするには、次の手順を実行します。
-
EMR Notebooks のサービスロールにアタッチされているアクセス許可ポリシーで、次の操作が許可されていることを確認します。
elasticmapreduce:ListSteps
詳細については、「EMR Notebooks のサービスロール」を参照してください。
-
AWS CLI を使用して、次の例に示すように、EMR ノートブック をセットアップするクラスターでステップを実行します。
us-east-1
を、クラスターが存在するリージョンに置き換えます。詳細については、「AWS CLI を使用したクラスターへのステップの追加」を参照してください。aws emr add-steps --cluster-id
MyClusterID
--steps Type=CUSTOM_JAR,Name=EMRNotebooksSetup,ActionOnFailure=CONTINUE,Jar=s3://us-east-1
.elasticmapreduce/libs/script-runner/script-runner.jar,Args=["s3://awssupportdatasvcs.com/bootstrap-actions/EMRNotebooksSetup/emr-notebooks-setup.sh"]
-
-
マネージドスケーリング
Presto をインストールせずに 5.30.0 および 5.30.1 クラスターで管理されたスケーリング操作を行うと、アプリケーションの障害を引き起こしたり、均一なインスタンスグループまたはインスタンスフリートが
ARRESTED
状態のままになることがあります。特に、スケールダウン操作の後、すぐにスケールアップ操作が実行される場合です。回避策として、ジョブの実行に Presto を必要としない場合でも、クラスターの作成時にインストールするアプリケーションとして Presto を選択します。
-
Known issue in clusters with multiple master nodes and Kerberos authentication
If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.
Workaround:
-
SSH as
hadoop
user to the lead master node of the EMR cluster with multiple master nodes. -
Run the following command to renew Kerberos ticket for
hadoop
user.kinit -kt <keytab_file> <principal>
Typically, the keytab file is located at
/etc/hadoop.keytab
and the principal is in the form ofhadoop/<hostname>@<REALM>
.
注記 This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.
-
このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、
emr
またはaws
で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。Amazon EMR の一部のコンポーネントは、コミュニティバージョンとは異なります。これらのコンポーネントには、
の形式のバージョンラベルがあります。CommunityVersion
-amzn-EmrVersion
は 0 から始まります。たとえば、バージョン 2.2 のEmrVersion
myapp-component
というオープンソースコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは2.2-amzn-2
として表示されます。コンポーネント Version 説明: aws-sagemaker-spark-sdk 1.3.0 Amazon SageMaker Spark SDK emr-ddb 4.14.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクター。 emr-goodies 2.13.0 Hadoop エコシステムに役立つ追加のライブラリ。 emr-kinesis 3.5.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。 emr-s3-dist-cp 2.14.0 Amazon S3 に最適化された分散コピーアプリケーション。 emr-s3-select 1.5.0 EMR S3Select コネクター emrfs 2.40.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクター。 flink-client 1.10.0 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。 ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。 ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。 ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。 hadoop-client 2.8.5-amzn-6 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。 hadoop-hdfs-datanode 2.8.5-amzn-6 ブロックを保存する HDFS ノードレベルのサービス。 hadoop-hdfs-library 2.8.5-amzn-6 HDFS コマンドラインクライアントとライブラリ hadoop-hdfs-namenode 2.8.5-amzn-6 ファイル名を追跡し、場所をブロックする HDFS サービス。 hadoop-hdfs-journalnode 2.8.5-amzn-6 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。 hadoop-httpfs-server 2.8.5-amzn-6 HDFS オペレーションの HTTP エンドポイント。 hadoop-kms-server 2.8.5-amzn-6 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。 hadoop-mapred 2.8.5-amzn-6 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。 hadoop-yarn-nodemanager 2.8.5-amzn-6 個別のノードでコンテナを管理する YARN サービス。 hadoop-yarn-resourcemanager 2.8.5-amzn-6 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。 hadoop-yarn-timeline-server 2.8.5-amzn-6 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。 hbase-hmaster 1.4.13 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。 hbase-region-server 1.4.13 1 つ以上の HBase リージョンに対応するサービス。 hbase-client 1.4.13 HBase コマンドラインクライアント。 hbase-rest-server 1.4.13 HBase の RESTful HTTP エンドポイントを提供するサービス。 hbase-thrift-server 1.4.13 HBase に Thrift エンドポイントを提供するサービス。 hcatalog-client 2.3.6-amzn-2 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。 hcatalog-server 2.3.6-amzn-2 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。 hcatalog-webhcat-server 2.3.6-amzn-2 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。 hive-client 2.3.6-amzn-2 Hive コマンドラインクライアント。 hive-hbase 2.3.6-amzn-2 Hive-hbase クライアント。 hive-metastore-server 2.3.6-amzn-2 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。 hive-server2 2.3.6-amzn-2 Hive クエリをウェブリクエストとして受け入れるサービス。 hudi 0.5.2-incubating データパイプラインを強化する低レイテンシーかつ高効率な増分処理フレームワーク。 hudi-presto 0.5.2-incubating Presto を Hudi で実行するためのバンドルライブラリ。 hue-server 4.6.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション jupyterhub 1.1.0 Jupyter ノートブックのマルチユーザーサーバー livy-server 0.7.0-incubating Apache Spark を操作するための REST インターフェイス nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー mahout-client 0.13.0 機械学習用のライブラリ。 mxnet. 1.5.1 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。 mariadb-server 5.5.64 MySQL データベースサーバー。 nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット oozie-client 5.2.0 Oozie コマンドラインクライアント。 oozie-server 5.2.0 Oozie ワークフローリクエストを受け入れるサービス。 opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。 phoenix-library 4.14.3-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ phoenix-query-server 4.14.3-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー presto-coordinator 0.232 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。 presto-worker 0.232 いくつかのクエリを実行するサービス。 presto-client 0.232 Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。 pig-client 0.17.0 Pig コマンドラインクライアント。 r 3.4.3 統計的コンピューティング用 R プロジェクト ranger-kms-server 1.2.0 Apache Ranger Key Management System spark-client 2.4.5-amzn-0 Spark コマンドラインクライアント。 spark-history-server 2.4.5-amzn-0 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。 spark-on-yarn 2.4.5-amzn-0 YARN のメモリ内実行エンジン。 spark-yarn-slave 2.4.5-amzn-0 YARN スレーブで必要な Apache Spark ライブラリ。 sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。 tensorflow 1.14.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。 tez-on-yarn 0.9.2 tez YARN アプリケーションおよびライブラリ。 webserver 2.4.25+ Apache HTTP サーバー。 zeppelin-server 0.8.2 インタラクティブなデータ分析を可能にするウェブベースのノートブック。 zookeeper-server 3.4.14 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。 zookeeper-client 3.4.14 ZooKeeper コマンドラインクライアント。 分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、
hive-site.xml
など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。emr-5.30.1 の分類分類 説明: capacity-scheduler
Hadoop の capacity-scheduler.xml ファイルの値を変更します。
container-log4j
Hadoop YARN の container-log4j.properties ファイルの値を変更します。
core-site
Hadoop の core-site.xml ファイルの値を変更します。
emrfs-site
EMRFS の設定を変更します。
flink-conf
flink-conf.yaml の設定を変更します。
flink-log4j
Flink log4j.properties の設定を変更します。
flink-log4j-yarn-session
Flink log4j-yarn-session.properties の設定を変更します。
flink-log4j-cli
Flink log4j-cli.properties の設定を変更します。
hadoop-env
Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。
hadoop-log4j
Hadoop の log4j.properties ファイルの値を変更します。
hadoop-ssl-server
Hadoop ssl のサーバー設定を変更します。
hadoop-ssl-client
Hadoop ssl のクライアント設定を変更します。
hbase
Apache HBase 用の Amazon EMR-curated 設定。
hbase-env
HBase の環境の値を変更します。
hbase-log4j
HBase の hbase-log4j.properties ファイルの値を変更します。
hbase-metrics
HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。
hbase-policy
HBase の hbase-policy.xml ファイルの値を変更します。
hbase-site
HBase の hbase-site.xml ファイルの値を変更します。
hdfs-encryption-zones
HDFS 暗号化ゾーンを設定します。
hdfs-site
HDFS の hdfs-site.xml の値を変更します。
hcatalog-env
HCatalog 環境の値を変更します。
hcatalog-server-jndi
HCatalog の jndi.properties の値を変更します。
hcatalog-server-proto-hive-site
HCatalog の proto-hive-site.xml の値を変更します。
hcatalog-webhcat-env
HCatalog WebHCat 環境の値を変更します。
hcatalog-webhcat-log4j2
HCatalog WebHCat の log4j2.properties の値を変更します。
hcatalog-webhcat-site
HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。
hive-beeline-log4j2
Hive の beeline-log4j2.properties ファイルの値を変更します。
hive-parquet-logging
Hive の parquet-logging.properties ファイルの値を変更します。
hive-env
Hive 環境の値を変更します。
hive-exec-log4j2
Hive の hive-exec-log4j2.properties ファイルの値を変更します。
hive-llap-daemon-log4j2
Hive の llap-daemon-log4j2.properties ファイルの値を変更します。
hive-log4j2
Hive の hive-log4j2.properties ファイルの値を変更します。
hive-site
Hive の hive-site.xml ファイルの値を変更します
hiveserver2-site
Hive Server2 の hiveserver2-site.xml ファイルの値を変更します
hue-ini
Hue の ini ファイルの値を変更します
httpfs-env
HTTPFS 環境の値を変更します。
httpfs-site
Hadoop の httpfs-site.xml ファイルの値を変更します。
hadoop-kms-acls
Hadoop の kms-acls.xml ファイルの値を変更します。
hadoop-kms-env
Hadoop KMS 環境の値を変更します。
hadoop-kms-log4j
Hadoop の kms-log4j.properties ファイルの値を変更します。
hadoop-kms-site
Hadoop の kms-site.xml ファイルの値を変更します。
hudi-env
Hudi 環境の値を変更します。
jupyter-notebook-conf
Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。
jupyter-hub-conf
JupyterHubs の jupyterhub_config.py ファイルの値を変更します。
jupyter-s3-conf
Jupyter ノートブックの S3 の永続性を設定します。
jupyter-sparkmagic-conf
Sparkmagic の config.json ファイルの値を変更します。
livy-conf
Livy の livy.conf ファイルの値を変更します。
livy-env
Livy 環境の値を変更します。
livy-log4j
Livy の log4j.properties の設定を変更します。
mapred-env
MapReduce アプリケーションの環境の値を変更します。
mapred-site
MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。
oozie-env
Oozie の環境の値を変更します。
oozie-log4j
Oozie の oozie-log4j.properties ファイルの値を変更します。
oozie-site
Oozie の oozie-site.xml ファイルの値を変更します。
phoenix-hbase-metrics
Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。
phoenix-hbase-site
Phoenix の hbase-site.xml ファイルの値を変更します。
phoenix-log4j
Phoenix の log4j.properties ファイルの値を変更します。
phoenix-metrics
Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。
pig-env
Pig 環境の値を変更します。
pig-properties
Pig の pig.properties ファイルの値を変更します。
pig-log4j
Pig の log4j.properties ファイルの値を変更します。
presto-log
Presto の log.properties ファイルの値を変更します。
presto-config
Presto の config.properties ファイルの値を変更します。
presto-password-authenticator
Presto の password-authenticator.properties ファイルの値を変更します。
presto-env
Presto の presto-env.sh ファイルの値を変更します。
presto-node
Presto の node.properties ファイルの値を変更します。
presto-connector-blackhole
Presto の blackhole.properties ファイルの値を変更します。
presto-connector-cassandra
Presto の cassandra.properties ファイルの値を変更します。
presto-connector-hive
Presto の hive.properties ファイルの値を変更します。
presto-connector-jmx
Presto の jmx.properties ファイルの値を変更します。
presto-connector-kafka
Presto の kafka.properties ファイルの値を変更します。
presto-connector-localfile
Presto の localfile.properties ファイルの値を変更します。
presto-connector-memory
Presto の memory.properties ファイルの値を変更します。
presto-connector-mongodb
Presto の mongodb.properties ファイルの値を変更します。
presto-connector-mysql
Presto の musql.properties ファイルの値を変更します。
presto-connector-postgresql
Presto の postgresql.properties ファイルの値を変更します。
presto-connector-raptor
Presto の raptor.properties ファイルの値を変更します。
presto-connector-redis
Presto の redis.properties ファイルの値を変更します。
presto-connector-redshift
Presto の redshift.properties ファイルの値を変更します。
presto-connector-tpch
Presto の tpcj.properties ファイルの値を変更します。
presto-connector-tpcds
Presto の tpcds.properties ファイルの値を変更します。
ranger-kms-dbks-site
Ranger KMS の dbks-site.xml ファイルの値を変更します。
ranger-kms-site
Ranger KMS の ranger-kms-site.xml ファイルの値を変更します。
ranger-kms-env
Ranger KMS 環境の値を変更します。
ranger-kms-log4j
Ranger KMS の kms-log4j.properties ファイルの値を変更します。
ranger-kms-db-ca
Ranger KMS を使用した MySQL SSL 接続用の S3 の CA ファイルの値を変更します。
recordserver-env
EMR RecordServer 環境の値を変更します。
recordserver-conf
EMR RecordServer の erver.properties ファイルの値を変更します。
recordserver-log4j
EMR RecordServer の log4j.properties ファイルの値を変更します。
spark
Apache Spark 用の Amazon EMR-curated 設定。
spark-defaults
Spark の spark-defaults.conf ファイルの値を変更します。
spark-env
Spark 環境の値を変更します。
spark-hive-site
Spark の hive-site.xml ファイルの値を変更します
spark-log4j
Spark の log4j.properties ファイルの値を変更します。
spark-metrics
Spark の metrics.properties ファイルの値を変更します。
sqoop-env
Sqoop の環境の値を変更します。
sqoop-oraoop-site
Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。
sqoop-site
Sqoop の sqoop-site.xml ファイルの値を変更します。
tez-site
Tez の tez-site.xml ファイルの値を変更します。
yarn-env
YARN 環境の値を変更します。
yarn-site
YARN の yarn-site.xml ファイルの値を変更します。
zeppelin-env
Zeppelin 環境の値を変更します。
zookeeper-config
ZooKeeper の zoo.cfg ファイルの値を変更します。
zookeeper-log4j
ZooKeeper の log4j.properties ファイルの値を変更します。
このリリースでは、次のアプリケーションがサポートされています。 Flink
, Ganglia , Hadoop , HBase , HCatalog , Hive , Hue , JupyterHub , Livy , Mahout , MXNet , Oozie , Phoenix , Pig , Presto , Spark , Sqoop , TensorFlow , Tez , Zeppelin 、、および ZooKeeper . 次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。
Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。
次のリリースノートは、Amazon EMR リリースバージョン 5.30.0 に関する情報を記載しています。5.29.0 からの変更が含まれています。
初回リリース日: 2020 年 5 月 13 日
最終更新日: 2020 年 6 月 25 日
アップグレード
-
AWS SDK for Java をバージョン 1.11.759 にアップグレードしました
-
Amazon SageMaker Spark SDK をバージョン 1.3.0 にアップグレードしました
-
EMR Record Server をバージョン 1.6.0 にアップグレードしました
-
Flink をバージョン 1.10.0 にアップグレードしました
-
Ganglia をバージョン 3.7.2 にアップグレードしました
-
HBase をバージョン 1.4.13 にアップグレードしました
-
Hudi をバージョン 0.5.2 (incubating) にアップグレードしました
-
Hue をバージョン 4.6.0 にアップグレードしました
-
JupyterHub をバージョン 1.1.0 にアップグレードしました
-
Livy をバージョン 0.7.0 (incubating) にアップグレードしました
-
Oozie をバージョン 5.2.0 にアップグレードしました
-
Presto をバージョン 0.232 にアップグレードしました
-
Spark をバージョン 2.4.5 にアップグレードしました
-
コネクタとドライバーをアップグレードしました: Amazon Glue Connector 1.12.0、Amazon Kinesis Connector 3.5.0、EMR DynamoDB Connector 4.14.0
新機能
-
EMR Notebooks – 5.30.0 を使用して作成された EMR クラスターで使用すると、EMR ノートブック カーネルはクラスター上で実行されます。これにより、ノートブックのパフォーマンスが向上し、カーネルをインストールおよびカスタマイズすることができます。また、クラスターのマスターノードに Python ライブラリをインストールすることもできます。詳細については、EMR 管理ガイドの「カーネルとライブラリのインストールと使用」を参照してください。
-
マネージドスケーリング – Amazon EMR バージョン 5.30.0 以降では、EMR マネージドスケーリングを有効にすることで、ワークロードに応じてクラスター内のインスタンスやユニットの数を自動的に増減できます。EMR は引き続きクラスターのメトリクスを評価し、クラスターのコストと速度を最適化するためのスケーリングを決定します。詳細については、Amazon EMR 管理ガイドの「クラスターリソースのスケーリング」を参照してください。
-
Amazon S3 に保存されているログファイルの暗号化 – Amazon EMR バージョン 5.30.0 以降では、AWS KMS カスタマー管理キーを使用して Amazon S3 に格納されたログファイルを暗号化することができます。詳細については、Amazon EMR 管理ガイド の「Amazon S3 に保存されているログファイルを暗号化する」を参照してください。
-
Amazon Linux 2 のサポート –EMR バージョン 5.30.0 以降では、Amazon Linux 2 OS を使用します。新しいカスタム AMI (Amazon マシンイメージ) は、Amazon Linux 2 AMI に基づいている必要があります。詳細については、「カスタム AMI の使用」を参照してください。
-
Presto Graceful Auto Scale – 5.30.0 を使用する EMR クラスターでは、Auto Scaling タイムアウト期間を設定することで、Presto タスクの実行が終了するまで待ってからノードの使用を停止できます。詳細については、「グレースフルな廃止による Presto Auto Scaling の使用」を参照してください。
-
新しい割り当て戦略オプションを使用したフリートインスタンスの作成 – 新しい割り当て戦略オプションは、EMR バージョン 5.12.1 以降で使用できます。これにより、より高速なクラスターのプロビジョニング、より正確なスポット割り当て、より少ないスポットインスタンスの中断を実現できます。デフォルト以外の EMR サービスロールの更新が必要です。「インスタンスフリートを設定する」を参照してください。
-
sudo systemctl stop および sudo systemctl start コマンド– Amazon Linux 2 OS を使用する EMR バージョン 5.30.0 以降では、EMR は
sudo systemctl stop
およびsudo systemctl start
コマンドを使用してサービスを再起動します。詳細については、「Amazon EMR のサービスを再起動するにはどうすればよいですか?」を参照してください。
変更、拡張、解決した問題
-
EMR バージョン 5.30.0 では、デフォルトで Ganglia がインストールされません。クラスターの作成時に、Ganglia を明示的に選択してインストールできます。
-
Spark パフォーマンスの最適化。
-
Presto パフォーマンスの最適化。
-
Amazon EMR バージョン 5.30.0 以降では、Python 3 がデフォルトです。
-
プライベートサブネット内のサービスアクセス用のデフォルトのマネージドセキュリティグループが更新され、複数の新しいルールが追加されました。サービスアクセスにカスタムセキュリティグループを使用している場合は、同じルールをデフォルトのマネージドセキュリティグループとして含める必要があります。詳細については、「サービスアクセスの Amazon EMR マネージドセキュリティグループ (プライベートサブネット)」を参照してください。Amazon EMR でカスタムサービスロールを使用している場合は、
ec2:describeSecurityGroups
にアクセス許可を付与して、セキュリティグループが正常に作成されたかどうかを EMR で検証できるようにする必要があります。EMR_DefaultRole
を使用する場合、このアクセス許可はデフォルトのマネージドポリシーに既に含まれています。
既知の問題
-
Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.
The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.
Explicitly set a ulimit from the command line
-
Edit
/etc/systemd/system/instance-controller.service
to add the following parameters to Service section.LimitNOFILE=65536
LimitNPROC=65536
-
Restart InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Set a ulimit using bootstrap action (BA)
You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
-
-
マネージドスケーリング
Presto をインストールせずに 5.30.0 および 5.30.1 クラスターで管理されたスケーリング操作を行うと、アプリケーションの障害を引き起こしたり、均一なインスタンスグループまたはインスタンスフリートが
ARRESTED
状態のままになることがあります。特に、スケールダウン操作の後、すぐにスケールアップ操作が実行される場合です。回避策として、ジョブの実行に Presto を必要としない場合でも、クラスターの作成時にインストールするアプリケーションとして Presto を選択します。
-
Known issue in clusters with multiple master nodes and Kerberos authentication
If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.
Workaround:
-
SSH as
hadoop
user to the lead master node of the EMR cluster with multiple master nodes. -
Run the following command to renew Kerberos ticket for
hadoop
user.kinit -kt <keytab_file> <principal>
Typically, the keytab file is located at
/etc/hadoop.keytab
and the principal is in the form ofhadoop/<hostname>@<REALM>
.
注記 This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.
-
コンポーネント Version 説明: aws-sagemaker-spark-sdk 1.3.0 Amazon SageMaker Spark SDK emr-ddb 4.14.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクター。 emr-goodies 2.13.0 Hadoop エコシステムに役立つ追加のライブラリ。 emr-kinesis 3.5.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。 emr-notebook-env 1.0.0 EMR ノートブック用 Conda env emr-s3-dist-cp 2.14.0 Amazon S3 に最適化された分散コピーアプリケーション。 emr-s3-select 1.5.0 EMR S3Select コネクター emrfs 2.40.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクター。 flink-client 1.10.0 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。 ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。 ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。 ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。 hadoop-client 2.8.5-amzn-6 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。 hadoop-hdfs-datanode 2.8.5-amzn-6 ブロックを保存する HDFS ノードレベルのサービス。 hadoop-hdfs-library 2.8.5-amzn-6 HDFS コマンドラインクライアントとライブラリ hadoop-hdfs-namenode 2.8.5-amzn-6 ファイル名を追跡し、場所をブロックする HDFS サービス。 hadoop-hdfs-journalnode 2.8.5-amzn-6 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。 hadoop-httpfs-server 2.8.5-amzn-6 HDFS オペレーションの HTTP エンドポイント。 hadoop-kms-server 2.8.5-amzn-6 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。 hadoop-mapred 2.8.5-amzn-6 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。 hadoop-yarn-nodemanager 2.8.5-amzn-6 個別のノードでコンテナを管理する YARN サービス。 hadoop-yarn-resourcemanager 2.8.5-amzn-6 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。 hadoop-yarn-timeline-server 2.8.5-amzn-6 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。 hbase-hmaster 1.4.13 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。 hbase-region-server 1.4.13 1 つ以上の HBase リージョンに対応するサービス。 hbase-client 1.4.13 HBase コマンドラインクライアント。 hbase-rest-server 1.4.13 HBase の RESTful HTTP エンドポイントを提供するサービス。 hbase-thrift-server 1.4.13 HBase に Thrift エンドポイントを提供するサービス。 hcatalog-client 2.3.6-amzn-2 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。 hcatalog-server 2.3.6-amzn-2 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。 hcatalog-webhcat-server 2.3.6-amzn-2 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。 hive-client 2.3.6-amzn-2 Hive コマンドラインクライアント。 hive-hbase 2.3.6-amzn-2 Hive-hbase クライアント。 hive-metastore-server 2.3.6-amzn-2 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。 hive-server2 2.3.6-amzn-2 Hive クエリをウェブリクエストとして受け入れるサービス。 hudi 0.5.2-incubating データパイプラインを強化する低レイテンシーかつ高効率な増分処理フレームワーク。 hudi-presto 0.5.2-incubating Presto を Hudi で実行するためのバンドルライブラリ。 hue-server 4.6.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション jupyterhub 1.1.0 Jupyter ノートブックのマルチユーザーサーバー livy-server 0.7.0-incubating Apache Spark を操作するための REST インターフェイス nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー mahout-client 0.13.0 機械学習用のライブラリ。 mxnet. 1.5.1 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。 mariadb-server 5.5.64 MySQL データベースサーバー。 nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット oozie-client 5.2.0 Oozie コマンドラインクライアント。 oozie-server 5.2.0 Oozie ワークフローリクエストを受け入れるサービス。 opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。 phoenix-library 4.14.3-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ phoenix-query-server 4.14.3-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー presto-coordinator 0.232 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。 presto-worker 0.232 いくつかのクエリを実行するサービス。 presto-client 0.232 Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。 pig-client 0.17.0 Pig コマンドラインクライアント。 r 3.4.3 統計的コンピューティング用 R プロジェクト ranger-kms-server 1.2.0 Apache Ranger Key Management System spark-client 2.4.5-amzn-0 Spark コマンドラインクライアント。 spark-history-server 2.4.5-amzn-0 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。 spark-on-yarn 2.4.5-amzn-0 YARN のメモリ内実行エンジン。 spark-yarn-slave 2.4.5-amzn-0 YARN スレーブで必要な Apache Spark ライブラリ。 sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。 tensorflow 1.14.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。 tez-on-yarn 0.9.2 tez YARN アプリケーションおよびライブラリ。 webserver 2.4.25+ Apache HTTP サーバー。 zeppelin-server 0.8.2 インタラクティブなデータ分析を可能にするウェブベースのノートブック。 zookeeper-server 3.4.14 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。 zookeeper-client 3.4.14 ZooKeeper コマンドラインクライアント。 分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、
hive-site.xml
など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。emr-5.30.0 の分類分類 説明 capacity-scheduler
Hadoop の capacity-scheduler.xml ファイルの値を変更します。
container-log4j
Hadoop YARN の container-log4j.properties ファイルの値を変更します。
core-site
Hadoop の core-site.xml ファイルの値を変更します。
emrfs-site
EMRFS の設定を変更します。
flink-conf
flink-conf.yaml の設定を変更します。
flink-log4j
Flink log4j.properties の設定を変更します。
flink-log4j-yarn-session
Flink log4j-yarn-session.properties の設定を変更します。
flink-log4j-cli
Flink log4j-cli.properties の設定を変更します。
hadoop-env
Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。
hadoop-log4j
Hadoop の log4j.properties ファイルの値を変更します。
hadoop-ssl-server
Hadoop ssl のサーバー設定を変更します。
hadoop-ssl-client
Hadoop ssl のクライアント設定を変更します。
hbase
Apache HBase 用の Amazon EMR-curated 設定。
hbase-env
HBase の環境の値を変更します。
hbase-log4j
HBase の hbase-log4j.properties ファイルの値を変更します。
hbase-metrics
HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。
hbase-policy
HBase の hbase-policy.xml ファイルの値を変更します。
hbase-site
HBase の hbase-site.xml ファイルの値を変更します。
hdfs-encryption-zones
HDFS 暗号化ゾーンを設定します。
hdfs-site
HDFS の hdfs-site.xml の値を変更します。
hcatalog-env
HCatalog 環境の値を変更します。
hcatalog-server-jndi
HCatalog の jndi.properties の値を変更します。
hcatalog-server-proto-hive-site
HCatalog の proto-hive-site.xml の値を変更します。
hcatalog-webhcat-env
HCatalog WebHCat 環境の値を変更します。
hcatalog-webhcat-log4j2
HCatalog WebHCat の log4j2.properties の値を変更します。
hcatalog-webhcat-site
HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。
hive-beeline-log4j2
Hive の beeline-log4j2.properties ファイルの値を変更します。
hive-parquet-logging
Hive の parquet-logging.properties ファイルの値を変更します。
hive-env
Hive 環境の値を変更します。
hive-exec-log4j2
Hive の hive-exec-log4j2.properties ファイルの値を変更します。
hive-llap-daemon-log4j2
Hive の llap-daemon-log4j2.properties ファイルの値を変更します。
hive-log4j2
Hive の hive-log4j2.properties ファイルの値を変更します。
hive-site
Hive の hive-site.xml ファイルの値を変更します
hiveserver2-site
Hive Server2 の hiveserver2-site.xml ファイルの値を変更します
hue-ini
Hue の ini ファイルの値を変更します
httpfs-env
HTTPFS 環境の値を変更します。
httpfs-site
Hadoop の httpfs-site.xml ファイルの値を変更します。
hadoop-kms-acls
Hadoop の kms-acls.xml ファイルの値を変更します。
hadoop-kms-env
Hadoop KMS 環境の値を変更します。
hadoop-kms-log4j
Hadoop の kms-log4j.properties ファイルの値を変更します。
hadoop-kms-site
Hadoop の kms-site.xml ファイルの値を変更します。
hudi-env
Hudi 環境の値を変更します。
jupyter-notebook-conf
Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。
jupyter-hub-conf
JupyterHubs の jupyterhub_config.py ファイルの値を変更します。
jupyter-s3-conf
Jupyter ノートブックの S3 の永続性を設定します。
jupyter-sparkmagic-conf
Sparkmagic の config.json ファイルの値を変更します。
livy-conf
Livy の livy.conf ファイルの値を変更します。
livy-env
Livy 環境の値を変更します。
livy-log4j
Livy の log4j.properties の設定を変更します。
mapred-env
MapReduce アプリケーションの環境の値を変更します。
mapred-site
MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。
oozie-env
Oozie の環境の値を変更します。
oozie-log4j
Oozie の oozie-log4j.properties ファイルの値を変更します。
oozie-site
Oozie の oozie-site.xml ファイルの値を変更します。
phoenix-hbase-metrics
Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。
phoenix-hbase-site
Phoenix の hbase-site.xml ファイルの値を変更します。
phoenix-log4j
Phoenix の log4j.properties ファイルの値を変更します。
phoenix-metrics
Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。
pig-env
Pig 環境の値を変更します。
pig-properties
Pig の pig.properties ファイルの値を変更します。
pig-log4j
Pig の log4j.properties ファイルの値を変更します。
presto-log
Presto の log.properties ファイルの値を変更します。
presto-config
Presto の config.properties ファイルの値を変更します。
presto-password-authenticator
Presto の password-authenticator.properties ファイルの値を変更します。
presto-env
Presto の presto-env.sh ファイルの値を変更します。
presto-node
Presto の node.properties ファイルの値を変更します。
presto-connector-blackhole
Presto の blackhole.properties ファイルの値を変更します。
presto-connector-cassandra
Presto の cassandra.properties ファイルの値を変更します。
presto-connector-hive
Presto の hive.properties ファイルの値を変更します。
presto-connector-jmx
Presto の jmx.properties ファイルの値を変更します。
presto-connector-kafka
Presto の kafka.properties ファイルの値を変更します。
presto-connector-localfile
Presto の localfile.properties ファイルの値を変更します。
presto-connector-memory
Presto の memory.properties ファイルの値を変更します。
presto-connector-mongodb
Presto の mongodb.properties ファイルの値を変更します。
presto-connector-mysql
Presto の musql.properties ファイルの値を変更します。
presto-connector-postgresql
Presto の postgresql.properties ファイルの値を変更します。
presto-connector-raptor
Presto の raptor.properties ファイルの値を変更します。
presto-connector-redis
Presto の redis.properties ファイルの値を変更します。
presto-connector-redshift
Presto の redshift.properties ファイルの値を変更します。
presto-connector-tpch
Presto の tpcj.properties ファイルの値を変更します。
presto-connector-tpcds
Presto の tpcds.properties ファイルの値を変更します。
ranger-kms-dbks-site
Ranger KMS の dbks-site.xml ファイルの値を変更します。
ranger-kms-site
Ranger KMS の ranger-kms-site.xml ファイルの値を変更します。
ranger-kms-env
Ranger KMS 環境の値を変更します。
ranger-kms-log4j
Ranger KMS の kms-log4j.properties ファイルの値を変更します。
ranger-kms-db-ca
Ranger KMS を使用した MySQL SSL 接続用の S3 の CA ファイルの値を変更します。
recordserver-env
EMR RecordServer 環境の値を変更します。
recordserver-conf
EMR RecordServer の erver.properties ファイルの値を変更します。
recordserver-log4j
EMR RecordServer の log4j.properties ファイルの値を変更します。
spark
Apache Spark 用の Amazon EMR-curated 設定。
spark-defaults
Spark の spark-defaults.conf ファイルの値を変更します。
spark-env
Spark 環境の値を変更します。
spark-hive-site
Spark の hive-site.xml ファイルの値を変更します
spark-log4j
Spark の log4j.properties ファイルの値を変更します。
spark-metrics
Spark の metrics.properties ファイルの値を変更します。
sqoop-env
Sqoop の環境の値を変更します。
sqoop-oraoop-site
Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。
sqoop-site
Sqoop の sqoop-site.xml ファイルの値を変更します。
tez-site
Tez の tez-site.xml ファイルの値を変更します。
yarn-env
YARN 環境の値を変更します。
yarn-site
YARN の yarn-site.xml ファイルの値を変更します。
zeppelin-env
Zeppelin 環境の値を変更します。
zookeeper-config
ZooKeeper の zoo.cfg ファイルの値を変更します。
zookeeper-log4j
ZooKeeper の log4j.properties ファイルの値を変更します。
-
- 5.29.0
-
Amazon EMR リリース 5.29.0
このリリースでは、次のアプリケーションがサポートされています。 Flink
, Ganglia , Hadoop , HBase , HCatalog , Hive , Hue , JupyterHub , Livy , Mahout , MXNet , Oozie , Phoenix , Pig , Presto , Spark , Sqoop , TensorFlow , Tez , Zeppelin 、、および ZooKeeper . 次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。
Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。
次のリリースノートには、Amazon EMR リリースバージョン 5.29.0 に関する情報が含まれています。変更は 5.28.1 に関連するものです。
初回リリース日: 2020 年 1 月 17 日
アップグレード
-
AWS Java SDK を 1.11.682 にアップグレードしました
-
Hive をバージョン 2.3.6 にアップグレードしました
-
Flink をバージョン 1.9.1 にアップグレードしました
-
EmrFS をバージョン 2.38.0 にアップグレードしました
-
EMR DynamoDB Connector をバージョン 4.13.0 にアップグレードしました
変更、拡張、解決した問題
-
Spark
-
Spark パフォーマンスの最適化。
-
-
EMRFS
-
整合性のあるビューが得られるように管理ガイドを emrfs-site.xml デフォルト設定に更新します。
-
既知の問題
-
Known issue in clusters with multiple master nodes and Kerberos authentication
If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.
Workaround:
-
SSH as
hadoop
user to the lead master node of the EMR cluster with multiple master nodes. -
Run the following command to renew Kerberos ticket for
hadoop
user.kinit -kt <keytab_file> <principal>
Typically, the keytab file is located at
/etc/hadoop.keytab
and the principal is in the form ofhadoop/<hostname>@<REALM>
.
注記 This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.
-
このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、
emr
またはaws
で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。Amazon EMR の一部のコンポーネントは、コミュニティバージョンとは異なります。これらのコンポーネントには、
の形式のバージョンラベルがあります。CommunityVersion
-amzn-EmrVersion
は 0 から始まります。たとえば、バージョン 2.2 のEmrVersion
myapp-component
というオープンソースコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは2.2-amzn-2
として表示されます。コンポーネント バージョン 説明 aws-sagemaker-spark-sdk 1.2.6 Amazon SageMaker Spark SDK emr-ddb 4.13.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクター。 emr-goodies 2.12.0 Hadoop エコシステムに役立つ追加のライブラリ。 emr-kinesis 3.4.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。 emr-s3-dist-cp 2.13.0 Amazon S3 に最適化された分散コピーアプリケーション。 emr-s3-select 1.4.0 EMR S3Select コネクター emrfs 2.38.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクター。 flink-client 1.9.1 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。 ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。 ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。 ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。 hadoop-client 2.8.5-amzn-5 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。 hadoop-hdfs-datanode 2.8.5-amzn-5 ブロックを保存する HDFS ノードレベルのサービス。 hadoop-hdfs-library 2.8.5-amzn-5 HDFS コマンドラインクライアントとライブラリ hadoop-hdfs-namenode 2.8.5-amzn-5 ファイル名を追跡し、場所をブロックする HDFS サービス。 hadoop-hdfs-journalnode 2.8.5-amzn-5 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。 hadoop-httpfs-server 2.8.5-amzn-5 HDFS オペレーションの HTTP エンドポイント。 hadoop-kms-server 2.8.5-amzn-5 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。 hadoop-mapred 2.8.5-amzn-5 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。 hadoop-yarn-nodemanager 2.8.5-amzn-5 個別のノードでコンテナを管理する YARN サービス。 hadoop-yarn-resourcemanager 2.8.5-amzn-5 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。 hadoop-yarn-timeline-server 2.8.5-amzn-5 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。 hbase-hmaster 1.4.10 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。 hbase-region-server 1.4.10 1 つ以上の HBase リージョンに対応するサービス。 hbase-client 1.4.10 HBase コマンドラインクライアント。 hbase-rest-server 1.4.10 HBase の RESTful HTTP エンドポイントを提供するサービス。 hbase-thrift-server 1.4.10 HBase に Thrift エンドポイントを提供するサービス。 hcatalog-client 2.3.6-amzn-1 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。 hcatalog-server 2.3.6-amzn-1 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。 hcatalog-webhcat-server 2.3.6-amzn-1 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。 hive-client 2.3.6-amzn-1 Hive コマンドラインクライアント。 hive-hbase 2.3.6-amzn-1 Hive-hbase クライアント。 hive-metastore-server 2.3.6-amzn-1 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。 hive-server2 2.3.6-amzn-1 Hive クエリをウェブリクエストとして受け入れるサービス。 hudi 0.5.0-incubating データパイプラインを強化する低レイテンシーかつ高効率な増分処理フレームワーク。 hudi-presto 0.5.0-incubating Presto を Hudi で実行するためのバンドルライブラリ。 hue-server 4.4.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション jupyterhub 1.0.0 Jupyter ノートブックのマルチユーザーサーバー livy-server 0.6.0-incubating Apache Spark を操作するための REST インターフェイス nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー mahout-client 0.13.0 機械学習用のライブラリ。 mxnet 1.5.1 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。 mysql-server 5.5.54+ MySQL データベースサーバー。 nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット oozie-client 5.1.0 Oozie コマンドラインクライアント。 oozie-server 5.1.0 Oozie ワークフローリクエストを受け入れるサービス。 opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。 phoenix-library 4.14.3-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ phoenix-query-server 4.14.3-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー presto-coordinator 0.227 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。 presto-worker 0.227 いくつかのクエリを実行するサービス。 presto-client 0.227 Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。 pig-client 0.17.0 Pig コマンドラインクライアント。 r 3.4.1 統計的コンピューティング用 R プロジェクト spark-client 2.4.4 Spark コマンドラインクライアント。 spark-history-server 2.4.4 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。 spark-on-yarn 2.4.4 YARN のメモリ内実行エンジン。 spark-yarn-slave 2.4.4 YARN スレーブで必要な Apache Spark ライブラリ。 sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。 tensorflow 1.14.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。 tez-on-yarn 0.9.2 tez YARN アプリケーションおよびライブラリ。 webserver 2.4.25+ Apache HTTP サーバー。 zeppelin-server 0.8.2 インタラクティブなデータ分析を可能にするウェブベースのノートブック。 zookeeper-server 3.4.14 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。 zookeeper-client 3.4.14 ZooKeeper コマンドラインクライアント。 分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、
hive-site.xml
など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。emr-5.29.0 分類分類 説明 capacity-scheduler
Hadoop の capacity-scheduler.xml ファイルの値を変更します。
container-log4j
Hadoop YARN の container-log4j.properties ファイルの値を変更します。
core-site
Hadoop の core-site.xml ファイルの値を変更します。
emrfs-site
EMRFS の設定を変更します。
flink-conf
flink-conf.yaml の設定を変更します。
flink-log4j
Flink log4j.properties の設定を変更します。
flink-log4j-yarn-session
Flink log4j-yarn-session.properties の設定を変更します。
flink-log4j-cli
Flink log4j-cli.properties の設定を変更します。
hadoop-env
Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。
hadoop-log4j
Hadoop の log4j.properties ファイルの値を変更します。
hadoop-ssl-server
Hadoop ssl のサーバー設定を変更します。
hadoop-ssl-client
Hadoop ssl のクライアント設定を変更します。
hbase
Apache HBase 用の Amazon EMR-curated 設定。
hbase-env
HBase の環境の値を変更します。
hbase-log4j
HBase の hbase-log4j.properties ファイルの値を変更します。
hbase-metrics
HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。
hbase-policy
HBase の hbase-policy.xml ファイルの値を変更します。
hbase-site
HBase の hbase-site.xml ファイルの値を変更します。
hdfs-encryption-zones
HDFS 暗号化ゾーンを設定します。
hdfs-site
HDFS の hdfs-site.xml の値を変更します。
hcatalog-env
HCatalog 環境の値を変更します。
hcatalog-server-jndi
HCatalog の jndi.properties の値を変更します。
hcatalog-server-proto-hive-site
HCatalog の proto-hive-site.xml の値を変更します。
hcatalog-webhcat-env
HCatalog WebHCat 環境の値を変更します。
hcatalog-webhcat-log4j2
HCatalog WebHCat の log4j2.properties の値を変更します。
hcatalog-webhcat-site
HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。
hive-beeline-log4j2
Hive の beeline-log4j2.properties ファイルの値を変更します。
hive-parquet-logging
Hive の parquet-logging.properties ファイルの値を変更します。
hive-env
Hive 環境の値を変更します。
hive-exec-log4j2
Hive の hive-exec-log4j2.properties ファイルの値を変更します。
hive-llap-daemon-log4j2
Hive の llap-daemon-log4j2.properties ファイルの値を変更します。
hive-log4j2
Hive の hive-log4j2.properties ファイルの値を変更します。
hive-site
Hive の hive-site.xml ファイルの値を変更します
hiveserver2-site
Hive Server2 の hiveserver2-site.xml ファイルの値を変更します
hue-ini
Hue の ini ファイルの値を変更します
httpfs-env
HTTPFS 環境の値を変更します。
httpfs-site
Hadoop の httpfs-site.xml ファイルの値を変更します。
hadoop-kms-acls
Hadoop の kms-acls.xml ファイルの値を変更します。
hadoop-kms-env
Hadoop KMS 環境の値を変更します。
hadoop-kms-log4j
Hadoop の kms-log4j.properties ファイルの値を変更します。
hadoop-kms-site
Hadoop の kms-site.xml ファイルの値を変更します。
jupyter-notebook-conf
Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。
jupyter-hub-conf
JupyterHubs の jupyterhub_config.py ファイルの値を変更します。
jupyter-s3-conf
Jupyter ノートブックの S3 の永続性を設定します。
jupyter-sparkmagic-conf
Sparkmagic の config.json ファイルの値を変更します。
livy-conf
Livy の livy.conf ファイルの値を変更します。
livy-env
Livy 環境の値を変更します。
livy-log4j
Livy の log4j.properties の設定を変更します。
mapred-env
MapReduce アプリケーションの環境の値を変更します。
mapred-site
MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。
oozie-env
Oozie の環境の値を変更します。
oozie-log4j
Oozie の oozie-log4j.properties ファイルの値を変更します。
oozie-site
Oozie の oozie-site.xml ファイルの値を変更します。
phoenix-hbase-metrics
Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。
phoenix-hbase-site
Phoenix の hbase-site.xml ファイルの値を変更します。
phoenix-log4j
Phoenix の log4j.properties ファイルの値を変更します。
phoenix-metrics
Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。
pig-env
Pig 環境の値を変更します。
pig-properties
Pig の pig.properties ファイルの値を変更します。
pig-log4j
Pig の log4j.properties ファイルの値を変更します。
presto-log
Presto の log.properties ファイルの値を変更します。
presto-config
Presto の config.properties ファイルの値を変更します。
presto-password-authenticator
Presto の password-authenticator.properties ファイルの値を変更します。
presto-env
Presto の presto-env.sh ファイルの値を変更します。
presto-node
Presto の node.properties ファイルの値を変更します。
presto-connector-blackhole
Presto の blackhole.properties ファイルの値を変更します。
presto-connector-cassandra
Presto の cassandra.properties ファイルの値を変更します。
presto-connector-hive
Presto の hive.properties ファイルの値を変更します。
presto-connector-jmx
Presto の jmx.properties ファイルの値を変更します。
presto-connector-kafka
Presto の kafka.properties ファイルの値を変更します。
presto-connector-localfile
Presto の localfile.properties ファイルの値を変更します。
presto-connector-memory
Presto の memory.properties ファイルの値を変更します。
presto-connector-mongodb
Presto の mongodb.properties ファイルの値を変更します。
presto-connector-mysql
Presto の musql.properties ファイルの値を変更します。
presto-connector-postgresql
Presto の postgresql.properties ファイルの値を変更します。
presto-connector-raptor
Presto の raptor.properties ファイルの値を変更します。
presto-connector-redis
Presto の redis.properties ファイルの値を変更します。
presto-connector-redshift
Presto の redshift.properties ファイルの値を変更します。
presto-connector-tpch
Presto の tpcj.properties ファイルの値を変更します。
presto-connector-tpcds
Presto の tpcds.properties ファイルの値を変更します。
ranger-kms-dbks-site
Ranger KMS の dbks-site.xml ファイルの値を変更します。
ranger-kms-site
Ranger KMS の ranger-kms-site.xml ファイルの値を変更します。
ranger-kms-env
Ranger KMS 環境の値を変更します。
ranger-kms-log4j
Ranger KMS の kms-log4j.properties ファイルの値を変更します。
ranger-kms-db-ca
Ranger KMS を使用した MySQL SSL 接続用の S3 の CA ファイルの値を変更します。
recordserver-env
EMR RecordServer 環境の値を変更します。
recordserver-conf
EMR RecordServer の erver.properties ファイルの値を変更します。
recordserver-log4j
EMR RecordServer の log4j.properties ファイルの値を変更します。
spark
Apache Spark 用の Amazon EMR-curated 設定。
spark-defaults
Spark の spark-defaults.conf ファイルの値を変更します。
spark-env
Spark 環境の値を変更します。
spark-hive-site
Spark の hive-site.xml ファイルの値を変更します
spark-log4j
Spark の log4j.properties ファイルの値を変更します。
spark-metrics
Spark の metrics.properties ファイルの値を変更します。
sqoop-env
Sqoop の環境の値を変更します。
sqoop-oraoop-site
Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。
sqoop-site
Sqoop の sqoop-site.xml ファイルの値を変更します。
tez-site
Tez の tez-site.xml ファイルの値を変更します。
yarn-env
YARN 環境の値を変更します。
yarn-site
YARN の yarn-site.xml ファイルの値を変更します。
zeppelin-env
Zeppelin 環境の値を変更します。
zookeeper-config
ZooKeeper の zoo.cfg ファイルの値を変更します。
zookeeper-log4j
ZooKeeper の log4j.properties ファイルの値を変更します。
-
- 5.28.x
-
5.28 シリーズでは複数のリリースがあります。このタブ内で特定のリリースの情報を表示するには、以下のリンクを選択します。
このリリースでは、次のアプリケーションがサポートされています。 Flink
, Ganglia , Hadoop , HBase , HCatalog , Hive , Hue , JupyterHub , Livy , Mahout , MXNet , Oozie , Phoenix , Pig , Presto , Spark , Sqoop , TensorFlow , Tez , Zeppelin 、、および ZooKeeper . 次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。
Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。
次のリリースノートには、Amazon EMR リリースバージョン 5.28.1 に関する情報が含まれています。変更は 5.28.0 に関連するものです。
初回リリース日: 2020 年 1 月 10 日
変更、拡張、解決した問題
-
Spark
-
Spark の互換性の問題が修正されました。
-
-
CloudWatch Metrics
-
複数のマスターノードを持つ EMR クラスターでの Amazon CloudWatch メトリクスの発行が修正されました。
-
-
無効にされたログメッセージ
-
無効にされたログメッセージ、「...Apache http クライアントの古いバージョン (4.5.8 より前) を使用。」
-
既知の問題
-
Known issue in clusters with multiple master nodes and Kerberos authentication
If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.
Workaround:
-
SSH as
hadoop
user to the lead master node of the EMR cluster with multiple master nodes. -
Run the following command to renew Kerberos ticket for
hadoop
user.kinit -kt <keytab_file> <principal>
Typically, the keytab file is located at
/etc/hadoop.keytab
and the principal is in the form ofhadoop/<hostname>@<REALM>
.
注記 This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.
-
このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、
emr
またはaws
で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。Amazon EMR の一部のコンポーネントは、コミュニティバージョンとは異なります。これらのコンポーネントには、
の形式のバージョンラベルがあります。CommunityVersion
-amzn-EmrVersion
は 0 から始まります。たとえば、バージョン 2.2 のEmrVersion
myapp-component
というオープンソースコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは2.2-amzn-2
として表示されます。コンポーネント バージョン 説明 aws-sagemaker-spark-sdk 1.2.6 Amazon SageMaker Spark SDK emr-ddb 4.12.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクタ。 emr-goodies 2.11.0 Hadoop エコシステムに役立つ追加のライブラリ。 emr-kinesis 3.4.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。 emr-s3-dist-cp 2.13.0 Amazon S3 に最適化された分散コピーアプリケーション。 emr-s3-select 1.3.0 EMR S3Select コネクター emrfs 2.37.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。 flink-client 1.9.0 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。 ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。 ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。 ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。 hadoop-client 2.8.5-amzn-5 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。 hadoop-hdfs-datanode 2.8.5-amzn-5 ブロックを保存する HDFS ノードレベルのサービス。 hadoop-hdfs-library 2.8.5-amzn-5 HDFS コマンドラインクライアントとライブラリ hadoop-hdfs-namenode 2.8.5-amzn-5 ファイル名を追跡し、場所をブロックする HDFS サービス。 hadoop-hdfs-journalnode 2.8.5-amzn-5 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。 hadoop-httpfs-server 2.8.5-amzn-5 HDFS オペレーションの HTTP エンドポイント。 hadoop-kms-server 2.8.5-amzn-5 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。 hadoop-mapred 2.8.5-amzn-5 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。 hadoop-yarn-nodemanager 2.8.5-amzn-5 個別のノードでコンテナを管理する YARN サービス。 hadoop-yarn-resourcemanager 2.8.5-amzn-5 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。 hadoop-yarn-timeline-server 2.8.5-amzn-5 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。 hbase-hmaster 1.4.10 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。 hbase-region-server 1.4.10 1 つ以上の HBase リージョンに対応するサービス。 hbase-client 1.4.10 HBase コマンドラインクライアント。 hbase-rest-server 1.4.10 HBase の RESTful HTTP エンドポイントを提供するサービス。 hbase-thrift-server 1.4.10 HBase に Thrift エンドポイントを提供するサービス。 hcatalog-client 2.3.6-amzn-0 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。 hcatalog-server 2.3.6-amzn-0 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。 hcatalog-webhcat-server 2.3.6-amzn-0 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。 hive-client 2.3.6-amzn-0 Hive コマンドラインクライアント。 hive-hbase 2.3.6-amzn-0 Hive-hbase クライアント。 hive-metastore-server 2.3.6-amzn-0 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。 hive-server2 2.3.6-amzn-0 Hive クエリをウェブリクエストとして受け入れるサービス。 hudi 0.5.0-incubating データパイプラインを強化する低レイテンシーかつ高効率な増分処理フレームワーク。 hudi-presto 0.5.0-incubating Presto を Hudi で実行するためのバンドルライブラリ。 hue-server 4.4.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション jupyterhub 1.0.0 Jupyter ノートブックのマルチユーザーサーバー livy-server 0.6.0-incubating Apache Spark を操作するための REST インターフェイス nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー mahout-client 0.13.0 機械学習用のライブラリ。 mxnet 1.5.1 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。 mysql-server 5.5.54+ MySQL データベースサーバー。 nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット oozie-client 5.1.0 Oozie コマンドラインクライアント。 oozie-server 5.1.0 Oozie ワークフローリクエストを受け入れるサービス。 opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。 phoenix-library 4.14.3-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ phoenix-query-server 4.14.3-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー presto-coordinator 0.227 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。 presto-worker 0.227 いくつかのクエリを実行するサービス。 presto-client 0.227 Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。 pig-client 0.17.0 Pig コマンドラインクライアント。 r 3.4.1 統計的コンピューティング用 R プロジェクト spark-client 2.4.4 Spark コマンドラインクライアント。 spark-history-server 2.4.4 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。 spark-on-yarn 2.4.4 YARN のメモリ内実行エンジン。 spark-yarn-slave 2.4.4 YARN スレーブで必要な Apache Spark ライブラリ。 sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。 tensorflow 1.14.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。 tez-on-yarn 0.9.2 tez YARN アプリケーションおよびライブラリ。 webserver 2.4.25+ Apache HTTP サーバー。 zeppelin-server 0.8.2 インタラクティブなデータ分析を可能にするウェブベースのノートブック。 zookeeper-server 3.4.14 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。 zookeeper-client 3.4.14 ZooKeeper コマンドラインクライアント。 分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、
hive-site.xml
など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。emr-5.28.1 分類分類 説明 capacity-scheduler
Hadoop の capacity-scheduler.xml ファイルの値を変更します。
container-log4j
Hadoop YARN の container-log4j.properties ファイルの値を変更します。
core-site
Hadoop の core-site.xml ファイルの値を変更します。
emrfs-site
EMRFS の設定を変更します。
flink-conf
flink-conf.yaml の設定を変更します。
flink-log4j
Flink log4j.properties の設定を変更します。
flink-log4j-yarn-session
Flink log4j-yarn-session.properties の設定を変更します。
flink-log4j-cli
Flink log4j-cli.properties の設定を変更します。
hadoop-env
Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。
hadoop-log4j
Hadoop の log4j.properties ファイルの値を変更します。
hadoop-ssl-server
Hadoop ssl のサーバー設定を変更します。
hadoop-ssl-client
Hadoop ssl のクライアント設定を変更します。
hbase
Apache HBase 用の Amazon EMR-curated 設定。
hbase-env
HBase の環境の値を変更します。
hbase-log4j
HBase の hbase-log4j.properties ファイルの値を変更します。
hbase-metrics
HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。
hbase-policy
HBase の hbase-policy.xml ファイルの値を変更します。
hbase-site
HBase の hbase-site.xml ファイルの値を変更します。
hdfs-encryption-zones
HDFS 暗号化ゾーンを設定します。
hdfs-site
HDFS の hdfs-site.xml の値を変更します。
hcatalog-env
HCatalog 環境の値を変更します。
hcatalog-server-jndi
HCatalog の jndi.properties の値を変更します。
hcatalog-server-proto-hive-site
HCatalog の proto-hive-site.xml の値を変更します。
hcatalog-webhcat-env
HCatalog WebHCat 環境の値を変更します。
hcatalog-webhcat-log4j2
HCatalog WebHCat の log4j2.properties の値を変更します。
hcatalog-webhcat-site
HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。
hive-beeline-log4j2
Hive の beeline-log4j2.properties ファイルの値を変更します。
hive-parquet-logging
Hive の parquet-logging.properties ファイルの値を変更します。
hive-env
Hive 環境の値を変更します。
hive-exec-log4j2
Hive の hive-exec-log4j2.properties ファイルの値を変更します。
hive-llap-daemon-log4j2
Hive の llap-daemon-log4j2.properties ファイルの値を変更します。
hive-log4j2
Hive の hive-log4j2.properties ファイルの値を変更します。
hive-site
Hive の hive-site.xml ファイルの値を変更します
hiveserver2-site
Hive Server2 の hiveserver2-site.xml ファイルの値を変更します
hue-ini
Hue の ini ファイルの値を変更します
httpfs-env
HTTPFS 環境の値を変更します。
httpfs-site
Hadoop の httpfs-site.xml ファイルの値を変更します。
hadoop-kms-acls
Hadoop の kms-acls.xml ファイルの値を変更します。
hadoop-kms-env
Hadoop KMS 環境の値を変更します。
hadoop-kms-log4j
Hadoop の kms-log4j.properties ファイルの値を変更します。
hadoop-kms-site
Hadoop の kms-site.xml ファイルの値を変更します。
jupyter-notebook-conf
Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。
jupyter-hub-conf
JupyterHubs の jupyterhub_config.py ファイルの値を変更します。
jupyter-s3-conf
Jupyter ノートブックの S3 の永続性を設定します。
jupyter-sparkmagic-conf
Sparkmagic の config.json ファイルの値を変更します。
livy-conf
Livy の livy.conf ファイルの値を変更します。
livy-env
Livy 環境の値を変更します。
livy-log4j
Livy の log4j.properties の設定を変更します。
mapred-env
MapReduce アプリケーションの環境の値を変更します。
mapred-site
MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。
oozie-env
Oozie の環境の値を変更します。
oozie-log4j
Oozie の oozie-log4j.properties ファイルの値を変更します。
oozie-site
Oozie の oozie-site.xml ファイルの値を変更します。
phoenix-hbase-metrics
Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。
phoenix-hbase-site
Phoenix の hbase-site.xml ファイルの値を変更します。
phoenix-log4j
Phoenix の log4j.properties ファイルの値を変更します。
phoenix-metrics
Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。
pig-env
Pig 環境の値を変更します。
pig-properties
Pig の pig.properties ファイルの値を変更します。
pig-log4j
Pig の log4j.properties ファイルの値を変更します。
presto-log
Presto の log.properties ファイルの値を変更します。
presto-config
Presto の config.properties ファイルの値を変更します。
presto-password-authenticator
Presto の password-authenticator.properties ファイルの値を変更します。
presto-env
Presto の presto-env.sh ファイルの値を変更します。
presto-node
Presto の node.properties ファイルの値を変更します。
presto-connector-blackhole
Presto の blackhole.properties ファイルの値を変更します。
presto-connector-cassandra
Presto の cassandra.properties ファイルの値を変更します。
presto-connector-hive
Presto の hive.properties ファイルの値を変更します。
presto-connector-jmx
Presto の jmx.properties ファイルの値を変更します。
presto-connector-kafka
Presto の kafka.properties ファイルの値を変更します。
presto-connector-localfile
Presto の localfile.properties ファイルの値を変更します。
presto-connector-memory
Presto の memory.properties ファイルの値を変更します。
presto-connector-mongodb
Presto の mongodb.properties ファイルの値を変更します。
presto-connector-mysql
Presto の musql.properties ファイルの値を変更します。
presto-connector-postgresql
Presto の postgresql.properties ファイルの値を変更します。
presto-connector-raptor
Presto の raptor.properties ファイルの値を変更します。
presto-connector-redis
Presto の redis.properties ファイルの値を変更します。
presto-connector-redshift
Presto の redshift.properties ファイルの値を変更します。
presto-connector-tpch
Presto の tpcj.properties ファイルの値を変更します。
presto-connector-tpcds
Presto の tpcds.properties ファイルの値を変更します。
ranger-kms-dbks-site
Ranger KMS の dbks-site.xml ファイルの値を変更します。
ranger-kms-site
Ranger KMS の ranger-kms-site.xml ファイルの値を変更します。
ranger-kms-env
Ranger KMS 環境の値を変更します。
ranger-kms-log4j
Ranger KMS の kms-log4j.properties ファイルの値を変更します。
ranger-kms-db-ca
Ranger KMS を使用した MySQL SSL 接続用の S3 の CA ファイルの値を変更します。
recordserver-env
EMR RecordServer 環境の値を変更します。
recordserver-conf
EMR RecordServer の erver.properties ファイルの値を変更します。
recordserver-log4j
EMR RecordServer の log4j.properties ファイルの値を変更します。
spark
Apache Spark 用の Amazon EMR-curated 設定。
spark-defaults
Spark の spark-defaults.conf ファイルの値を変更します。
spark-env
Spark 環境の値を変更します。
spark-hive-site
Spark の hive-site.xml ファイルの値を変更します
spark-log4j
Spark の log4j.properties ファイルの値を変更します。
spark-metrics
Spark の metrics.properties ファイルの値を変更します。
sqoop-env
Sqoop の環境の値を変更します。
sqoop-oraoop-site
Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。
sqoop-site
Sqoop の sqoop-site.xml ファイルの値を変更します。
tez-site
Tez の tez-site.xml ファイルの値を変更します。
yarn-env
YARN 環境の値を変更します。
yarn-site
YARN の yarn-site.xml ファイルの値を変更します。
zeppelin-env
Zeppelin 環境の値を変更します。
zookeeper-config
ZooKeeper の zoo.cfg ファイルの値を変更します。
zookeeper-log4j
ZooKeeper の log4j.properties ファイルの値を変更します。
このリリースでは、次のアプリケーションがサポートされています。 Flink
, Ganglia , Hadoop , HBase , HCatalog , Hive , Hue , JupyterHub , Livy , Mahout , MXNet , Oozie , Phoenix , Pig , Presto , Spark , Sqoop , TensorFlow , Tez , Zeppelin 、、および ZooKeeper . 次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。
Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。
次のリリースノートには、Amazon EMR リリースバージョン 5.28.0 に関する情報が含まれています。変更は 5.27.0 に関連するものです。
初回リリース日: 2019 年 11 月 12 日
アップグレード
-
Flink をバージョン 1.9.0 にアップグレードしました
-
Hive をバージョン 2.3.6 にアップグレードしました
-
MXNet をバージョン 1.5.1 にアップグレードしました
-
Phoenix をバージョン 4.14.3 にアップグレードしました
-
Presto をバージョン 0.227 にアップグレードしました
-
Zeppelin をバージョン 0.8.2 にアップグレードしました
新機能
-
クラスターを作成するときに、Apache Hudi
を利用して Amazon EMR をインストールできるようになりました。詳細については、「Hudi」を参照してください。 -
(2019 年 11 月 25 日) 複数のステップを並行して選択して、クラスター使用率を改善し、コストを削減できるようになりました。また、保留中および実行中のステップの両方をキャンセルできるようになりました。詳細については、「AWS CLI およびコンソールを使用した手順の作業」を参照してください。
-
(2019 年 12 月 3 日) AWS Outposts で EMR クラスターを作成し、実行できるようになりました。AWS Outposts は、ネイティブの AWS のサービス、インフラストラクチャ、運用モデルをオンプレミス施設で実現します。AWS Outposts 環境では、AWS クラウドで使用するのと同じ AWS API、ツール、インフラストラクチャを使用できます。詳細については、「AWS Outposts 上の EMR クラスター」を参照してください。
-
(2020 年 3 月 11 日) Amazon EMR バージョン 5.28.0 以降では、ローカルゾーン をサポートする AWS リージョンの論理的延長として、AWS Local Zones サブネットで Amazon EMR クラスターを作成および実行できます。ローカルゾーン を使用すると、Amazon EMR 機能と AWS のサービスのサブセット (コンピューティングサービスやストレージサービスなど) をユーザーの近くに配置して、ローカルで実行されるアプリケーションに非常に低いレイテンシーでアクセスできます。使用可能な ローカルゾーン のリストについては、「AWS Local Zones
」を参照してください。使用可能な AWS Local Zones へのアクセスの詳細については、「リージョン、アベイラビリティーゾーン、およびローカルゾーン」を参照してください。 ローカルゾーン は、現在、Amazon EMR Notebooks をサポートしていません。また、インターフェイス VPC エンドポイント (AWS PrivateLink) を使用した Amazon EMR への直接接続もサポートしていません。
変更、拡張、解決した問題
-
高可用性クラスターに対するアプリケーションのサポートを拡大しました。
-
詳細については、Amazon EMR 管理ガイドの「複数のマスターノードを持つ EMR クラスターでサポートされているアプリケーション」を参照してください。
-
-
Spark
-
パフォーマンスの最適化
-
-
Hive
-
パフォーマンスの最適化
-
-
Presto
-
パフォーマンスの最適化
-
既知の問題
-
Known issue in clusters with multiple master nodes and Kerberos authentication
If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.
Workaround:
-
SSH as
hadoop
user to the lead master node of the EMR cluster with multiple master nodes. -
Run the following command to renew Kerberos ticket for
hadoop
user.kinit -kt <keytab_file> <principal>
Typically, the keytab file is located at
/etc/hadoop.keytab
and the principal is in the form ofhadoop/<hostname>@<REALM>
.
注記 This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.
-
コンポーネント バージョン 説明 aws-sagemaker-spark-sdk 1.2.6 Amazon SageMaker Spark SDK emr-ddb 4.12.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクタ。 emr-goodies 2.11.0 Hadoop エコシステムに役立つ追加のライブラリ。 emr-kinesis 3.4.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。 emr-s3-dist-cp 2.13.0 Amazon S3 に最適化された分散コピーアプリケーション。 emr-s3-select 1.3.0 EMR S3Select コネクター emrfs 2.37.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。 flink-client 1.9.0 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。 ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。 ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。 ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。 hadoop-client 2.8.5-amzn-5 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。 hadoop-hdfs-datanode 2.8.5-amzn-5 ブロックを保存する HDFS ノードレベルのサービス。 hadoop-hdfs-library 2.8.5-amzn-5 HDFS コマンドラインクライアントとライブラリ hadoop-hdfs-namenode 2.8.5-amzn-5 ファイル名を追跡し、場所をブロックする HDFS サービス。 hadoop-hdfs-journalnode 2.8.5-amzn-5 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。 hadoop-httpfs-server 2.8.5-amzn-5 HDFS オペレーションの HTTP エンドポイント。 hadoop-kms-server 2.8.5-amzn-5 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。 hadoop-mapred 2.8.5-amzn-5 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。 hadoop-yarn-nodemanager 2.8.5-amzn-5 個別のノードでコンテナを管理する YARN サービス。 hadoop-yarn-resourcemanager 2.8.5-amzn-5 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。 hadoop-yarn-timeline-server 2.8.5-amzn-5 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。 hbase-hmaster 1.4.10 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。 hbase-region-server 1.4.10 1 つ以上の HBase リージョンに対応するサービス。 hbase-client 1.4.10 HBase コマンドラインクライアント。 hbase-rest-server 1.4.10 HBase の RESTful HTTP エンドポイントを提供するサービス。 hbase-thrift-server 1.4.10 HBase に Thrift エンドポイントを提供するサービス。 hcatalog-client 2.3.6-amzn-0 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。 hcatalog-server 2.3.6-amzn-0 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。 hcatalog-webhcat-server 2.3.6-amzn-0 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。 hive-client 2.3.6-amzn-0 Hive コマンドラインクライアント。 hive-hbase 2.3.6-amzn-0 Hive-hbase クライアント。 hive-metastore-server 2.3.6-amzn-0 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。 hive-server2 2.3.6-amzn-0 Hive クエリをウェブリクエストとして受け入れるサービス。 hudi 0.5.0-incubating データパイプラインを強化する低レイテンシーかつ高効率な増分処理フレームワーク。 hudi-presto 0.5.0-incubating Presto を Hudi で実行するためのバンドルライブラリ。 hue-server 4.4.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション jupyterhub 1.0.0 Jupyter ノートブックのマルチユーザーサーバー livy-server 0.6.0-incubating Apache Spark を操作するための REST インターフェイス nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー mahout-client 0.13.0 機械学習用のライブラリ。 mxnet 1.5.1 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。 mysql-server 5.5.54+ MySQL データベースサーバー。 nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット oozie-client 5.1.0 Oozie コマンドラインクライアント。 oozie-server 5.1.0 Oozie ワークフローリクエストを受け入れるサービス。 opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。 phoenix-library 4.14.3-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ phoenix-query-server 4.14.3-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー presto-coordinator 0.227 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。 presto-worker 0.227 いくつかのクエリを実行するサービス。 presto-client 0.227 Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。 pig-client 0.17.0 Pig コマンドラインクライアント。 r 3.4.1 統計的コンピューティング用 R プロジェクト spark-client 2.4.4 Spark コマンドラインクライアント。 spark-history-server 2.4.4 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。 spark-on-yarn 2.4.4 YARN のメモリ内実行エンジン。 spark-yarn-slave 2.4.4 YARN スレーブで必要な Apache Spark ライブラリ。 sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。 tensorflow 1.14.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。 tez-on-yarn 0.9.2 tez YARN アプリケーションおよびライブラリ。 webserver 2.4.25+ Apache HTTP サーバー。 zeppelin-server 0.8.2 インタラクティブなデータ分析を可能にするウェブベースのノートブック。 zookeeper-server 3.4.14 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。 zookeeper-client 3.4.14 ZooKeeper コマンドラインクライアント。 分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、
hive-site.xml
など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。emr-5.28.0 分類分類 説明 capacity-scheduler
Hadoop の capacity-scheduler.xml ファイルの値を変更します。
container-log4j
Hadoop YARN の container-log4j.properties ファイルの値を変更します。
core-site
Hadoop の core-site.xml ファイルの値を変更します。
emrfs-site
EMRFS の設定を変更します。
flink-conf
flink-conf.yaml の設定を変更します。
flink-log4j
Flink log4j.properties の設定を変更します。
flink-log4j-yarn-session
Flink log4j-yarn-session.properties の設定を変更します。
flink-log4j-cli
Flink log4j-cli.properties の設定を変更します。
hadoop-env
Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。
hadoop-log4j
Hadoop の log4j.properties ファイルの値を変更します。
hadoop-ssl-server
Hadoop ssl のサーバー設定を変更します。
hadoop-ssl-client
Hadoop ssl のクライアント設定を変更します。
hbase
Apache HBase 用の Amazon EMR-curated 設定。
hbase-env
HBase の環境の値を変更します。
hbase-log4j
HBase の hbase-log4j.properties ファイルの値を変更します。
hbase-metrics
HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。
hbase-policy
HBase の hbase-policy.xml ファイルの値を変更します。
hbase-site
HBase の hbase-site.xml ファイルの値を変更します。
hdfs-encryption-zones
HDFS 暗号化ゾーンを設定します。
hdfs-site
HDFS の hdfs-site.xml の値を変更します。
hcatalog-env
HCatalog 環境の値を変更します。
hcatalog-server-jndi
HCatalog の jndi.properties の値を変更します。
hcatalog-server-proto-hive-site
HCatalog の proto-hive-site.xml の値を変更します。
hcatalog-webhcat-env
HCatalog WebHCat 環境の値を変更します。
hcatalog-webhcat-log4j2
HCatalog WebHCat の log4j2.properties の値を変更します。
hcatalog-webhcat-site
HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。
hive-beeline-log4j2
Hive の beeline-log4j2.properties ファイルの値を変更します。
hive-parquet-logging
Hive の parquet-logging.properties ファイルの値を変更します。
hive-env
Hive 環境の値を変更します。
hive-exec-log4j2
Hive の hive-exec-log4j2.properties ファイルの値を変更します。
hive-llap-daemon-log4j2
Hive の llap-daemon-log4j2.properties ファイルの値を変更します。
hive-log4j2
Hive の hive-log4j2.properties ファイルの値を変更します。
hive-site
Hive の hive-site.xml ファイルの値を変更します
hiveserver2-site
Hive Server2 の hiveserver2-site.xml ファイルの値を変更します
hue-ini
Hue の ini ファイルの値を変更します
httpfs-env
HTTPFS 環境の値を変更します。
httpfs-site
Hadoop の httpfs-site.xml ファイルの値を変更します。
hadoop-kms-acls
Hadoop の kms-acls.xml ファイルの値を変更します。
hadoop-kms-env
Hadoop KMS 環境の値を変更します。
hadoop-kms-log4j
Hadoop の kms-log4j.properties ファイルの値を変更します。
hadoop-kms-site
Hadoop の kms-site.xml ファイルの値を変更します。
jupyter-notebook-conf
Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。
jupyter-hub-conf
JupyterHubs の jupyterhub_config.py ファイルの値を変更します。
jupyter-s3-conf
Jupyter ノートブックの S3 の永続性を設定します。
jupyter-sparkmagic-conf
Sparkmagic の config.json ファイルの値を変更します。
livy-conf
Livy の livy.conf ファイルの値を変更します。
livy-env
Livy 環境の値を変更します。
livy-log4j
Livy の log4j.properties の設定を変更します。
mapred-env
MapReduce アプリケーションの環境の値を変更します。
mapred-site
MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。
oozie-env
Oozie の環境の値を変更します。
oozie-log4j
Oozie の oozie-log4j.properties ファイルの値を変更します。
oozie-site
Oozie の oozie-site.xml ファイルの値を変更します。
phoenix-hbase-metrics
Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。
phoenix-hbase-site
Phoenix の hbase-site.xml ファイルの値を変更します。
phoenix-log4j
Phoenix の log4j.properties ファイルの値を変更します。
phoenix-metrics
Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。
pig-env
Pig 環境の値を変更します。
pig-properties
Pig の pig.properties ファイルの値を変更します。
pig-log4j
Pig の log4j.properties ファイルの値を変更します。
presto-log
Presto の log.properties ファイルの値を変更します。
presto-config
Presto の config.properties ファイルの値を変更します。
presto-password-authenticator
Presto の password-authenticator.properties ファイルの値を変更します。
presto-env
Presto の presto-env.sh ファイルの値を変更します。
presto-node
Presto の node.properties ファイルの値を変更します。
presto-connector-blackhole
Presto の blackhole.properties ファイルの値を変更します。
presto-connector-cassandra
Presto の cassandra.properties ファイルの値を変更します。
presto-connector-hive
Presto の hive.properties ファイルの値を変更します。
presto-connector-jmx
Presto の jmx.properties ファイルの値を変更します。
presto-connector-kafka
Presto の kafka.properties ファイルの値を変更します。
presto-connector-localfile
Presto の localfile.properties ファイルの値を変更します。
presto-connector-memory
Presto の memory.properties ファイルの値を変更します。
presto-connector-mongodb
Presto の mongodb.properties ファイルの値を変更します。
presto-connector-mysql
Presto の musql.properties ファイルの値を変更します。
presto-connector-postgresql
Presto の postgresql.properties ファイルの値を変更します。
presto-connector-raptor
Presto の raptor.properties ファイルの値を変更します。
presto-connector-redis
Presto の redis.properties ファイルの値を変更します。
presto-connector-redshift
Presto の redshift.properties ファイルの値を変更します。
presto-connector-tpch
Presto の tpcj.properties ファイルの値を変更します。
presto-connector-tpcds
Presto の tpcds.properties ファイルの値を変更します。
ranger-kms-dbks-site
Ranger KMS の dbks-site.xml ファイルの値を変更します。
ranger-kms-site
Ranger KMS の ranger-kms-site.xml ファイルの値を変更します。
ranger-kms-env
Ranger KMS 環境の値を変更します。
ranger-kms-log4j
Ranger KMS の kms-log4j.properties ファイルの値を変更します。
ranger-kms-db-ca
Ranger KMS を使用した MySQL SSL 接続用の S3 の CA ファイルの値を変更します。
recordserver-env
EMR RecordServer 環境の値を変更します。
recordserver-conf
EMR RecordServer の erver.properties ファイルの値を変更します。
recordserver-log4j
EMR RecordServer の log4j.properties ファイルの値を変更します。
spark
Apache Spark 用の Amazon EMR-curated 設定。
spark-defaults
Spark の spark-defaults.conf ファイルの値を変更します。
spark-env
Spark 環境の値を変更します。
spark-hive-site
Spark の hive-site.xml ファイルの値を変更します
spark-log4j
Spark の log4j.properties ファイルの値を変更します。
spark-metrics
Spark の metrics.properties ファイルの値を変更します。
sqoop-env
Sqoop の環境の値を変更します。
sqoop-oraoop-site
Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。
sqoop-site
Sqoop の sqoop-site.xml ファイルの値を変更します。
tez-site
Tez の tez-site.xml ファイルの値を変更します。
yarn-env
YARN 環境の値を変更します。
yarn-site
YARN の yarn-site.xml ファイルの値を変更します。
zeppelin-env
Zeppelin 環境の値を変更します。
zookeeper-config
ZooKeeper の zoo.cfg ファイルの値を変更します。
zookeeper-log4j
ZooKeeper の log4j.properties ファイルの値を変更します。
-
- 5.27.0
-
Amazon EMR リリース 5.27.0
このリリースでは、次のアプリケーションがサポートされています。 Flink
, Ganglia , Hadoop , HBase , HCatalog , Hive , Hue , JupyterHub , Livy , Mahout , MXNet , Oozie , Phoenix , Pig , Presto , Spark , Sqoop , TensorFlow , Tez , Zeppelin 、、および ZooKeeper . 次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。
Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。
次のリリースノートには、Amazon EMR リリースバージョン 5.27.0 に関する情報が含まれています。変更は 5.26.0 に関連するものです。
初回リリース日: 2019 年 9 月 23 日
アップグレード
-
AWS SDK for Java 1.11.615
-
Flink 1.8.1
-
JupyterHub 1.0.0
-
Spark 2.4.4
-
Tensorflow 1.14.0
-
コネクタおよびドライバ:
-
DynamoDB コネクタ 4.12.0
-
新機能
-
(2019 年 10 月 24 日) EMR ノートブックの次の新機能が、すべての Amazon EMR リリースで利用可能になりました。
-
インスタンスメタデータサービス (IMDS) V2 のサポートステータス: Amazon EMR 5.23.1、5.27.1、5.32 以降のコンポーネントは、すべての IMDS 呼び出しで IMDSv2 を使用します。アプリケーションコードでの IMDS 呼び出しの場合、IMDSv1 と IMDSv2 の両方を使用するか、セキュリティを強化するために IMDSv2 のみを使用するように IMDS を設定できます。その他の 5.x EMR リリースでは、IMDSv1 を無効にすると、クラスターの起動に失敗します。
-
これにより、Git リポジトリを EMR ノートブックに関連付けて、バージョン管理された環境でノートブックを保存できます。リモート Git レポジトリを通じてコードを同僚と共有し、既存の Jupyter ノートブックを再利用できます。詳細については、Amazon EMR 管理ガイドの「Git リポジトリを Amazon EMR ノートブックインスタンスに関連付ける」を参照してください。
-
nbdime utility
を EMR Notebooks で利用して、ノートブックの比較とマージを簡略化できるようになりました。Â -
EMR ノートブックが JupyterLab をサポートしました。JupyterLab は、Jupyter ノートブックと完全に互換性があるウェブベースのインターラクティブ開発環境です。JupyterLab または Jupyter ノートブックエディタのいずれかでノートブックを開くことを選択できるようになりました。
-
-
(2019 年 10 月 30 日) Amazon EMR バージョン 5.25.0 以降では、コンソールでクラスターの [Summary (概要)] ページまたは [Application history (アプリケーション履歴)] タブから Spark 履歴サーバー UI に接続できます。SSH 接続を通じてウェブプロキシをセットアップする代わりに、Spark 履歴サーバー UI にすばやくアクセスしてアプリケーションメトリクスを表示し、アクティブなクラスターや終了したクラスターの該当するログファイルにアクセスできます。詳細については、Amazon EMR 管理ガイドの「永続アプリケーションユーザインターフェイスへのクラスター外アクセス」を参照してください。
変更、拡張、解決した問題
-
複数のマスターノードを持つ EMR クラスター
-
複数のマスターノードを持つ EMR クラスター に Flink をインストールして実行できます。詳細については、「サポートされるアプリケーションと機能」を参照してください。
-
複数のマスターノードを持つ EMR クラスター でHDFS 透過的暗号化を設定できます。詳細については、「複数のマスターノードを持つ EMR クラスターでの HDFS 透過的暗号化」を参照してください。
-
複数のマスターノードを持つ EMR クラスター で実行中のアプリケーションの設定を変更できるようになりました。詳細については、「実行中のクラスター内のインスタンスグループの設定を指定する」を参照してください。
-
-
Amazon EMR-DynamoDB コネクタ
-
Amazon EMR-DynamoDB コネクタは、boolean、list、map、item、null の各 DynamoDB データ型をサポートするようになりました。詳細については、「Hive コマンドを実行するように Hive テーブルをセットアップする」を参照してください。
-
既知の問題
-
Known issue in clusters with multiple master nodes and Kerberos authentication
If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.
Workaround:
-
SSH as
hadoop
user to the lead master node of the EMR cluster with multiple master nodes. -
Run the following command to renew Kerberos ticket for
hadoop
user.kinit -kt <keytab_file> <principal>
Typically, the keytab file is located at
/etc/hadoop.keytab
and the principal is in the form ofhadoop/<hostname>@<REALM>
.
注記 This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.
-
このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、
emr
またはaws
で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。Amazon EMR の一部のコンポーネントは、コミュニティバージョンとは異なります。これらのコンポーネントには、
の形式のバージョンラベルがあります。CommunityVersion
-amzn-EmrVersion
は 0 から始まります。たとえば、バージョン 2.2 のEmrVersion
myapp-component
というオープンソースコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは2.2-amzn-2
として表示されます。コンポーネント バージョン 説明 aws-sagemaker-spark-sdk 1.2.4 Amazon SageMaker Spark SDK emr-ddb 4.12.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクタ。 emr-goodies 2.11.0 Hadoop エコシステムに役立つ追加のライブラリ。 emr-kinesis 3.4.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクタ。 emr-s3-dist-cp 2.13.0 Amazon S3 に最適化された分散コピーアプリケーション。 emr-s3-select 1.3.0 EMR S3Select コネクター emrfs 2.36.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。 flink-client 1.8.1 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。 ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。 ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。 ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。 hadoop-client 2.8.5-amzn-4 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。 hadoop-hdfs-datanode 2.8.5-amzn-4 ブロックを保存する HDFS ノードレベルのサービス。 hadoop-hdfs-library 2.8.5-amzn-4 HDFS コマンドラインクライアントとライブラリ hadoop-hdfs-namenode 2.8.5-amzn-4 ファイル名を追跡し、場所をブロックする HDFS サービス。 hadoop-hdfs-journalnode 2.8.5-amzn-4 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。 hadoop-httpfs-server 2.8.5-amzn-4 HDFS オペレーションの HTTP エンドポイント。 hadoop-kms-server 2.8.5-amzn-4 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。 hadoop-mapred 2.8.5-amzn-4 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。 hadoop-yarn-nodemanager 2.8.5-amzn-4 個別のノードでコンテナを管理する YARN サービス。 hadoop-yarn-resourcemanager 2.8.5-amzn-4 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。 hadoop-yarn-timeline-server 2.8.5-amzn-4 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。 hbase-hmaster 1.4.10 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。 hbase-region-server 1.4.10 1 つ以上の HBase リージョンに対応するサービス。 hbase-client 1.4.10 HBase コマンドラインクライアント。 hbase-rest-server 1.4.10 HBase の RESTful HTTP エンドポイントを提供するサービス。 hbase-thrift-server 1.4.10 HBase に Thrift エンドポイントを提供するサービス。 hcatalog-client 2.3.5-amzn-1 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。 hcatalog-server 2.3.5-amzn-1 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。 hcatalog-webhcat-server 2.3.5-amzn-1 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。 hive-client 2.3.5-amzn-1 Hive コマンドラインクライアント。 hive-hbase 2.3.5-amzn-1 Hive-hbase クライアント。 hive-metastore-server 2.3.5-amzn-1 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。 hive-server2 2.3.5-amzn-1 Hive クエリをウェブリクエストとして受け入れるサービス。 hue-server 4.4.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション jupyterhub 1.0.0 Jupyter ノートブックのマルチユーザーサーバー livy-server 0.6.0-incubating Apache Spark を操作するための REST インターフェイス nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー mahout-client 0.13.0 機械学習用のライブラリ。 mxnet 1.4.0 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。 mysql-server 5.5.54+ MySQL データベースサーバー。 nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット oozie-client 5.1.0 Oozie コマンドラインクライアント。 oozie-server 5.1.0 Oozie ワークフローリクエストを受け入れるサービス。 opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。 phoenix-library 4.14.2-HBase-1.4 サーバーとクライアントの Phoenix ライブラリ phoenix-query-server 4.14.2-HBase-1.4 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー presto-coordinator 0.224 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。 presto-worker 0.224 いくつかのクエリを実行するサービス。 pig-client 0.17.0 Pig コマンドラインクライアント。 r 3.4.1 統計的コンピューティング用 R プロジェクト spark-client 2.4.4 Spark コマンドラインクライアント。 spark-history-server 2.4.4 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。 spark-on-yarn 2.4.4 YARN のメモリ内実行エンジン。 spark-yarn-slave 2.4.4 YARN スレーブで必要な Apache Spark ライブラリ。 sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。 tensorflow 1.14.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。 tez-on-yarn 0.9.2 tez YARN アプリケーションおよびライブラリ。 webserver 2.4.25+ Apache HTTP サーバー。 zeppelin-server 0.8.1 インタラクティブなデータ分析を可能にするウェブベースのノートブック。 zookeeper-server 3.4.14 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。 zookeeper-client 3.4.14 ZooKeeper コマンドラインクライアント。 分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、
hive-site.xml
など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。emr-5.27.0 分類分類 説明 capacity-scheduler
Hadoop の capacity-scheduler.xml ファイルの値を変更します。
container-log4j
Hadoop YARN の container-log4j.properties ファイルの値を変更します。
core-site
Hadoop の core-site.xml ファイルの値を変更します。
emrfs-site
EMRFS の設定を変更します。
flink-conf
flink-conf.yaml の設定を変更します。
flink-log4j
Flink log4j.properties の設定を変更します。
flink-log4j-yarn-session
Flink log4j-yarn-session.properties の設定を変更します。
flink-log4j-cli
Flink log4j-cli.properties の設定を変更します。
hadoop-env
Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。
hadoop-log4j
Hadoop の log4j.properties ファイルの値を変更します。
hadoop-ssl-server
Hadoop ssl のサーバー設定を変更します。
hadoop-ssl-client
Hadoop ssl のクライアント設定を変更します。
hbase
Apache HBase 用の Amazon EMR-curated 設定。
hbase-env
HBase の環境の値を変更します。
hbase-log4j
HBase の hbase-log4j.properties ファイルの値を変更します。
hbase-metrics
HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。
hbase-policy
HBase の hbase-policy.xml ファイルの値を変更します。
hbase-site
HBase の hbase-site.xml ファイルの値を変更します。
hdfs-encryption-zones
HDFS 暗号化ゾーンを設定します。
hdfs-site
HDFS の hdfs-site.xml の値を変更します。
hcatalog-env
HCatalog 環境の値を変更します。
hcatalog-server-jndi
HCatalog の jndi.properties の値を変更します。
hcatalog-server-proto-hive-site
HCatalog の proto-hive-site.xml の値を変更します。
hcatalog-webhcat-env
HCatalog WebHCat 環境の値を変更します。
hcatalog-webhcat-log4j2
HCatalog WebHCat の log4j2.properties の値を変更します。
hcatalog-webhcat-site
HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。
hive-beeline-log4j2
Hive の beeline-log4j2.properties ファイルの値を変更します。
hive-parquet-logging
Hive の parquet-logging.properties ファイルの値を変更します。
hive-env
Hive 環境の値を変更します。
hive-exec-log4j2
Hive の hive-exec-log4j2.properties ファイルの値を変更します。
hive-llap-daemon-log4j2
Hive の llap-daemon-log4j2.properties ファイルの値を変更します。
hive-log4j2
Hive の hive-log4j2.properties ファイルの値を変更します。
hive-site
Hive の hive-site.xml ファイルの値を変更します
hiveserver2-site
Hive Server2 の hiveserver2-site.xml ファイルの値を変更します
hue-ini
Hue の ini ファイルの値を変更します
httpfs-env
HTTPFS 環境の値を変更します。
httpfs-site
Hadoop の httpfs-site.xml ファイルの値を変更します。
hadoop-kms-acls
Hadoop の kms-acls.xml ファイルの値を変更します。
hadoop-kms-env
Hadoop KMS 環境の値を変更します。
hadoop-kms-log4j
Hadoop の kms-log4j.properties ファイルの値を変更します。
hadoop-kms-site
Hadoop の kms-site.xml ファイルの値を変更します。
jupyter-notebook-conf
Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。
jupyter-hub-conf
JupyterHubs の jupyterhub_config.py ファイルの値を変更します。
jupyter-s3-conf
Jupyter ノートブックの S3 の永続性を設定します。
jupyter-sparkmagic-conf
Sparkmagic の config.json ファイルの値を変更します。
livy-conf
Livy の livy.conf ファイルの値を変更します。
livy-env
Livy 環境の値を変更します。
livy-log4j
Livy の log4j.properties の設定を変更します。
mapred-env
MapReduce アプリケーションの環境の値を変更します。
mapred-site
MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。
oozie-env
Oozie の環境の値を変更します。
oozie-log4j
Oozie の oozie-log4j.properties ファイルの値を変更します。
oozie-site
Oozie の oozie-site.xml ファイルの値を変更します。
phoenix-hbase-metrics
Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。
phoenix-hbase-site
Phoenix の hbase-site.xml ファイルの値を変更します。
phoenix-log4j
Phoenix の log4j.properties ファイルの値を変更します。
phoenix-metrics
Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。
pig-env
Pig 環境の値を変更します。
pig-properties
Pig の pig.properties ファイルの値を変更します。
pig-log4j
Pig の log4j.properties ファイルの値を変更します。
presto-log
Presto の log.properties ファイルの値を変更します。
presto-config
Presto の config.properties ファイルの値を変更します。
presto-password-authenticator
Presto の password-authenticator.properties ファイルの値を変更します。
presto-env
Presto の presto-env.sh ファイルの値を変更します。
presto-node
Presto の node.properties ファイルの値を変更します。
presto-connector-blackhole
Presto の blackhole.properties ファイルの値を変更します。
presto-connector-cassandra
Presto の cassandra.properties ファイルの値を変更します。
presto-connector-hive
Presto の hive.properties ファイルの値を変更します。
presto-connector-jmx
Presto の jmx.properties ファイルの値を変更します。
presto-connector-kafka
Presto の kafka.properties ファイルの値を変更します。
presto-connector-localfile
Presto の localfile.properties ファイルの値を変更します。
presto-connector-memory
Presto の memory.properties ファイルの値を変更します。
presto-connector-mongodb
Presto の mongodb.properties ファイルの値を変更します。
presto-connector-mysql
Presto の musql.properties ファイルの値を変更します。
presto-connector-postgresql
Presto の postgresql.properties ファイルの値を変更します。
presto-connector-raptor
Presto の raptor.properties ファイルの値を変更します。
presto-connector-redis
Presto の redis.properties ファイルの値を変更します。
presto-connector-redshift
Presto の redshift.properties ファイルの値を変更します。
presto-connector-tpch
Presto の tpcj.properties ファイルの値を変更します。
presto-connector-tpcds
Presto の tpcds.properties ファイルの値を変更します。
ranger-kms-dbks-site
Ranger KMS の dbks-site.xml ファイルの値を変更します。
ranger-kms-site
Ranger KMS の ranger-kms-site.xml ファイルの値を変更します。
ranger-kms-env
Ranger KMS 環境の値を変更します。
ranger-kms-log4j
Ranger KMS の kms-log4j.properties ファイルの値を変更します。
ranger-kms-db-ca
Ranger KMS を使用した MySQL SSL 接続用の S3 の CA ファイルの値を変更します。
recordserver-env
EMR RecordServer 環境の値を変更します。
recordserver-conf
EMR RecordServer の erver.properties ファイルの値を変更します。
recordserver-log4j
EMR RecordServer の log4j.properties ファイルの値を変更します。
spark
Apache Spark 用の Amazon EMR-curated 設定。
spark-defaults
Spark の spark-defaults.conf ファイルの値を変更します。
spark-env
Spark 環境の値を変更します。
spark-hive-site
Spark の hive-site.xml ファイルの値を変更します
spark-log4j
Spark の log4j.properties ファイルの値を変更します。
spark-metrics
Spark の metrics.properties ファイルの値を変更します。
sqoop-env
Sqoop の環境の値を変更します。
sqoop-oraoop-site
Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。
sqoop-site
Sqoop の sqoop-site.xml ファイルの値を変更します。
tez-site
Tez の tez-site.xml ファイルの値を変更します。
yarn-env
YARN 環境の値を変更します。
yarn-site
YARN の yarn-site.xml ファイルの値を変更します。
zeppelin-env
Zeppelin 環境の値を変更します。
zookeeper-config
ZooKeeper の zoo.cfg ファイルの値を変更します。
zookeeper-log4j
ZooKeeper の log4j.properties ファイルの値を変更します。
-
- 5.26.0
-
Amazon EMR リリース 5.26.0
このリリースでは、次のアプリケーションがサポートされています。 Flink
, Ganglia , Hadoop , HBase , HCatalog , Hive , Hue , JupyterHub , Livy , Mahout , MXNet , Oozie , Phoenix , Pig , Presto , Spark , Sqoop , TensorFlow , Tez , Zeppelin 、、および ZooKeeper . 次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。
Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。
次のリリースノートには、Amazon EMR リリースバージョン 5.26.0 に関する情報が含まれています。変更は 5.25.0 に関連するものです。
初回リリース日: 2019 年 8 月 8 日
最終更新日: 2019 年 8 月 19 日
アップグレード
-
AWS SDK for Java 1.11.595
-
HBase 1.4.10
-
Phoenix 4.14.2
-
コネクタおよびドライバ:
-
DynamoDB コネクタ 4.11.0
-
MariaDB コネクタ 2.4.2
-
Amazon Redshift JDBC ドライバー 1.2.32.1056
-
新機能
-
(ベータ) Amazon EMR 5.26.0 以降では、Lake Formation と統合するクラスターを起動できます。この統合により、AWS Glue データカタログ内のデータベースとテーブルへのきめ細かな列レベルのアクセスが提供されます。また、企業の ID システムから EMR ノートブックまたは Apache Zeppelin へのフェデレーションシングルサインオンが可能になります。詳細については、「Amazon EMR の AWS Lake Formation との統合 (ベータ)」を参照してください。
-
(2019 年 8 月 19 日) Amazon EMR のブロックパブリックアクセスが、セキュリティグループをサポートするすべての Amazon EMR リリースで使用可能になりました。ブロックパブリックアクセスは、各 AWS リージョンに適用されるアカウント全体の設定です。ブロックパブリックアクセスにより、クラスターに関連付けられたセキュリティグループに、ポートで IPv4 0.0.0.0/0 または IPv6 ::/0 (パブリックアクセス) からのインバウンドトラフィックを許可するルールがある場合に、クラスターの起動が防止されます (ポートが例外として指定されている場合を除く)。ポート 22 は、デフォルトで例外になります。詳細については、Amazon EMR 管理ガイドの「Amazon EMR ブロックパブリックアクセスの使用」を参照してください。
変更、拡張、解決した問題
-
EMR ノートブック
-
EMR 5.26.0 以降では、EMR ノートブック はデフォルトの Python ライブラリに加えて、ノートブックを範囲とする Python ライブラリがサポートします。ノートブックを範囲とするライブラリは、クラスターを再作成したり、クラスターにノートブックを再アタッチしたりすることなく、ノートブックエディタ内からインストールできます。ノートブックを範囲とするライブラリは、Python 仮想環境内で作成されるため、現在のノートブックセッションにのみ適用されます。これにより、ノートブックの依存関係を分離できます。詳細については、Amazon EMR 管理ガイドの「Using Notebook Scoped Libraries」を参照してください。
-
-
EMRFS
-
fs.s3.consistent.metadata.etag.verification.enabled
をtrue
に設定して、ETag 検証機能 (ベータ) を有効にできます。この機能では、EMRFS は Amazon S3 ETag を使用して、読み取られているオブジェクトが利用可能な最新バージョンであることを確認します。この機能は、Amazon S3 上のファイルが同じ名前を維持しながら上書きされる、更新後の読み取りのユースケースに役立ちます。この ETag 検証機能は、現在 S3 Select では使用できません。詳細については、「一貫性のあるビューを構成する」を参照してください。
-
-
Spark
-
次の最適化は、デフォルトで有効になりました: 動的なパーティションプルーニング、INTERSECT の前の DISTINCT、JOIN に続く DISTINCT クエリの SQL プラン統計推論の改善、スカラーサブクエリのフラット化、最適化された結合の順序変更、Bloom フィルターの結合。詳細については、「Spark パフォーマンスの最適化」を参照してください。
-
ソートマージ結合のステージコードの生成が全体的に改善されました。
-
クエリフラグメントとサブクエリの再利用が改善されました。
-
Spark 起動時のエグゼキューターの事前割り当ての改善。
-
結合の小さい側にブロードキャストヒントが含まれている場合に、Bloom フィルター結合は適用されなくなりました。
-
-
Tez
-
Tez に関する問題を解決しました。Tez は 複数のマスターノードを持つ EMR クラスター で動作するようになりました。
-
既知の問題
-
ソートマージ結合のステージコード生成の全体的な改善により、有効時のメモリへの負荷が高まる可能性があります。この最適化によりパフォーマンスが向上しますが、十分なメモリを提供するよう
spark.yarn.executor.memoryOverheadFactor
がチューニングされていない場合、ジョブの再試行または失敗につながる可能性があります。この機能を無効にするには、spark.sql.sortMergeJoinExec.extendedCodegen.enabled
を false に設定します。 -
Known issue in clusters with multiple master nodes and Kerberos authentication
If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.
Workaround:
-
SSH as
hadoop
user to the lead master node of the EMR cluster with multiple master nodes. -
Run the following command to renew Kerberos ticket for
hadoop
user.kinit -kt <keytab_file> <principal>
Typically, the keytab file is located at
/etc/hadoop.keytab
and the principal is in the form ofhadoop/<hostname>@<REALM>
.
注記 This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.
-
このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、
emr
またはaws
で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。Amazon EMR の一部のコンポーネントは、コミュニティバージョンとは異なります。これらのコンポーネントには、
の形式のバージョンラベルがあります。CommunityVersion
-amzn-EmrVersion
は 0 から始まります。たとえば、バージョン 2.2 のEmrVersion
myapp-component
というオープンソースコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは2.2-amzn-2
として表示されます。コンポーネント バージョン 説明 aws-sagemaker-spark-sdk 1.2.4 Amazon SageMaker Spark SDK emr-ddb 4.11.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクタ。 emr-goodies 2.10.0 Hadoop エコシステムに役立つ追加のライブラリ。 emr-kinesis 3.4.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクタ。 emr-s3-dist-cp 2.12.0 Amazon S3 に最適化された分散コピーアプリケーション。 emr-s3-select 1.3.0 EMR S3Select コネクター emrfs 2.35.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。 flink-client 1.8.0 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。 ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。 ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。 ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。 hadoop-client 2.8.5-amzn-4 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。 hadoop-hdfs-datanode 2.8.5-amzn-4 ブロックを保存する HDFS ノードレベルのサービス。 hadoop-hdfs-library 2.8.5-amzn-4 HDFS コマンドラインクライアントとライブラリ hadoop-hdfs-namenode 2.8.5-amzn-4 ファイル名を追跡し、場所をブロックする HDFS サービス。 hadoop-hdfs-journalnode 2.8.5-amzn-4 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。 hadoop-httpfs-server 2.8.5-amzn-4 HDFS オペレーションの HTTP エンドポイント。 hadoop-kms-server 2.8.5-amzn-4 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。 hadoop-mapred 2.8.5-amzn-4 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。 hadoop-yarn-nodemanager 2.8.5-amzn-4 個別のノードでコンテナを管理する YARN サービス。 hadoop-yarn-resourcemanager 2.8.5-amzn-4 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。 hadoop-yarn-timeline-server 2.8.5-amzn-4 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。 hbase-hmaster 1.4.10 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。 hbase-region-server 1.4.10 1 つ以上の HBase リージョンに対応するサービス。 hbase-client 1.4.10 HBase コマンドラインクライアント。 hbase-rest-server 1.4.10 HBase の RESTful HTTP エンドポイントを提供するサービス。 hbase-thrift-server 1.4.10 HBase に Thrift エンドポイントを提供するサービス。 hcatalog-client 2.3.5-amzn-0 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。 hcatalog-server 2.3.5-amzn-0 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。 hcatalog-webhcat-server 2.3.5-amzn-0 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。 hive-client 2.3.5-amzn-0 Hive コマンドラインクライアント。 hive-hbase 2.3.5-amzn-0 Hive-hbase クライアント。 hive-metastore-server 2.3.5-amzn-0 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。 hive-server2 2.3.5-amzn-0 Hive クエリをウェブリクエストとして受け入れるサービス。 hue-server 4.4.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション -