Amazon EMR 6.x リリースバージョン - Amazon EMR

「翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。」

Amazon EMR 6.x リリースバージョン

以下の各タブは、各 Amazon EMR 6.x リリースバージョンで利用可能なアプリケーションバージョン、リリースノート、コンポーネントバージョン、および設定分類の一覧です。

Amazon EMR 6.x シリーズは、Apache Hadoop 3 をサポートします。各リリースのすべてのアプリケーションバージョンを示す図については、「Amazon EMR 6.x リリースのアプリケーションバージョン (PNG)」を参照してください。

New Amazon EMR release versions are made available in different regions over a period of several days, beginning with the first region on the initial release date. The latest release version may not be available in your region during this period.

6.2.0 (Latest)

6.2.0 アプリケーションバージョン

このリリースでは、次のアプリケーションがサポートされています。 JupyterEnterpriseGateway, Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, MXNet, Oozie, Phoenix, Pig, Presto, PrestoSQL, Spark, Sqoop, TensorFlow, Tez, Zeppelin、、および ZooKeeper.

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

6.2.0 リリースノート

次のリリースノートは、Amazon EMR リリースバージョン 6.2.0 に関する情報を記載しています。6.1.0 からの変更が含まれています。

初回リリース日: 2020 年 12 月 9 日

最終更新日: 2021 年 3 月 24 日

サポートされるアプリケーション

  • AWS SDK for Java バージョン 1.11.828

  • emr-record-server バージョン 1.7.0

  • Flink バージョン 1.11.2

  • Ganglia バージョン 3.7.2

  • Hadoop バージョン 3.2.1-amzn-1

  • HBase バージョン 2.2.6-amzn-0

  • HBase-operator-tools 1.0.0

  • HCatalog バージョン 3.1.2-amzn-0

  • Hive バージョン 3.1.2-amzn-3

  • Hudi バージョン 0.6.0-amzn-1

  • Hue バージョン 4.8.0

  • JupyterHub バージョン 1.1.0

  • Livy バージョン 0.7.0

  • MXNet バージョン 1.7.0

  • Oozie バージョン 5.2.0

  • Phoenix バージョン 5.0.0

  • Pig バージョン 0.17.0

  • Presto バージョン 0.238.3-amzn-1

  • PrestoSQL バージョン 343

  • Spark バージョン 3.0.1-amzn-0

  • spark-rapids 0.2.0

  • TensorFlow バージョン 2.3.1

  • Zeppelin バージョン 0.9.0-preview1

  • Zookeeper バージョン 3.4.14

  • コネクタおよびドライバー: DynamoDB Connector 4.16.0

新機能

  • HBase: コミットフェーズの名前変更を削除し、永続的な HFile の追跡を追加しました。Amazon EMR リリース ガイドの「永続的な HFile の追跡」を参照してください。

  • HBase: 「圧縮時にブロックのキャッシュを強制する設定を作成する」をバックポートしました。

  • PrestoDB: 動的パーティションプルーニングの改善。ルールベースの結合順序の最適化は、パーティション化されていないデータに対して機能します。

  • スコープが設定されたマネージドポリシー: AWS のベストプラクティスに従うために、Amazon EMR は、非推奨となるポリシーの代わりとして、v2 EMR をスコープとするデフォルトのマネージドポリシーを導入しています。「Amazon EMR マネージドポリシー」を参照してください。

  • インスタンスメタデータサービス (IMDS) V2 のサポートステータス: Amazon EMR 6.2 以降の場合、Amazon EMR コンポーネントはすべての IMDS 呼び出しで IMDSv2 を使用します。アプリケーションコードでの IMDS 呼び出しの場合、IMDSv1 と IMDSv2 の両方を使用するか、セキュリティを強化するために IMDSv2 のみを使用するように IMDS を設定できます。以前の Amazon EMR 6.x リリースで IMDSv1 を無効にすると、クラスターの起動に失敗します。

変更、拡張、解決した問題

  • Spark: Spark ランタイムのパフォーマンスが向上しました。

既知の問題

  • Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.

    The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.

    Explicitly set a ulimit from the command line

    1. Edit /etc/systemd/system/instance-controller.service to add the following parameters to Service section.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Set a ulimit using bootstrap action (BA)

    You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • 重要

    Amazon EMR 6.1.0 および 6.2.0 には、Hudi の挿入、アップサート、および削除オペレーションにすべて重大な影響を与える可能性があるパフォーマンスの問題が含まれています。Amazon EMR 6.1.0 または 6.2.0 で Hudi を使用する予定の場合は、AWS サポートに連絡して、パッチが適用された Hudi RPM を入手してください。

  • 重要

    Amazon Linux または Amazon Linux 2 AMI (Amazon Linux マシンイメージ) を実行している Amazon EMR クラスターは、デフォルトの Amazon Linux 動作を使用します。再起動を必要とする重要かつ不可欠なカーネル更新プログラムを自動的にダウンロードしてインストールすることはありません。これは、デフォルトの Amazon Linux AMI を実行している他の Amazon EC2 インスタンスと同じ動作です。EMR バージョンのリリース後に、再起動を必要とする新しい Amazon Linux ソフトウェア更新プログラム (カーネル、NVIDIA、CUDA 更新プログラムなど) が使用可能になった場合、デフォルト AMI を実行している EMR クラスターインスタンスは、それらの更新プログラムを自動的にダウンロードしてインストールすることはありません。カーネル更新プログラムを取得するには、最新の Amazon Linux AMI を使用するようにAmazon EMR AMI をカスタマイズすることができます。

  • Amazon EMR 6.2.0 Maven アーティファクトは発行されません。これらは Amazon EMR の今後のリリースで発行される予定です。

  • HBase ストアファイルシステムテーブルを使用した永続的な HFile の追跡は、HBase リージョンのレプリケーション機能をサポートしません。HBase リージョンのレプリケーションの詳細については、「Timeline-consistent High Available Reads」を参照してください。

  • Amazon EMR 6.x と EMR 5.x Hive のバケットバージョンの違い

    EMR 5.x は OOS Apache Hive 2 を使用し、EMR 6.x は OOS Apache Hive 3 を使用しています。オープンソースの Hive2 は Bucketing バージョン 1 を使用し、オープンソースの Hive3 は Bucketing バージョン 2 を使用しています。Hive 2 (EMR 5.x) と Hive 3 (EMR 6.x) のこのバケットバージョンの違いは、Hive のバケットハッシュ機能が異なることを意味します。以下の例を参照してください。

    次の表は、それぞれ EMR 6.x と EMR 5.x で作成された例です。

    -- Using following LOCATION in EMR 6.x CREATE TABLE test_bucketing (id INT, desc STRING) PARTITIONED BY (day STRING) CLUSTERED BY(id) INTO 128 BUCKETS LOCATION 's3://your-own-s3-bucket/emr-6-bucketing/'; -- Using following LOCATION in EMR 5.x LOCATION 's3://your-own-s3-bucket/emr-5-bucketing/';

    EMR 6.x と EMR 5.x の両方に同じデータを挿入します。

    INSERT INTO test_bucketing PARTITION (day='01') VALUES(66, 'some_data'); INSERT INTO test_bucketing PARTITION (day='01') VALUES(200, 'some_data');

    S3 の場所を確認すると、ハッシュ関数が EMR 6.x (Hive 3) と EMR 5.x (Hive 2) で異なるため、バケットファイル名が異なることがわかります。

    [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-6-bucketing/day=01/ 2020-10-21 20:35:16 13 000025_0 2020-10-21 20:35:22 14 000121_0 [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-5-bucketing/day=01/ 2020-10-21 20:32:07 13 000066_0 2020-10-21 20:32:51 14 000072_0

    EMR 6.x の Hive CLI で次のコマンドを実行することでも、バージョンの違いを確認できます。これにより、バケットバージョン 2 が返されることに注意してください。

    hive> DESCRIBE FORMATTED test_bucketing; ... Table Parameters: bucketing_version 2 ...

6.2.0 コンポーネントバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

Amazon EMR の一部のコンポーネントは、コミュニティバージョンとは異なります。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。EmrVersion は 0 から始まります。たとえば、バージョン 2.2 の myapp-component というオープンソースコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-2 として表示されます。

コンポーネント バージョン 説明
aws-sagemaker-spark-sdk 1.4.1 Amazon SageMaker Spark SDK
emr-ddb 4.16.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクタ。
emr-goodies 3.1.0 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.5.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。
emr-notebook-env 1.0.0 Jupyter エンタープライズゲートウェイを含む EMR ノートブック用 Conda env
emr-s3-dist-cp 2.16.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 2.0.0 EMR S3Select コネクタ
emrfs 2.44.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクター。
flink-client 1.11.2 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
flink-jobmanager-config 1.11.2 Apache Flink JobManager の EMR ノードのリソースを管理します。
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 3.2.1-amzn-2 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 3.2.1-amzn-2 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 3.2.1-amzn-2 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 3.2.1-amzn-2 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-hdfs-journalnode 3.2.1-amzn-2 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。
hadoop-httpfs-server 3.2.1-amzn-2 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 3.2.1-amzn-2 Hadoop の KeyProvider API に基づく暗号化キー管理サーバー。
hadoop-mapred 3.2.1-amzn-2 MapReduce アプリケーションを実行するための MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager 3.2.1-amzn-2 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 3.2.1-amzn-2 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 3.2.1-amzn-2 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 2.2.6-amzn-0 リージョンの調整および管理コマンドの実行を行う HBase クラスターのサービス。
hbase-region-server 2.2.6-amzn-0 1 つ以上の HBase リージョンに対応するサービス。
hbase-client 2.2.6-amzn-0 HBase コマンドラインクライアント。
hbase-rest-server 2.2.6-amzn-0 の RESTful HTTP エンドポイントを提供するサービス。HBase
hbase-thrift-server 2.2.6-amzn-0 に Thrift エンドポイントを提供するサービス。HBase
hcatalog-client 3.1.2-amzn-3 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 3.1.2-amzn-3 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供します。
hcatalog-webhcat-server 3.1.2-amzn-3 に REST インターフェイスを提供する HTTP エンドポイント。HCatalog
hive-client 3.1.2-amzn-3 Hive コマンドラインクライアント。
hive-hbase 3.1.2-amzn-3 Hive-hbase クライアント。
hive-metastore-server 3.1.2-amzn-3 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 3.1.2-amzn-3 Hive クエリをウェブリクエストとして受け入れるサービス。
hudi 0.6.0-amzn-1 データパイプラインを強化する低レイテンシーかつ高効率な増分処理フレームワーク。
hudi-presto 0.6.0-amzn-1 Presto を Hudi で実行するためのバンドルライブラリ。
HUDi-prestosql 0.6.0-amzn-1 Hudi で PrestoSQL を実行するためのバンドルライブラリ。
Hudi-spark 0.6.0-amzn-1 Hudi で Spark を実行するためのバンドルライブラリ。
hue-server 4.8.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub 1.1.0 Jupyter ノートブックのマルチユーザーサーバー
livy-server 0.7.0-incubating Apache Spark を操作するための REST インターフェイス
nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー
mxnet 1.7.0 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mariadb-server 5.5.64+ MariaDB データベースサーバー。
nvidia-cuda 10.1.243 Nvidia ドライバーと Cuda ツールキット
oozie-client 5.2.0 Oozie コマンドラインクライアント。
oozie-server 5.2.0 Oozie ワークフローリクエストを受け入れるサービス。
opencv 4.4.0 オープンソースのコンピュータビジョンライブラリ。
phoenix-library 5.0.0-HBase-2.0 サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server 5.0.0-HBase-2.0 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator 0.238.3-amzn-1 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker 0.238.3-amzn-1 いくつかのクエリを実行するサービス。
presto-client 0.238.3-amzn-1 Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。
prestosql-coordinator 343 prestosql-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
Prestosql ワーカー 343 いくつかのクエリを実行するサービス。
Prestosql-client 343 Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。
pig-client 0.17.0 Pig コマンドラインクライアント。
r 3.4.3 統計的コンピューティング用 R プロジェクト
ranger-kms-server 2.0.0 Apache Ranger Key Management System
spark-client 3.0.1-amzn-0 Spark コマンドラインクライアント。
spark-history-server 3.0.1-amzn-0 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn 3.0.1-amzn-0 YARN のメモリ内実行エンジン。
spark-yarn-slave 3.0.1-amzn-0 YARN スレーブで必要な Apache Spark ライブラリ。
スパークトラップ 0.2.0 を使用して Apache Spark を高速化する Nvidia Spark RAPI プラグイン。GPUs
sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。
tensorflow 2.3.1 TensorFlow 高性能数値計算用のオープンソースソフトウェアライブラリ。
tez-on-yarn 0.9.2 tez YARN アプリケーションおよびライブラリ。
webserver 2.4.41+ Apache HTTP サーバー。
zeppelin-server 0.9.0-preview1 インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server 3.4.14 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client 3.4.14 ZooKeeper コマンドラインクライアント。

6.2.0 設定分類

分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、hive-site.xml など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-6.2.0 分類
分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-executor

Hadoop YARN の container-executor.cfg ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

docker-conf

Docker 関連の設定を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties の設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

の環境の値を変更します。HBase

hbase-log4j

の hbase-log4j.properties ファイルの値を変更します。HBase

hbase-metrics

の hadoop-metrics2-hbase.properties ファイルの値を変更します。HBase

hbase-policy

の hbase-policy.xml ファイルの値を変更します。HBase

hbase-site

の hbase-site.xml ファイルの値を変更します。HBase

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-env

HDFS 環境の値を変更します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

の環境の値を変更します。HCatalog

hcatalog-server-jndi

の jndi.properties の値を変更します。HCatalog

hcatalog-server-proto-hive-site

の proto-hive-site.xml の値を変更します。HCatalog

hcatalog-webhcat-env

HCatalog の環境の値を変更します。WebHCat

hcatalog-webhcat-log4j2

の log4j2.properties の値を変更します。HCatalogWebHCat

hcatalog-webhcat-site

の webhcat-site.xml ファイルの値を変更します。HCatalogWebHCat

hive

Apache Hive 用の Amazon EMR-curated 設定。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

hudi-env

Hudi 環境の値を変更します。

jupyter-notebook-conf

Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

の jupyterhub_config.py ファイルの値を変更します。JupyterHubs

jupyter-s3-conf

Jupyter ノートブックの S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

アプリケーションの環境の値を変更します。MapReduce

mapred-site

アプリケーションの mapred-site.xml ファイルの値を変更します。MapReduce

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-env

Pig 環境の値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

prestosql-log

Presto の log.properties ファイルの値を変更します。

prestosql-config

Presto の config.properties ファイルの値を変更します。

prestosql-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

Prestosql-env

Presto の presto-env.sh ファイルの値を変更します。

prestosql-node

の node.properties ファイルの値を変更します。PrestoSQL

prestosql-connector-blackhole

の blackhole.properties ファイルの値を変更します。PrestoSQL

prestosql-connector-cassandra

の cassandra.properties ファイルの値を変更します。PrestoSQL

Prestosql-connector-hive

の hive.properties ファイルの値を変更します。PrestoSQL

prestosql-connector-jmx

の jmx.properties ファイルの値を変更します。PrestoSQL

prestosql-connector-kafka

の kafka.properties ファイルの値を変更します。PrestoSQL

Prestosql-connector-localfile

の localfile.properties ファイルの値を変更します。PrestoSQL

prestosql-connector-memory

の memory.properties ファイルの値を変更します。PrestoSQL

Prestosql-connector-mongodb

の mongodb.properties ファイルの値を変更します。PrestoSQL

prestosql-connector-mysql

の mysql.properties ファイルの値を変更します。PrestoSQL

prestosql-connector-postgresql

の postgresql.properties ファイルの値を変更します。PrestoSQL

prestosql-connector-raptor

の raptor.properties ファイルの値を変更します。PrestoSQL

Prestosql-connector-redis

の redis.properties ファイルの値を変更します。PrestoSQL

Prestosql-connector-redshift

の redshift.properties ファイルの値を変更します。PrestoSQL

prestosql-connector-tpch

の tpch.properties ファイルの値を変更します。PrestoSQL

prestosql-connector-tpcds

の tpcds.properties ファイルの値を変更します。PrestoSQL

ranger-kms-dbks-site

Ranger KMS の dbks-site.xml ファイルの値を変更します。

ranger-kms-site

Ranger KMS の ranger-kms-site.xml ファイルの値を変更します。

ranger-kms-env

Ranger KMS 環境の値を変更します。

ranger-kms-log4j

Ranger KMS の kms-log4j.properties ファイルの値を変更します。

ranger-kms-db-ca

Ranger KMS を使用した MySQL SSL 接続用に S3 上の CA ファイルの値を変更します。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoop の OraOop の oraoop-site.xml ファイルの値を変更します。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

の zoo.cfg ファイルの値を変更します。ZooKeeper

zookeeper-log4j

の log4j.properties ファイルの値を変更します。ZooKeeper

6.1.0

6.1.0 アプリケーションバージョン

このリリースでは、次のアプリケーションがサポートされています。 Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, MXNet, Oozie, Phoenix, Pig, Presto, PrestoSQL, Spark, Sqoop, TensorFlow, Tez, Zeppelin、、および ZooKeeper.

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

6.1.0 リリースノート

次のリリースノートは、Amazon EMR リリースバージョン 6.1.0 に関する情報を記載しています。6.0.0 からの変更が含まれています。

初回リリース日: 2020 年 9 月 4 日

最終更新日: 2020 年 10 月 15 日

サポートされるアプリケーション

  • AWS SDK for Java バージョン 1.11.828

  • Flink バージョン 1.11.0

  • Ganglia バージョン 3.7.2

  • Hadoop バージョン 3.2.1-amzn-1

  • HBase バージョン 2.2.5

  • HBase-operator-tools 1.0.0

  • HCatalog バージョン 3.1.2-amzn-0

  • Hive バージョン 3.1.2-amzn-1

  • Hudi バージョン 0.5.2-incubating

  • Hue バージョン 4.7.1

  • JupyterHub バージョン 1.1.0

  • Livy バージョン 0.7.0

  • MXNet バージョン 1.6.0

  • Oozie バージョン 5.2.0

  • Phoenix バージョン 5.0.0

  • Presto バージョン 0.232

  • PrestoSQL バージョン 338

  • Spark バージョン 3.0.0-amzn-0

  • TensorFlow バージョン 2.1.0

  • Zeppelin バージョン 0.9.0-preview1

  • Zookeeper バージョン 3.4.14

  • コネクタおよびドライバー: DynamoDB Connector 4.14.0

新機能

  • ARM インスタンスタイプは、Amazon EMR バージョン 5.30.0 および Amazon EMR バージョン 6.1.0 以降でサポートされています。

  • M6g 汎用インスタンスタイプは、Amazon EMR バージョン 6.1.0 および 5.31.0 以降でサポートされています。詳細については、Amazon EMR 管理ガイドの「サポートされるインスタンスタイプ」を参照してください。

  • EC2 プレイスメントグループ機能は、Amazon EMR バージョン 5.23.0 以降、複数のマスターノードクラスターのオプションとしてサポートされます。現在、プレイスメントグループ機能でサポートされるのはマスターノードタイプのみで、SPREAD ストラテジーはそれらのマスターノードに適用されます。SPREAD ストラテジーでは、ハードウェア障害が発生した場合に複数のマスターノードが失われることを防ぐために、インスタンスの小さなグループを基盤となる別々のハードウェアに配置します。詳細については、Amazon EMR 管理ガイド の「EMR と EC2 プレイスメントグループとの統合」を参照してください。

  • マネージドスケーリング – Amazon EMR バージョン 6.1.0 では、EMR マネージドスケーリングを有効にすることで、ワークロードに応じてクラスター内のインスタンスやユニットの数を自動的に増減できます。EMR はクラスターのメトリクスを継続的に評価し、クラスターのコストと速度を最適化するためのスケーリングを決定します。マネージドスケーリングは、Amazon EMR バージョン 5.30.0 以降でも使用できます (6.0.0 を除く)。詳細については、Amazon EMR 管理ガイドの「クラスターリソースのスケーリング」を参照してください。

  • PrestoSQL バージョン 338 は、EMR 6.1.0 でサポートされています。詳細については、「Presto」を参照してください。

    • PrestoSQL は EMR 6.1.0 以降のバージョンでのみサポートされ、EMR 6.0.0 または EMR 5.x ではサポートされません。

    • アプリケーション名 Presto は、クラスターに PrestoDB をインストールするために引き続き使用されます。クラスターに PrestoSQL をインストールするには、アプリケーション名 PrestoSQL を使用します。

    • PrestoDB または PrestoSQL のいずれかをインストールできますが、両方を 1 つのクラスターにインストールすることはできません。クラスターの作成時に PrestoDB と PrestoSQL の両方を指定すると、検証エラーが発生し、クラスターの作成リクエストは失敗します。

    • PrestoSQL は、シングルマスタークラスターとマルチマスタークラスターの両方でサポートされています。マルチマスタークラスターでは、PrestoSQL または PrestoDB を実行するには、外部 Hive メタストアが必要です。「複数のマスターノードを持つ EMR クラスターでサポートされているアプリケーション」を参照してください。

  • Docker での Apache Hadoop と Apache Spark に対する ECR 自動認証サポート: Spark ユーザーは、Docker Hub と Amazon Elastic Container Registry (Amazon ECR) の Docker イメージを使用して、環境とライブラリの依存関係を定義できます。

    Docker を設定し、Amazon EMR 6.x を使用してDocker で Spark アプリケーションを実行します。

  • EMR は Apache Hive ACID トランザクションをサポートします。Amazon EMR 6.1.0 では、Hive ACID トランザクションのサポートが追加され、データベースの ACID プロパティに準拠します。この機能を使用すると、Amazon Simple Storage Service (Amazon S3) のデータを含む Hive の管理されたテーブルで、INSERT、UPDATE、DELETE、および MERGE オペレーションを実行できます。これは、ストリーミング取り込み、データ再設定、MERGE を使用した一括更新、緩やかに変化するディメンションなどのユースケースにとって重要な機能です。設定例やユースケースなどの詳細については、「Amazon EMR が Apache Hive ACID トランザクションをサポート」を参照してください。

変更、拡張、解決した問題

  • Apache Flink は EMR 6.0.0 ではサポートされていませんが、EMR 6.1.0 では Flink1.11.0 がサポートされています。これは、正式に Hadoop 3 をサポートする Flink の最初のバージョンです。「Apache Flink 1.11.0 リリースの発表」を参照してください。

  • Ganglia はデフォルトの EMR 6.1.0 パッケージバンドルから削除されました。

既知の問題

  • Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.

    The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.

    Explicitly set a ulimit from the command line

    1. Edit /etc/systemd/system/instance-controller.service to add the following parameters to Service section.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Set a ulimit using bootstrap action (BA)

    You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • 重要

    Amazon EMR 6.1.0 および 6.2.0 には、Hudi の挿入、アップサート、および削除オペレーションにすべて重大な影響を与える可能性があるパフォーマンスの問題が含まれています。Amazon EMR 6.1.0 または 6.2.0 で Hudi を使用する予定の場合は、AWS サポートに連絡して、パッチが適用された Hudi RPM を入手してください。

  • spark.driver.extraJavaOptionsspark.executor.extraJavaOptions を使用してカスタムガベージコレクション設定を指定すると、ガベージコレクション設定の競合により、EMR 6.1 でドライバー/エグゼキュータの起動に失敗します。EMR リリース 6.1.0 では、ドライバーとエグゼキュータのカスタム Spark ガベージコレクション設定を、代わりにプロパティ spark.driver.defaultJavaOptionsspark.executor.defaultJavaOptions で指定する必要があります。詳細については、「Apache Spark ランタイム環境」および「Amazon EMR 6.1.0 での Spark ガベージコレクションの設定」を参照してください。

  • Oozie で Pig を使用すると、ネイティブ lzo ライブラリをロードできないというエラーが生成されます (Hue 内でも同様です。Hue は Oozie アクションを使用して Pig スクリプトを実行するためです)。このエラーメッセージは情報提供を目的としたもので、Pig の実行はブロックされません。

  • Hudi 同時実行のサポート: 現時点で、Hudi は単一の Hudi テーブルへの同時書き込みをサポートしていません。さらに、Hudi は、新しいライターの開始を許可する前に、進行中のライターの変更をすべてロールバックします。同時書き込みはこのメカニズムに干渉するため、競合状態を発生させ、データの破損につながる可能性があります。データ処理ワークフローの一部として、Hudi テーブルに対して操作を実行する Hudi ライターは常に 1 つのみであることを確認してください。Hudi は、同じ Hudi テーブルに対して動作する複数の同時リーダーをサポートします。

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

  • Amazon EMR 6.1.0 には、Presto を実行しているクラスターに影響する問題があります。長い時間 (日数) が経過した後で、クラスターは「su: /bin/bash の実行に失敗しました: リソースは一時的に使用できません」または「チャネル 0 でシェル要求が失敗しました」などのエラーがスローされることがあります。この問題は、内部の Amazon EMR プロセス (instanceController) で発生している軽量プロセス (LWP) が多すぎる場合に発生します。その結果、Hadoop ユーザーは nproc の制限を超過します。これにより、ユーザーは追加のプロセスを開くことができなくなります。この問題の解決策は、EMR 6.2.0 にアップグレードすることです。

6.1.0 コンポーネントバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

Amazon EMR の一部のコンポーネントは、コミュニティバージョンとは異なります。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。EmrVersion は 0 から始まります。たとえば、バージョン 2.2 の myapp-component というオープンソースコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-2 として表示されます。

コンポーネント バージョン 説明:
aws-sagemaker-spark-sdk 1.3.0 Amazon SageMaker Spark SDK
emr-ddb 4.14.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクター。
emr-goodies 3.1.0 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.5.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。
emr-s3-dist-cp 2.14.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 2.0.0 EMR S3Select コネクター
emrfs 2.42.0(2.42.0) Hadoop エコシステムアプリケーション用の Amazon S3 コネクター。
flink-client 1.11.0 Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 3.2.1-amzn-1 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 3.2.1-amzn-1 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 3.2.1-amzn-1 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 3.2.1-amzn-1 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-hdfs-journalnode 3.2.1-amzn-1 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。
hadoop-httpfs-server 3.2.1-amzn-1 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 3.2.1-amzn-1 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred 3.2.1-amzn-1 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager 3.2.1-amzn-1 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 3.2.1-amzn-1 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 3.2.1-amzn-1 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 2.2.5 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server 2.2.5 1 つ以上の HBase リージョンに対応するサービス。
hbase-client 2.2.5 HBase コマンドラインクライアント。
hbase-rest-server 2.2.5 HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server 2.2.5 HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client 3.1.2-amzn-2 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 3.1.2-amzn-2 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server 3.1.2-amzn-2 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client 3.1.2-amzn-2 Hive コマンドラインクライアント。
hive-hbase 3.1.2-amzn-2 Hive-hbase クライアント。
hive-metastore-server 3.1.2-amzn-2 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 3.1.2-amzn-2 Hive クエリをウェブリクエストとして受け入れるサービス。
hudi 0.5.2-インキュベーション-Amzn-2 データパイプラインを強化する低レイテンシーかつ高効率な増分処理フレームワーク。
hudi-presto 0.5.2-インキュベーション-Amzn-2 Presto を Hudi で実行するためのバンドルライブラリ。
フディ=プレストセル 0.5.2-インキュベーション-Amzn-2 Hudi と PrestoSQL を実行するためのバンドル ライブラリ。
ハディ・スパーク 0.5.2-インキュベーション-Amzn-2 Hudi と Spark を実行するためのバンドル ライブラリ。
hue-server 4.7.1 項 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub 1.1.0 Jupyter ノートブックのマルチユーザーサーバー
livy-server 0.7.0-incubating Apache Spark を操作するための REST インターフェイス
nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー
mxnet 1.6.0 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mariadb-server 5.5.64 MariaDB データベースサーバー。
nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット
oozie-client 5.2.0 Oozie コマンドラインクライアント。
oozie-server 5.2.0 Oozie ワークフローリクエストを受け入れるサービス。
opencv 4.3.0 オープンソースのコンピュータビジョンライブラリ。
phoenix-library 5.0.0-HBase-2.0 サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server 5.0.0-HBase-2.0 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator 0.232 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker 0.232 いくつかのクエリを実行するサービス。
presto-client 0.232 Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。
プレストセル コーディネーター 338 prestosql-workersのクエリを受け入れ、クエリ実行を管理するサービス。
プレストセル・ワーカー 338 いくつかのクエリを実行するサービス。
prestosql-client(プレストセル・クライアント) 338 Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。
pig-client 0.17.0 Pig コマンドラインクライアント。
\r 3.4.3 統計的コンピューティング用 R プロジェクト
ranger-kms-server 2.0.0 Apache Ranger Key Management System
spark-client 3.0.0-amzn-0 Spark コマンドラインクライアント。
spark-history-server 3.0.0-amzn-0 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn 3.0.0-amzn-0 YARN のメモリ内実行エンジン。
spark-yarn-slave 3.0.0-amzn-0 YARN スレーブで必要な Apache Spark ライブラリ。
sqoop-client 1.4.7 Apache Sqoop コマンドラインクライアント。
tensorflow 2.1.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。
tez-on-yarn 0.9.2 tez YARN アプリケーションおよびライブラリ。
webserver 2.4.41+ Apache HTTP サーバー。
zeppelin-server 0.9.0-プレビュー1 インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server 3.4.14 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client 3.4.14 ZooKeeper コマンドラインクライアント。

6.1.0 設定分類

分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、hive-site.xml など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-6.1.0分類
分類 説明:

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-executor

Hadoop YARN の container-executor.cfg ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties の設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

HBase の環境の値を変更します。

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-env

HDFS 環境の値を変更します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

HCatalog 環境の値を変更します。

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

hive

Apache Hive 用の Amazon EMR-curated 設定。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

hudi-env

Hudi 環境の値を変更します。

jupyter-notebook-conf

Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

JupyterHubs の jupyterhub_config.py ファイルの値を変更します。

jupyter-s3-conf

Jupyter ノートブックの S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-env

Pig 環境の値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

prestosql-log(プレストセルログ)

Presto の log.properties ファイルの値を変更します。

prestosql-config(プレストセル構成)

Presto の config.properties ファイルの値を変更します。

prestosql-password-authenticator(プレストセル パスワード認証)

Presto の password-authenticator.properties ファイルの値を変更します。

プレストスクエア・エンフ

Presto の presto-env.sh ファイルの値を変更します。

prestosql-node(プレストセルノード)

PrestoSQL の node.properties ファイルの値を変更します。

プレストスクエア コネクター ブラックホール

PrestoSQL の blackhole.properties ファイルの値を変更します。

プレストスクエア コネクター カサンドラ

PrestoSQL の cassandra.properties ファイルの値を変更します。

プレストセルコネクターハイブ

PrestoSQLのhive.propertiesファイルの値を変更します。

prestosql-コネクター-jmx

PrestoSQL の jmx.properties ファイルの値を変更します。

プレストスクエア コネクター カフカ

PrestoSQL の kafka.properties ファイルの値を変更します。

prestosql-connector-localfile(プレストセル コネクター ローカルファイル)

PrestoSQL の localfile.properties ファイルの値を変更します。

prestosql-connector-memory(プレストセル コネクター メモリ)

PrestoSQL の memory.properties ファイルの値を変更します。

prestosql-connector-mongodb(プレストセル・コネクタ・モンゴド)

PrestoSQLのmongodb.propertiesファイルの値を変更します。

プレストセル コネクター マイセル

PrestoSQLのmysql.propertiesファイルの値を変更します。

プレストセルクコネクターポストグレセル

PrestoSQL の postgresql.properties ファイルの値を変更します。

プレストスクセルコネクターラプター

PrestoSQL の raptor.properties ファイルの値を変更します。

プレストセルコネクターレジス

PrestoSQL の redis.properties ファイルの値を変更します。

プレストセルコネクターレッドシフト

PrestoSQL の redshift.properties ファイルの値を変更します。

プレストセルコネクター-tpch

PrestoSQL の tpch.properties ファイルの値を変更します。

プレストセルコネクター-tpcs

PrestoSQL の tpcs.properties ファイルの値を変更します。

ranger-kms-dbks-site

Ranger KMS の dbks-site.xml ファイルの値を変更します。

ranger-kms-site

Ranger KMS の ranger-kms-site.xml ファイルの値を変更します。

ranger-kms-env

Ranger KMS 環境の値を変更します。

ranger-kms-log4j

Ranger KMS の kms-log4j.properties ファイルの値を変更します。

ranger-kms-db-ca

Ranger KMS を使用した MySQL SSL 接続用の S3 の CA ファイルの値を変更します。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

ZooKeeper の zoo.cfg ファイルの値を変更します。

zookeeper-log4j

ZooKeeper の log4j.properties ファイルの値を変更します。

6.0.0

6.0.0 アプリケーションバージョン

このリリースでは、次のアプリケーションがサポートされています。 Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, MXNet, Oozie, Phoenix, Presto, Spark, TensorFlow, Tez, Zeppelin、、および ZooKeeper.

次の図は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 4 つの Amazon EMR リリースでのアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下の図を参照してください。

6.0.0 リリースノート

次のリリースノートには、Amazon EMR リリースバージョン 6.0.0 に関する情報が含まれています。

初回リリース日: 2020 年 3 月 10 日

サポートされるアプリケーション

  • AWS SDK for Java バージョン 1.11.711

  • Ganglia バージョン 3.7.2

  • Hadoop バージョン 3.2.1

  • HBase バージョン 2.2.3

  • HCatalog バージョン 3.1.2

  • Hive バージョン 3.1.2

  • Hudi バージョン 0.5.0-incubating

  • Hue バージョン 4.4.0

  • JupyterHub バージョン 1.0.0

  • Livy バージョン 0.6.0

  • MXNet バージョン 1.5.1

  • Oozie バージョン 5.1.0

  • Phoenix バージョン 5.0.0

  • Presto バージョン 0.230

  • Spark バージョン 2.4.4

  • TensorFlow バージョン 1.14.0

  • Zeppelin バージョン 0.9.0-SNAPSHOT

  • Zookeeper バージョン 3.4.14

  • コネクタおよびドライバー: DynamoDB Connector 4.14.0

注記

Flink、Sqoop、Pig、および Mahout は、Amazon EMR バージョン 6.0.0 では使用できません。

新機能

  • YARN Docker ランタイムのサポート - Spark ジョブなどの YARN アプリケーションは、Docker コンテナのコンテキストで実行できるようになりました。これにより、Amazon EMR クラスターにカスタムライブラリをインストールすることなく、Docker イメージの依存関係を簡単に定義できます。詳細については、「Configure Docker Integration」および「Run Spark applications with Docker using Amazon EMR 6.0.0」を参照してください。

  • Hive LLAP のサポート - クエリのパフォーマンス向上のため、Hive が LLAP 実行モードをサポートしました。詳細については、「Hive LLAP の使用」を参照してください。

変更、拡張、解決した問題

  • Amazon Linux

    • Amazon Linux 2 は EMR 6.x リリースシリーズのオペレーティングシステムです。

    • systemd は、Amazon Linux 1 で使用される upstart ではなく、サービス管理に使用されます。

  • Java Development Kit (JDK)

    • Coretto JDK 8 は、EMR 6.x リリースシリーズのデフォルトの JDK です。

  • Scala

    • Scala 2.12 は、Apache Spark および Apache Livy で使用されます。

  • Python 3

    • Python 3 が EMR の Python のデフォルトバージョンになりました。

  • YARN ノードラベル

    • Amazon EMR 6.x リリースシリーズ以降では、YARN ノードラベル機能はデフォルトで無効になっています。アプリケーションマスタープロセスは、デフォルトでコアノードとタスクノードの両方で実行できます。次のプロパティを設定することで、YARN ノードラベル機能を有効にできます: yarn.node-labels.enabled および yarn.node-labels.am.default-node-label-expression。詳細については、「Understanding Master, Core, and Task Nodes」を参照してください。

既知の問題

  • Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.

    The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.

    Explicitly set a ulimit from the command line

    1. Edit /etc/systemd/system/instance-controller.service to add the following parameters to Service section.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Set a ulimit using bootstrap action (BA)

    You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • PySpark、SparkR、spark-shell を含む Spark インタラクティブシェルは、追加のライブラリでの Docker の使用をサポートしていません。

  • Amazon EMR バージョン 6.0.0 で Python 3 を使用するには、PATHyarn.nodemanager.env-whitelist に追加する必要があります。

  • AWS Glue データカタログを Hive のメタストアとして使用する場合、Live Long and Process (LLAP) 機能はサポートされません。

  • Spark と Docker の統合で Amazon EMR 6.0.0 を使用する場合、Docker ランタイムで Spark ジョブを送信する際の失敗を避けるために、クラスター内のインスタンスを同じインスタンスタイプと同じ量の EBS ボリュームで設定する必要があります。

  • Amazon EMR 6.0.0 では、Amazon S3 ストレージモード上の HBase は HBASE-24286 の問題の影響を受けます。既存の S3 データを使用してクラスターが作成されると、HBase マスターは初期化できません。

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

6.0.0 コンポーネントバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新リリースの Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

Amazon EMR の一部のコンポーネントは、コミュニティバージョンとは異なります。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。EmrVersion は 0 から始まります。たとえば、バージョン 2.2 の myapp-component というオープンソースコミュニティコンポーネントが、異なるリリース済み Amazon EMR バージョンに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-2 として表示されます。

コンポーネント バージョン 説明
aws-sagemaker-spark-sdk 1.2.6 Amazon SageMaker Spark SDK
emr-ddb 4.14.0 Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクター。
emr-goodies 3.0.0 Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis 3.5.0 Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。
emr-s3-dist-cp 2.14.0 Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select 1.5.0 EMR S3Select コネクター
emrfs 2.39.0 Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。
ganglia-monitor 3.7.2 Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector 3.7.2 Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web 3.7.1 Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client 3.2.1-amzn-0 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode 3.2.1-amzn-0 ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library 3.2.1-amzn-0 HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode 3.2.1-amzn-0 ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-hdfs-journalnode 3.2.1-amzn-0 HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。
hadoop-httpfs-server 3.2.1-amzn-0 HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server 3.2.1-amzn-0 Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred 3.2.1-amzn-0 MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager 3.2.1-amzn-0 個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager 3.2.1-amzn-0 クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server 3.2.1-amzn-0 YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster 2.2.3 リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server 2.2.3 1 つ以上の HBase リージョンに対応するサービス。
hbase-client 2.2.3 HBase コマンドラインクライアント。
hbase-rest-server 2.2.3 HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server 2.2.3 HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client 3.1.2-amzn-0 hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server 3.1.2-amzn-0 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server 3.1.2-amzn-0 HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client 3.1.2-amzn-0 Hive コマンドラインクライアント。
hive-hbase 3.1.2-amzn-0 Hive-hbase クライアント。
hive-metastore-server 3.1.2-amzn-0 Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server2 3.1.2-amzn-0 Hive クエリをウェブリクエストとして受け入れるサービス。
hudi 0.5.0-incubating-amzn-1 データパイプラインを強化する低レイテンシーかつ高効率な増分処理フレームワーク。
hudi-presto 0.5.0-incubating-amzn-1 Presto を Hudi で実行するためのバンドルライブラリ。
hue-server 4.4.0 Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub 1.0.0 Jupyter ノートブックのマルチユーザーサーバー
livy-server 0.6.0-incubating Apache Spark を操作するための REST インターフェイス
nginx 1.12.1 nginx [engine x] は HTTP およびリバースプロキシサーバー
mxnet 1.5.1 フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mariadb-server 5.5.64+ MariaDB データベースサーバー。
nvidia-cuda 9.2.88 Nvidia ドライバーと Cuda ツールキット
oozie-client 5.1.0 Oozie コマンドラインクライアント。
oozie-server 5.1.0 Oozie ワークフローリクエストを受け入れるサービス。
opencv 3.4.0 オープンソースのコンピュータビジョンライブラリ。
phoenix-library 5.0.0-HBase-2.0 サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server 5.0.0-HBase-2.0 JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator 0.230 presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker 0.230 いくつかのクエリを実行するサービス。
presto-client 0.230 Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。
r 3.4.3 統計的コンピューティング用 R プロジェクト
spark-client 2.4.4 Spark コマンドラインクライアント。
spark-history-server 2.4.4 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn 2.4.4 YARN のメモリ内実行エンジン。
spark-yarn-slave 2.4.4 YARN スレーブで必要な Apache Spark ライブラリ。
tensorflow 1.14.0 TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。
tez-on-yarn 0.9.2 tez YARN アプリケーションおよびライブラリ。
webserver 2.4.41+ Apache HTTP サーバー。
zeppelin-server 0.9.0-SNAPSHOT インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server 3.4.14 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client 3.4.14 ZooKeeper コマンドラインクライアント。

6.0.0 設定分類

分類設定を使用すると、アプリケーションをカスタマイズすることができます。これらは通常、hive-site.xml など、アプリケーションの設定 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-6.0.0 の分類
分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-executor

Hadoop YARN の container-executor.cfg ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

HBase の環境の値を変更します。

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-env

HDFS 環境の値を変更します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

HCatalog 環境の値を変更します。

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

hive

Apache Hive 用の Amazon EMR-curated 設定。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

jupyter-notebook-conf

Jupyter ノートブックの jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

JupyterHubs の jupyterhub_config.py ファイルの値を変更します。

jupyter-s3-conf

Jupyter ノートブックの S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

ranger-kms-dbks-site

Ranger KMS の dbks-site.xml ファイルの値を変更します。

ranger-kms-site

Ranger KMS の ranger-kms-site.xml ファイルの値を変更します。

ranger-kms-env

Ranger KMS 環境の値を変更します。

ranger-kms-log4j

Ranger KMS の kms-log4j.properties ファイルの値を変更します。

ranger-kms-db-ca

Ranger KMS を使用した MySQL SSL 接続用の S3 の CA ファイルの値を変更します。

recordserver-env

EMR RecordServer 環境の値を変更します。

recordserver-conf

EMR RecordServer の erver.properties ファイルの値を変更します。

recordserver-log4j

EMR RecordServer の log4j.properties ファイルの値を変更します。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

ZooKeeper の zoo.cfg ファイルの値を変更します。

zookeeper-log4j

ZooKeeper の log4j.properties ファイルの値を変更します。