Amazon EMR リリース 6.3.0 - Amazon EMR

Amazon EMR リリース 6.3.0

アプリケーションバージョン

このリリースでは、次のアプリケーションがサポートされています: FlinkGangliaHBaseHCatalogHadoopHiveHudiHueJupyterEnterpriseGatewayJupyterHubLivyMXNetOoziePhoenixPigPrestoPrestoSQLSparkSqoopTensorFlowTezZeppelinZooKeeper

以下の表は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 3 つの Amazon EMR リリース (該当する場合) で利用可能なアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下のトピックを参照してください。

アプリケーションバージョン情報
emr-6.3.0 emr-6.2.1 emr-6.2.0 emr-6.1.1
AWS SDK for Java 1.11.9771.11.8801.11.8801.11.828
Python 2.7、3.72.7、3.72.7、3.72.7、3.7
Scala 2.12.102.12.102.12.102.12.10
Delta - - - -
Flink1.12.11.11.21.11.21.11.0
Ganglia3.7.23.7.23.7.23.7.2
HBase2.2.62.2.6-amzn-02.2.6-amzn-02.2.5
HCatalog3.1.23.1.23.1.23.1.2
Hadoop3.2.13.2.13.2.13.2.1
Hive3.1.23.1.23.1.23.1.2
Hudi0.7.0-amzn-00.6.0-amzn-10.6.0-amzn-10.5.2-incubating-amzn-2
Hue4.9.04.8.04.8.04.7.1
Iceberg - - - -
JupyterEnterpriseGateway2.1.02.1.02.1.0 -
JupyterHub1.2.21.1.01.1.01.1.0
Livy0.7.00.7.00.7.00.7.0
MXNet1.7.01.7.01.7.01.6.0
Mahout - - - -
Oozie5.2.15.2.05.2.05.2.0
Phoenix5.0.05.0.05.0.05.0.0
Pig0.17.00.17.00.17.00.17.0
Presto0.245.10.238.30.238.30.232
Spark3.1.13.0.13.0.13.0.0
Sqoop1.4.71.4.71.4.71.4.7
TensorFlow2.4.12.3.12.3.12.1.0
Tez0.9.20.9.20.9.20.9.2
Trino (PrestoSQL)350343343338
Zeppelin0.9.00.9.00.9.00.9.0
ZooKeeper3.4.143.4.143.4.143.4.14

リリースノート

次のリリースノートには、Amazon EMR リリース 6.3.0 に関する情報が含まれています。6.2.0 からの変更が含まれています。

初回リリース日: 2021 年 5 月 12 日

最終更新日: 2021 年 8 月 9 日

サポートされているアプリケーション
  • AWS SDK for Java バージョン 1.11.977

  • CloudWatch Sink バージョン 2.1.0

  • DynamoDB Connector バージョン 4.16.0

  • EMRFS バージョン 2.46.0

  • Amazon EMR Goodies バージョン 3.2.0

  • Amazon EMR Kinesis Connector バージョン 3.5.0

  • Amazon EMR Record Server バージョン 2.0.0

  • Amazon EMR Scripts バージョン 2.5.0

  • Flink バージョン 1.12.1

  • Ganglia バージョン 3.7.2

  • AWS Glue Hive Metastore Client バージョン 3.2.0

  • Hadoop バージョン 3.2.1-amzn-3

  • HBase バージョン 2.2.6-amzn-1

  • HBase-operator-tools 1.0.0

  • HCatalog バージョン 3.1.2-amzn-0

  • Hive バージョン 3.1.2-amzn-4

  • Hudi バージョン 0.7.0-amzn-0

  • Hue バージョン 4.9.0

  • Java JDK バージョン Corretto-8.282.08.1 (ビルド 1.8.0_282-b08)

  • JupyterHub バージョン 1.2.0

  • Livy バージョン 0.7.0-incubating

  • MXNet バージョン 1.7.0

  • Oozie バージョン 5.2.1

  • Phoenix バージョン 5.0.0

  • Pig バージョン 0.17.0

  • Presto バージョン 0.245.1-amzn-0

  • PrestoSQL バージョン 350

  • Apache Ranger KMS (マルチマスター透過的暗号化) バージョン 2.0.0

  • ranger-plugins 2.0.1-amzn-0

  • ranger-s3-plugin 1.1.0

  • SageMaker Spark SDK バージョン 1.4.1

  • Scala バージョン 2.12.10 (OpenJDK 64 ビットサーバー VM、Java 1.8.0_282)

  • Spark バージョン 3.1.1-amzn-0

  • spark-rapids 0.4.1

  • Sqoop バージョン 1.4.7

  • TensorFlow バージョン 2.4.1

  • tez バージョン 0.9.2

  • Zeppelin バージョン 0.9.0

  • Zookeeper バージョン 3.4.14

  • コネクタおよびドライバー: DynamoDB Connector 4.16.0

新機能
  • Amazon EMR は Amazon S3 Access Points をサポートしています。これは、共有データレイクへのアクセスを簡単に管理できる Amazon S3 の機能です。Amazon S3 アクセスポイントのエイリアスを使用すると、Amazon EMR で大規模なデータアクセスを簡素化できます。Amazon S3 Access Points は、Amazon EMR が利用できるすべての AWS リージョンで、追加料金なしに、Amazon EMR のすべてのバージョンで使用できます。Amazon S3 Access Points および Access Point のエイリアスの詳細については、「Amazon S3 ユーザーガイド」の「アクセスポイントでのバケット形式のエイリアスの使用」を参照してください。

  • 新しい DescribeReleaseLabel API パラメータおよび ListReleaseLabel API パラメータは、Amazon EMR リリースラベルの詳細を提供します。API リクエストが実行されているリージョンで利用可能なリリースをプログラムで一覧表示でき、特定の Amazon EMR リリースラベルで使用可能なアプリケーションをプログラムで一覧表示できます。リリースラベルのパラメータにより、Spark などの指定したアプリケーションをサポートしている Amazon EMR リリースも一覧表示されます。この情報は、Amazon EMR クラスターをプログラムで起動するために使用できます。たとえば、ListReleaseLabel の結果から最新のリリースバージョンを使用してクラスターを起動できます。詳細については、「Amazon EMR API リファレンス」の「DescribeReleaseLabel」および「ListReleaseLabels」を参照してください。

  • Amazon EMR 6.3.0 では、Apache Ranger とネイティブに統合されるクラスターを起動できます。Apache Ranger は、Hadoop プラットフォーム全体で包括的なデータセキュリティを有効化、監視、管理するためのオープンソースフレームワークです。詳細については、「Apache Ranger」を参照してください。ネイティブ統合により、独自の Apache Ranger を導入して、Amazon EMR できめ細かなデータアクセス制御を実施できます。「Amazon EMR 管理ガイド」の「Amazon EMR と Apache Ranger を統合する」を参照してください。

  • スコープ管理ポリシー: AWS のベストプラクティスに合わせて、Amazon EMR では、非推奨となるポリシーの置き換えとして v2 EMR スコープのデフォルト管理ポリシーが導入されています。「Amazon EMR 管理ポリシー」を参照してください。

  • インスタンスメタデータサービス (IMDS) V2 サポートステータス: Amazon EMR 6.2 以降では、Amazon EMR コンポーネントはすべての IMDS 呼び出しに IMDSv2 を使用します。アプリケーションコードでの IMDS 呼び出しでは、IMDSv1 と IMDSv2 の両方を使用するか、または、セキュリティを強化するために IMDSv2 のみを使用するように IMDS を設定できます。以前の Amazon EMR 6.x リリースで IMDSv1 を無効にすると、クラスターの起動が失敗します。

変更、機能強化、解決した問題
  • これは、Amazon EMR Scaling がクラスターを正常にスケールアップ/スケールダウンできない場合や、アプリケーション障害を引き起こした場合の問題点を修正するためのリリースです。

  • Amazon EMR のクラスター上のデーモンが YARN ノード状態や HDFS ノード状態の収集などのヘルスチェックアクティビティを実行しているときに、大規模で使用率の高いクラスターのスケーリングリクエストが失敗する問題を修正しました。これは、クラスター上のデーモンがノードのヘルスステータスデータを内部の Amazon EMR コンポーネントに伝達できなかったために発生していました。

  • EMR のクラスター上のデーモンが改善され、IP アドレスが再利用されるときにノードの状態を正しく追跡できるようになり、スケーリング操作中の信頼性が向上しました。

  • SPARK-29683。Spark が使用可能なすべてのノードが拒否リストに登録されていると想定していたため、クラスターのスケールダウン中にジョブエラーが発生する問題を修正しました。

  • YARN-9011。クラスターがスケールアップまたはスケールダウンを試みたときに YARN 廃止の競合状態が原因でジョブ障害が発生する問題を修正しました。

  • Amazon EMR のクラスター上のデーモンと YARN/HDFS の間でノードの状態が常に一致するようにすることで、クラスターのスケーリング中のステップまたはジョブの障害に関する問題を修正しました。

  • Kerberos 認証で有効になっている Amazon EMR クラスターで、スケールダウンやステップ送信などのクラスター操作が失敗する問題を修正しました。これは、Amazon EMR のクラスター上のデーモンが、プライマリノードで実行されている HDFS/YARN と安全に通信するために必要な Kerberos チケットを更新しなかったためです。

  • Amazon EMR の新しいリリースでは、Amazon EMR の古い AL2 で「最大オープンファイル」の上限が低い問題が修正されています。Amazon EMR リリース 5.30.1、5.30.2、5.31.1、5.32.1、6.0.1、6.1.1、6.2.1、5.33.0、6.3.0 以降には、「最大オープンファイル」設定が高くなった永続的な修正が含まれるようになりました。

  • Spark SQL UI の explain モードのデフォルトは Spark 3.1extended から formatted に変更されました。Amazon EMR では、それを extended に戻し、Spark SQL UI に論理プラン情報を含めるようになっています。spark.sql.ui.explainModeformatted に設定すると、これを元に戻すことができます。

  • 以下のコミットは Spark マスターブランチからバックポートされました。

    - [SPARK-34752][ビルド] CVE-2020-27223 に対処するために Jetty を 9.4.37 にバンプ。

    - [SPARK-34534] FetchShuffleBlocks を使用してブロックをフェッチするときの blockId の順序を修正。

    - [SPARK-34681] [SQL] 非等化条件で左側を構築するときの、完全外部のシャッフルされたハッシュ結合のバグを修正。

    - [SPARK-34497] [SQL] JVM セキュリティコンテキストの変更を復元するための、組み込みの JDBC 接続プロバイダーを修正。

  • Nvidia Spark RAPIDS プラグインとの相互運用性を向上させるために、アダプティブクエリ実行を無効にして Nvidia Spark RAPIDS を使用するときに動的パーティションプルーニングがトリガーされない問題に対処する回避策を追加しました。「RAPIDS の問題 #1378」および「RAPIDS の問題 #1386」を参照してください。新しい設定 spark.sql.optimizer.dynamicPartitionPruning.enforceBroadcastReuse の詳細については、「RAPIDS の問題 #1386」を参照してください。

  • ファイル出力コミッターのデフォルトアルゴリズムは、オープンソースの Spark 3.1 の v2 アルゴリズムから v1 アルゴリズムに変更されました。詳細については、「Amazon EMR による Spark パフォーマンスの最適化 - ダイナミックパーティションプルーニング」を参照してください。

  • パフォーマンスの低下を防ぐため、Amazon EMR は以前の Amazon EMR 6.x リリースで使用されていたデフォルトである v2 アルゴリズムに戻りました。オープンソースの Spark 3.1 の動作を復元するには、spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version1 に設定します。オープンソースの Spark では、ファイル出力コミッターのアルゴリズム v2 のタスクコミットがアトミックではなく、場合によっては出力データの正確性の問題を引き起こす可能性があるため、この変更が行われました。ただし、アルゴリズム v1 のタスクコミットもアトミックではありません。場合によっては、タスクコミットに名前変更の前に実行された削除が含まれます。これにより、サイレントデータの正確性の問題が発生する可能性があります。

  • 以前の Amazon EMR リリースでマネージドスケーリングの問題を修正し、アプリケーションの障害率が大幅に低下するように改善しました。

  • 新しいクラスターごとに AWS Java SDK バンドルがインストールされました。これは、個々のコンポーネント jar ではなく、すべてのサービス SDK とその依存関係を含む単一の jar です。詳細については、「Java SDK Bundled Dependency」を参照してください。

既知の問題
  • Amazon EMR 6.3.0 および 6.2.0 のプライベートサブネットクラスターで、Ganglia ウェブ UI にアクセスできません。「アクセス拒否 (403)」というエラーが表示されます。Spark、Hue、JupyterHub、Zeppelin、Livy、Tez などの他のウェブ UI は正常に動作します。パブリックサブネットクラスターでの Ganglia ウェブ UI アクセスも正常に動作します。この問題を解決するには、sudo systemctl restart httpd を使用してプライマリノードで httpd サービスを再起動します。この問題は、Amazon EMR 6.4.0 で修正されています。

  • AWS Glue Data Catalog が有効になっている場合、Spark を使用して null 文字列のロケーション URI で AWS Glue DB にアクセスすると、失敗する可能性があります。これは以前の Amazon EMR リリースで発生しますが、SPARK-31709 (https://issues.apache.org/jira/browse/SPARK-31709) ではより多くの場合に当てはまります。例えば、ロケーション URI が null 文字列である デフォルトの AWS Glue DB 内でテーブルを作成すると、spark.sql("CREATE TABLE mytest (key string) location '/table_path';") が失敗し、「Cannot create a Path from an empty string」(空の文字列からパスを作成できません) というメッセージが表示されます。この問題に対処するには、AWS Glue データベースのロケーション URI を手動で設定してから、Spark を使用してこれらのデータベース内にテーブルを作成します。

  • Amazon EMR 6.3.0 では、PrestoSQL がバージョン 343 からバージョン 350 にアップグレードされました。このバージョン変更に関連して、オープンソースからのセキュリティ関連の変更が 2 つあります。ファイルベースのカタログアクセス制御は、テーブル、スキーマ、またはセッションのプロパティのルールが定義されていない場合、deny から allow に変更されています。また、ファイルベースのシステムアクセス制御は、カタログルールが定義されていないファイルをサポートするように変更されています。この場合、カタログへのすべてのアクセスが許可されます。

    詳細については、「Release 344 (9 Oct 2020)」を参照してください。

  • Hadoop ユーザーディレクトリ (/home/hadoop) はすべての人が読み取り可能であることに注意してください。Unix 755 (drwxr-xr-x) ディレクトリ許可があり、Hive のようなフレームワークによって読み取りアクセスが許可されます。/home/hadoop とそのサブディレクトリにファイルを配置できますが、機密情報を保護するために、これらのディレクトリに対するアクセス許可に注意してください。

  • 古い AL2 で「最大オープンファイル」の上限が低い [新しいリリースで修正済み]。Amazon EMR リリース emr-5.30.x、emr-5.31.0、emr-5.32.0、emr-6.0.0、emr-6.1.0、および emr-6.2.0 は、古いバージョンの Amazon Linux 2 (AL2) に基づいており、デフォルトの AMI を使用して Amazon EMR クラスターを作成する場合に「最大オープンファイル」の ulimit 設定が低くなります。Amazon EMR リリース 5.30.1、5.30.2、5.31.1、5.32.1、6.0.1、6.1.1、6.2.1、5.33.0、6.3.0 以降には、「最大オープンファイル」設定が高くなった永続的な修正が含まれています。オープンファイルの上限が低いリリースでは、Spark ジョブを送信するときに「Too many open files」というエラーが発生します。影響を受けるリリースでは、Amazon EMR のデフォルト AMI の「最大オープンファイル」はデフォルトの ulimit 設定 4096 になっており、最新の Amazon Linux 2 AMI の上限 65536 ファイルよりも低くなっています。「最大オープンファイル」の ulimit 設定が低い場合、Spark ドライバーとエグゼキュータが 4096 を超えるファイルを開こうとすると、Spark ジョブが失敗します。この問題を解決するために、Amazon EMR には、クラスターの作成時に ulimit 設定を調整するブートストラップアクション (BA) スクリプトが用意されています。

    この問題の永続的な修正がない古い Amazon EMR バージョンを使用している場合は、以下の回避策を使用すると、instance-controller ulimit を最大の 65536 ファイルに明示的に設定できます。

    コマンドラインから ulimit を明示的に設定する
    1. /etc/systemd/system/instance-controller.service を編集して、Service セクションに次のパラメータを追加します。

      LimitNOFILE=65536

      LimitNPROC=65536

    2. InstanceController を再起動します。

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    ブートストラップアクション (BA) を使用して ulimit を設定する

    ブートストラップアクション (BA) スクリプトを使用して、クラスター作成時にインスタンスコントローラーの ulimit を 65536 ファイルに設定することもできます。

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • 重要

    Amazon Linux AMI または Amazon Linux 2 AMI (Amazon Linux マシンイメージ) を実行している Amazon EMR クラスターは、デフォルトの Amazon Linux 動作を使用します。再起動が必要な重要なカーネル更新が自動的にダウンロードされてインストールされることはありません。これは、デフォルトの Amazon Linux AMI を実行している他の Amazon EC2 インスタンスと同じ動作です。Amazon EMR バージョンのリリース後に、再起動が必要な新しい Amazon Linux ソフトウェア更新 (カーネル、NVIDIA、CUDA の更新など) が使用可能になった場合、デフォルトの AMI を実行する Amazon EMR クラスターインスタンスで、それらの更新が自動的にダウンロードされてインストールされることはありません。カーネルの更新を取得するために、Amazon EMR AMI をカスタマイズして、最新の Amazon Linux AMI を使用できます。

  • Apache Oozie で Spark アクションを使用するには、以下の設定を Oozie workflow.xml ファイルに追加する必要があります。そうしないと、Hadoop や EMRFS などのいくつかの重要なライブラリが、Oozie が起動する Spark エグゼキューターのクラスパスから失われてしまいます。

    <spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
  • Hive パーティション場所の形式設定で Spark を使用して Amazon S3 のデータを読み取り、Amazon EMR リリース 5.30.0 から 5.36.0、および 6.2.0 から 6.9.0 で Spark を実行すると、クラスターがデータを正しく読み取れなくなる問題が発生する可能性があります。これは、パーティションに以下の特徴がすべて当てはまる場合に発生する可能性があります。

    • 同じテーブルから 2 つ以上のパーティションがスキャンされます。

    • 少なくとも 1 つのパーティションディレクトリパスが、少なくとも 1 つの他のパーティションディレクトリパスのプレフィックスです。例えば、s3://bucket/table/p=as3://bucket/table/p=a b のプレフィックスです。

    • 他のパーティションディレクトリのプレフィックスに続く最初の文字が、/ 文字 (U+002F) より小さい UTF-8 値を持ちます。例えば、s3://bucket/table/p=a b の a と b の間にあるスペース文字 (U+0020) はこのカテゴリに該当します。非制御文字は他にも 14 個あることに注意してください: !"#$%&‘()*+,-。詳細については、「UTF-8 encoding table and Unicode characters」を参照してください。

    この問題の回避策として、spark-defaults 分類の spark.sql.sources.fastS3PartitionDiscovery.enabled 設定を false にセットします。

コンポーネントのバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新の Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

Amazon EMR の一部のコンポーネントは、コミュニティバージョンとは異なります。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。EmrVersion は 0 から始まります。例えば、バージョン 2.2 の myapp-component というオープンソースコミュニティコンポーネントが、異なる Amazon EMR リリースに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-2 として表示されます。

コンポーネント バージョン 説明
aws-sagemaker-spark-sdk1.4.1Amazon SageMaker Spark SDK
emr-ddb4.16.0Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクター。
emr-goodies3.2.0Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis3.5.0Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。
emr-notebook-env1.2.0Jupyter エンタープライズゲートウェイを含む emr ノートブック用 Conda env
emr-s3-dist-cp2.18.0Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select2.1.0EMR S3Select コネクター
emrfs2.46.0Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。
flink-client1.12.1Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
flink-jobmanager-config1.12.1Apache Flink JobManager 用の EMR ノード上のリソースの管理。
ganglia-monitor3.7.2Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector3.7.2Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web3.7.1Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client3.2.1-amzn-3'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode3.2.1-amzn-3ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library3.2.1-amzn-3HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode3.2.1-amzn-3ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-hdfs-journalnode3.2.1-amzn-3HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。
hadoop-httpfs-server3.2.1-amzn-3HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server3.2.1-amzn-3Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred3.2.1-amzn-3MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager3.2.1-amzn-3個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager3.2.1-amzn-3クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server3.2.1-amzn-3YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster2.2.6-amzn-1リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server2.2.6-amzn-11 つ以上の HBase リージョンに対応するサービス。
hbase-client2.2.6-amzn-1HBase コマンドラインクライアント。
hbase-rest-server2.2.6-amzn-1HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server2.2.6-amzn-1HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client3.1.2-amzn-4hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server3.1.2-amzn-4分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server3.1.2-amzn-4HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client3.1.2-amzn-4Hive コマンドラインクライアント。
hive-hbase3.1.2-amzn-4Hive-hbase クライアント。
hive-metastore-server3.1.2-amzn-4Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server23.1.2-amzn-4Hive クエリをウェブリクエストとして受け入れるサービス。
hudi0.7.0-amzn-0データパイプラインを強化する低レイテンシーかつ高効率な増分処理フレームワーク。
hudi-presto0.7.0-amzn-0Presto を Hudi で実行するためのバンドルライブラリ。
hudi-prestosql0.7.0-amzn-0PrestoSQL を Hudi で実行するためのバンドルライブラリ。
hudi-spark0.7.0-amzn-0Spark を Hudi で実行するためのバンドルライブラリ。
hue-server4.9.0Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub1.2.2Jupyter Notebook のマルチユーザーサーバー
livy-server0.7.0-incubatingApache Spark を操作するための REST インターフェイス
nginx1.12.1nginx [engine x] は HTTP およびリバースプロキシサーバー
mxnet1.7.0フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mariadb-server5.5.68+MariaDB データベースサーバー。
nvidia-cuda10.1.243Nvidia ドライバーと Cuda ツールキット
oozie-client5.2.1Oozie コマンドラインクライアント。
oozie-server5.2.1Oozie ワークフローリクエストを受け入れるサービス。
opencv4.5.0オープンソースのコンピュータビジョンライブラリ。
phoenix-library5.0.0-HBase-2.0サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server5.0.0-HBase-2.0JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator0.245.1-amzn-0presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker0.245.1-amzn-0いくつかのクエリを実行するサービス。
presto-client0.245.1-amzn-0Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。
prestosql-coordinator350prestosql-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
prestosql-worker350いくつかのクエリを実行するサービス。
prestosql-client350Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。
pig-client0.17.0Pig コマンドラインクライアント。
r4.0.2統計的コンピューティング用 R プロジェクト
ranger-kms-server2.0.0Apache Ranger Key Management System
spark-client3.1.1-amzn-0Spark コマンドラインクライアント。
spark-history-server3.1.1-amzn-0完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn3.1.1-amzn-0YARN のメモリ内実行エンジン。
spark-yarn-slave3.1.1-amzn-0YARN スレーブで必要な Apache Spark ライブラリ。
spark-rapids0.4.1GPU で Apache Spark を高速化する Nvidia Spark RAPIDS プラグイン。
sqoop-client1.4.7Apache Sqoop コマンドラインクライアント。
tensorflow2.4.1TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。
tez-on-yarn0.9.2tez YARN アプリケーションおよびライブラリ。
webserver2.4.41+Apache HTTP サーバー。
zeppelin-server0.9.0インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server3.4.14設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client3.4.14ZooKeeper コマンドラインクライアント。

設定分類

設定分類を使用すると、アプリケーションをカスタマイズできます。これらは多くの場合、hive-site.xml などのアプリケーションの構成 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

再設定アクションは、実行中のクラスターのインスタンスグループの設定を指定すると発生します。Amazon EMR によって、変更した分類に対してのみ再設定アクションが開始されます。詳細については、「実行中のクラスター内のインスタンスグループの再設定」を参照してください。

emr-6.3.0 の分類
分類 説明 再設定アクション

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

Restarts the ResourceManager service.

container-executor

Hadoop YARN の container-executor.cfg ファイルの値を変更します。

Not available.

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

Not available.

core-site

Hadoop の core-site.xml ファイルの値を変更します。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Ranger KMS, HiveServer2, Hive MetaStore, Hadoop Httpfs, and MapReduce-HistoryServer.

docker-conf

Docker 関連の設定を変更します。

Not available.

emrfs-site

EMRFS の設定を変更します。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts HBaseRegionserver, HBaseMaster, HBaseThrift, HBaseRest, HiveServer2, Hive MetaStore, Hadoop Httpfs, and MapReduce-HistoryServer.

flink-conf

flink-conf.yaml の設定を変更します。

Restarts Flink history server.

flink-log4j

Flink log4j.properties の設定を変更します。

Restarts Flink history server.

flink-log4j-session

Kubernetes/Yarn セッションの Flink log4j-session.properties 設定を変更します。

Restarts Flink history server.

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

Restarts Flink history server.

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts PhoenixQueryserver, HiveServer2, Hive MetaStore, and MapReduce-HistoryServer.

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

Not available.

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

Not available.

hbase

Apache HBase 用の Amazon EMR-curated 設定。

Custom EMR specific property. Sets emrfs-site and hbase-site configs. See those for their associated restarts.

hbase-env

HBase の環境の値を変更します。

Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer.

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer.

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer.

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

Not available.

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer. Additionally restarts Phoenix QueryServer.

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

This classification should not be reconfigured.

hdfs-env

HDFS 環境の値を変更します。

Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC.

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs.

hcatalog-env

HCatalog 環境の値を変更します。

Restarts Hive HCatalog Server.

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

Restarts Hive HCatalog Server.

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

Restarts Hive HCatalog Server.

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

Restarts Hive WebHCat server.

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

Restarts Hive WebHCat server.

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

Restarts Hive WebHCat server.

hive

Apache Hive 用の Amazon EMR-curated 設定。

Sets configurations to launch Hive LLAP service.

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

Not available.

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

Not available.

hive-env

Hive 環境の値を変更します。

Restarts HiveServer2, HiveMetastore, and Hive HCatalog-Server. Runs Hive schemaTool CLI commands to verify hive-metastore.

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

Not available.

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

Not available.

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

Not available.

hive-site

Hive の hive-site.xml ファイルの値を変更します

Restarts HiveServer2, HiveMetastore, and Hive HCatalog-Server. Runs Hive schemaTool CLI commands to verify hive-metastore. Also restarts Oozie and Zeppelin.

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

Not available.

hue-ini

Hue の ini ファイルの値を変更します

Restarts Hue. Also activates Hue config override CLI commands to pick up new configurations.

httpfs-env

HTTPFS 環境の値を変更します。

Restarts Hadoop Httpfs service.

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

Restarts Hadoop Httpfs service.

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

Not available.

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

Restarts Hadoop-KMS service.

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

Not available.

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

Restarts Hadoop-KMS and Ranger-KMS service.

hudi-env

Hudi 環境の値を変更します。

Not available.

jupyter-notebook-conf

Jupyter Notebook の jupyter_notebook_config.py ファイルの値を変更します。

Not available.

jupyter-hub-conf

JupyterHubs の jupyterhub_config.py ファイルの値を変更します。

Not available.

jupyter-s3-conf

Jupyter Notebook の S3 の永続性を設定します。

Not available.

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

Not available.

livy-conf

Livy の livy.conf ファイルの値を変更します。

Restarts Livy Server.

livy-env

Livy 環境の値を変更します。

Restarts Livy Server.

livy-log4j

Livy の log4j.properties の設定を変更します。

Restarts Livy Server.

mapred-env

MapReduce アプリケーションの環境の値を変更します。

Restarts Hadoop MapReduce-HistoryServer.

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

Restarts Hadoop MapReduce-HistoryServer.

oozie-env

Oozie の環境の値を変更します。

Restarts Oozie.

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

Restarts Oozie.

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

Restarts Oozie.

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

Not available.

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

Not available.

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

Restarts Phoenix-QueryServer.

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

Not available.

pig-env

Pig 環境の値を変更します。

Not available.

pig-properties

Pig の pig.properties ファイルの値を変更します。

Restarts Oozie.

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

Not available.

presto-log

Presto の log.properties ファイルの値を変更します。

Restarts Presto-Server (for PrestoDB)

presto-config

Presto の config.properties ファイルの値を変更します。

Restarts Presto-Server (for PrestoDB)

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

Not available.

presto-env

Presto の presto-env.sh ファイルの値を変更します。

Restarts Presto-Server (for PrestoDB)

presto-node

Presto の node.properties ファイルの値を変更します。

Not available.

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

Not available.

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

Not available.

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

Restarts Presto-Server (for PrestoDB)

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

Not available.

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

Not available.

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

Not available.

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

Not available.

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

Not available.

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

Not available.

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

Not available.

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

Not available.

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

Not available.

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

Not available.

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

Not available.

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

Not available.

prestosql-log

Presto の log.properties ファイルの値を変更します。

Restarts Presto-Server (for PrestoSQL)

prestosql-config

Presto の config.properties ファイルの値を変更します。

Restarts Presto-Server (for PrestoSQL)

prestosql-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

Restarts Presto-Server (for PrestoSQL)

prestosql-env

Presto の presto-env.sh ファイルの値を変更します。

Restarts Presto-Server (for PrestoSQL)

prestosql-node

PrestoSQL の node.properties ファイルの値を変更します。

Not available.

prestosql-connector-blackhole

PrestoSQL の blackhole.properties ファイルの値を変更します。

Not available.

prestosql-connector-cassandra

PrestoSQL の cassandra.properties ファイルの値を変更します。

Not available.

prestosql-connector-hive

PrestoSQL の hive.properties ファイルの値を変更します。

Restarts Presto-Server (for PrestoSQL)

prestosql-connector-jmx

PrestoSQL の jmx.properties ファイルの値を変更します。

Not available.

prestosql-connector-kafka

PrestoSQL の kafka.properties ファイルの値を変更します。

Not available.

prestosql-connector-localfile

PrestoSQL の localfile.properties ファイルの値を変更します。

Not available.

prestosql-connector-memory

PrestoSQL の memory.properties ファイルの値を変更します。

Not available.

prestosql-connector-mongodb

PrestoSQL の mongodb.properties ファイルの値を変更します。

Not available.

prestosql-connector-mysql

PrestoSQL の musql.properties ファイルの値を変更します。

Not available.

prestosql-connector-postgresql

PrestoSQL の postgresql.properties ファイルの値を変更します。

Not available.

prestosql-connector-raptor

PrestoSQL の raptor.properties ファイルの値を変更します。

Not available.

prestosql-connector-redis

PrestoSQL の redis.properties ファイルの値を変更します。

Not available.

prestosql-connector-redshift

PrestoSQL の redshift.properties ファイルの値を変更します。

Not available.

prestosql-connector-tpch

PrestoSQL の tpcj.properties ファイルの値を変更します。

Not available.

prestosql-connector-tpcds

PrestoSQL の tpcds.properties ファイルの値を変更します。

Not available.

ranger-kms-dbks-site

Ranger KMS の dbks-site.xml ファイルの値を変更します。

Restarts Ranger KMS Server.

ranger-kms-site

Ranger KMS の ranger-kms-site.xml ファイルの値を変更します。

Restarts Ranger KMS Server.

ranger-kms-env

Ranger KMS 環境の値を変更します。

Restarts Ranger KMS Server.

ranger-kms-log4j

Ranger KMS の kms-log4j.properties ファイルの値を変更します。

Not available.

ranger-kms-db-ca

Ranger KMS を使用した MySQL SSL 接続用の S3 の CA ファイルの値を変更します。

Not available.

spark

Apache Spark 用の Amazon EMR-curated 設定。

This property modifies spark-defaults. See actions there.

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

Restarts Spark history server and Spark thrift server.

spark-env

Spark 環境の値を変更します。

Restarts Spark history server and Spark thrift server.

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

Not available.

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

Restarts Spark history server and Spark thrift server.

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

Restarts Spark history server and Spark thrift server.

sqoop-env

Sqoop の環境の値を変更します。

Not available.

sqoop-oraoop-site

Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。

Not available.

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

Not available.

tez-site

Tez の tez-site.xml ファイルの値を変更します。

Restart Oozie and HiveServer2.

yarn-env

YARN 環境の値を変更します。

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer.

zeppelin-env

Zeppelin 環境の値を変更します。

Restarts Zeppelin.

zeppelin-site

zeppelin-site.xml の構成設定を変更します。

Restarts Zeppelin.

zookeeper-config

ZooKeeper の zoo.cfg ファイルの値を変更します。

Restarts Zookeeper server.

zookeeper-log4j

ZooKeeper の log4j.properties ファイルの値を変更します。

Restarts Zookeeper server.