Amazon EMR の新しい履歴は何ですか - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon EMR の新しい履歴は何ですか

すべての Amazon EMR リリースバージョンのリリースノートは以下から入手できます。各リリースの包括的なリリース情報については、「Amazon EMR 5.x リリースバージョン」および「Amazon EMR 4.x リリースバージョン」を参照してください。

Amazon EMR リリースノートの RSS フィードを購読するにはhttps://docs.aws.amazon.com/emr/latest/ReleaseGuide/amazon-emr-release-notes.rss新しい Amazon EMR リリースバージョンが利用可能になったときに更新を受け取る。

リリース 5.33.0

次のリリースノートには、Amazon EMR リリースバージョン 5.33.0 に関する情報が含まれています。5.32.0 からの変更が含まれています。

初回リリース日: 2021 年 4 月 19 日

最終更新日: 2021 年 8 月 9 日

Upgrades

  • Amazon Glue コネクタをバージョン 1.15.0 にアップグレードしました

  • をバージョン 1.11.970 にアップグレードしました

  • EMRFS をバージョン 2.46.0 にアップグレードしました

  • EMR Goodies をバージョン 2.14.0 にアップグレードしました

  • EMR Record Server をバージョン 1.9.0 にアップグレードしました

  • EMR S3 ディスト CP をバージョン 2.18.0 にアップグレードしました

  • EMR Secret Agent をバージョン 1.8.0 にアップグレードしました

  • Flink をバージョン 1.12.1 にアップグレードしました

  • Hadoop をバージョン 2.10.1-amzn-1 にアップグレードしました

  • Hive をバージョン 2.3.7-amzn-4 にアップグレードしました

  • Hudi をバージョン 0.7.0 にアップグレードしました

  • Hue をバージョン 4.9.0 にアップグレードしました

  • OpenCV をバージョン 4.5.0 にアップグレードしました

  • Presto をバージョン 0.245.1-amzn-0 にアップグレードしました

  • R をバージョン 4.0.2 にアップグレードしました

  • Spark をバージョン 2.4.7-amzn-1 にアップグレードしました

  • TensorFlow をバージョン 2.4.1 にアップグレードしました

  • Zeppelin をバージョン 0.9.0 にアップグレードしました

変更、機能強化、および解決された問題

  • Amazon EMR バージョン 5.33.1 マネージドスケーリングが完了できない、またはアプリケーションの障害を引き起こす問題を修正しました。

  • Spark 挿入クエリのために Hive メタストアからパーティションの場所を取得するときに Spark ランタイムが高速になりました。

  • アップグレードされたコンポーネントバージョン。コンポーネントのバージョンのリストについては、「」を参照してください。Amazon EMR リリースについてこのガイドの「」を参照してください。

  • をインストールしましたAWS新しいクラスターごとに Java SDK バンドル。これは、個々のコンポーネント jar ではなく、すべてのサービス SDK とその依存関係を含む単一の jar です。詳細については、「」を参照してください。Java SDK バンドル依存関係

  • 以前の Amazon EMR リリースでマネージドスケーリングの問題を修正し、アプリケーションの障害率が大幅に低下するように改善しました。

新機能

  • Amazon EMR は、共有データレイクへのアクセスを簡単に管理できる Amazon S3 の機能である Amazon S3 アクセスポイントをサポートしています。Amazon S3 アクセスポイントのエイリアスを使用すると、Amazon EMR で大規模なデータアクセスを簡素化できます。Amazon S3 アクセスポイントは、すべてのバージョンの Amazon EMR で、追加料金なしで使用できます。AWSAmazon EMR が利用可能なリージョン。Amazon S3 アクセスポイントとアクセスポイントエイリアスの詳細については、「」を参照してください。アクセスポイントでのバケット形式のエイリアスの使用Amazon S3 ユーザーガイド

  • Amazon EMR-5.33は、新しいAmazon EC2 インスタンスタイプをサポートしています。c5a、c5ad、c6gn、c6gd、m6gd、d3、d3en、m5zn、r5b、r6gd。「サポートされるインスタンスタイプ」を参照してください。

既知の問題

  • 古い AL2 の「オープンファイルの最大数」の制限を下げる。Amazon EMR リリース:emr-5.30.x、emr-5.31.0、emr-5.32.0、emr-6.0.0、emr-6.1.0、およびemr-6.2.0は、Amazon Linux 2 (AL2) の古いバージョンに基づいています。これらは、デフォルトの AMI を使用して EMR クラスターを作成する場合の「最大オープンファイル」のulimit設定が低くなります。開いているファイルの上限を下げると、Spark ジョブを送信するときに「開いているファイルが多すぎます」というエラーが発生します。影響を受ける EMR リリースでは、Amazon EMR のデフォルト AMI の「オープンファイルの最大数」のデフォルトの ulimit 設定が 4096 に設定されています。これは、最新の Amazon Linux 2 AMI の 65536 ファイル制限を下回っています。「最大オープンファイル」の ulimit 設定を低くすると、Spark ドライバとエグゼキュータが 4096 を超えるファイルを開こうとすると、Spark ジョブが失敗します。この問題を解決するために、Amazon EMR には、クラスターの作成時に ulimit 設定を調整するブートストラップアクション (BA) スクリプトがあります。Amazon EMR リリース 6.3.0 および 5.33.0 には、「オープンファイルの最大数」設定が高い永続的な修正が含まれます。

    この問題の次の回避策では、インスタンスコントローラの ulimit を最大 65536 ファイルに明示的に設定することができます。

    コマンドラインから ulimit を明示的に設定する

    1. 編集/etc/systemd/system/instance-controller.serviceをクリックして、Service セクションに次のパラメータを追加します。

      LimitNOFILE=65536

      LimitNPROC=65536

    2. InstanceController を再起動する

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    ブートストラップアクション (BA) を使用して ulimit を設定する

    ブートストラップアクション (BA) スクリプトを使用して、クラスター作成時にインスタンスコントローラの ulimit を 65536 ファイルに設定することもできます。

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • 重要

    Amazon Linux または Amazon Linux 2 AMI (Amazon Linux マシンイメージ) を実行している Amazon EMR クラスターは、デフォルトの Amazon Linux 動作を使用し、再起動が必要な重要かつ重要なカーネル更新を自動的にダウンロードしてインストールすることはありません。これは、デフォルトの Amazon Linux AMI を実行している他の Amazon EC2 インスタンスと同じ動作です。Amazon EMR バージョンのリリース後に、再起動が必要な新しい Amazon Linux ソフトウェアアップデート(カーネル、NVIDIA、CUDA アップデートなど)が使用可能になった場合、デフォルトの AMI を実行する Amazon EMR クラスターインスタンスは、それらの更新を自動的にダウンロードおよびインストールしません。カーネルのアップデートを入手するには、Amazon EMR AMI をカスタマイズする最新の Amazon Linux AMI を使用してください

  • コンソールがサポートされ、AWSRanger 統合オプションは、現在 GovCloud リージョンでサポートされていません。セキュリティ設定は CLI を使用して実行できます。「」を参照してください。EMR セキュリティ設定を作成するAmazon EMR 管理ガイド

  • スコープ指定管理ポリシー: に整列するにはAWSベストプラクティスとして、Amazon EMR は、非推奨となるポリシーの代替として v2 EMR スコープのデフォルト管理ポリシーを導入しました。「」を参照してください。Amazon EMR 管理ポリシー

リリース 5.32.0

次のリリースノートには、Amazon EMR リリースバージョン 5.32.0 に関する情報が含まれています。5.31.0 からの変更が含まれています。

初回リリース日: 2021 年 1 月 8 日

Upgrades

  • Amazon Glue コネクタをバージョン 1.14.0 にアップグレードしました

  • Amazon SageMaker Spark SDK をバージョン 1.4.1 にアップグレードしました

  • をバージョン 1.11.890 にアップグレードしました

  • アップグレードされた EMR DynamoDB コネクタバージョン 4.16.0

  • EMRFS をバージョン 2.45.0 にアップグレードしました

  • EMR ログ分析メトリクスをバージョン 1.18.0 にアップグレードしました

  • EMR MetricsAndEventsApiGateway クライアントをバージョン 1.5.0 にアップグレードしました。

  • EMR Record Server をバージョン 1.8.0 にアップグレードしました

  • EMR S3 ディスト CP をバージョン 2.17.0 にアップグレードしました

  • EMR Secret Agent をバージョン 1.7.0 にアップグレードしました

  • Flink をバージョン 1.11.2 にアップグレードしました

  • Hadoop をバージョン 2.10.1-amzn-0 にアップグレードしました

  • Hive をバージョン 2.3.7-amzn-3 にアップグレードしました

  • Hue をバージョン 4.8.0 にアップグレードしました

  • Mxnet をバージョン 1.7.0 にアップグレードしました

  • OpenCV をバージョン 4.0 にアップグレードしました

  • Presto をバージョン 0.240.1-amzn-0 にアップグレードしました

  • Spark をバージョン 2.4.7-amzn-0 にアップグレードしました

  • TensorFlow をバージョン 2.3.1 にアップグレードしました

変更、機能強化、および解決された問題

  • Amazon EMR バージョン 5.32.1 マネージドスケーリングが完了できない、またはアプリケーションの障害を引き起こす問題を修正しました。

  • アップグレードされたコンポーネントバージョン。

  • コンポーネントのバージョンのリストについては、「」を参照してください。Amazon EMR リリースについてこのガイドの「」を参照してください。

新機能

  • インスタンスメタデータサービス (IMDS) V2 サポートステータス: Amazon EMR 5.23.1、5.27.1 および 5.32 以降のコンポーネントは、すべての IMDS 呼び出しに IMDSv2 を使用します。アプリケーションコード内の IMDS 呼び出しでは、IMDSv1 と IMDSv2 の両方を使用するか、セキュリティを強化するために IMDSv2 のみを使用するように設定することができます。他の 5.x EMR リリースでは、IMDSv1 を無効にすると、クラスタの起動に失敗します。

  • Amazon EMR 5.32.0 以降では、Apache Ranger とネイティブに統合するクラスターを起動できます。Apache Ranger は、Hadoop プラットフォーム全体で包括的なデータセキュリティを有効化、監視、管理するためのオープンソースフレームワークです。詳細については、「」を参照してください。Apache Ranger。ネイティブ統合により、独自の Apache Ranger を導入して、Amazon EMR できめ細かなデータアクセス制御を実施できます。「」を参照してください。Amazon EMR と Apache Ranger を統合するAmazon EMR リリース ガイド

  • Amazon EMR リリース 5.32.0 は EKS で Amazon EMR をサポートしています。EKS での EMR の使用開始の詳細については、を参照してください。Amazon EMR on EKS とは

  • Amazon EMR リリース 5.32.0 は Amazon EMR スタジオ (プレビュー) をサポートしています。EMR Studio の開始方法の詳細については、「」を参照してください。Amazon EMR Studio

  • スコープ指定管理ポリシー: に整列するにはAWSベストプラクティスとして、Amazon EMR は、非推奨となるポリシーの代替として v2 EMR スコープのデフォルト管理ポリシーを導入しました。「」を参照してください。Amazon EMR 管理ポリシー

既知の問題

  • 古い AL2 の「オープンファイルの最大数」の制限を下げる。Amazon EMR リリース:emr-5.30.x、emr-5.31.0、emr-5.32.0、emr-6.0.0、emr-6.1.0、およびemr-6.2.0は、Amazon Linux 2 (AL2) の古いバージョンに基づいています。これらは、デフォルトの AMI を使用して EMR クラスターを作成する場合の「最大オープンファイル」のulimit設定が低くなります。開いているファイルの上限を下げると、Spark ジョブを送信するときに「開いているファイルが多すぎます」というエラーが発生します。影響を受ける EMR リリースでは、Amazon EMR のデフォルト AMI の「オープンファイルの最大数」のデフォルトの ulimit 設定が 4096 に設定されています。これは、最新の Amazon Linux 2 AMI の 65536 ファイル制限を下回っています。「最大オープンファイル」の ulimit 設定を低くすると、Spark ドライバとエグゼキュータが 4096 を超えるファイルを開こうとすると、Spark ジョブが失敗します。この問題を解決するために、Amazon EMR には、クラスターの作成時に ulimit 設定を調整するブートストラップアクション (BA) スクリプトがあります。Amazon EMR リリース 6.3.0 および 5.33.0 には、「オープンファイルの最大数」設定が高い永続的な修正が含まれます。

    この問題の次の回避策では、インスタンスコントローラの ulimit を最大 65536 ファイルに明示的に設定することができます。

    コマンドラインから ulimit を明示的に設定する

    1. 編集/etc/systemd/system/instance-controller.serviceをクリックして、Service セクションに次のパラメータを追加します。

      LimitNOFILE=65536

      LimitNPROC=65536

    2. InstanceController を再起動する

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    ブートストラップアクション (BA) を使用して ulimit を設定する

    ブートストラップアクション (BA) スクリプトを使用して、クラスター作成時にインスタンスコントローラの ulimit を 65536 ファイルに設定することもできます。

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • 重要

    Amazon Linux または Amazon Linux 2 AMI (Amazon Linux マシンイメージ) を実行している Amazon EMR クラスターは、デフォルトの Amazon Linux 動作を使用し、再起動が必要な重要かつ重要なカーネル更新を自動的にダウンロードしてインストールすることはありません。これは、デフォルトの Amazon Linux AMI を実行している他の Amazon EC2 インスタンスと同じ動作です。Amazon EMR バージョンのリリース後に、再起動が必要な新しい Amazon Linux ソフトウェアアップデート(カーネル、NVIDIA、CUDA アップデートなど)が使用可能になった場合、デフォルトの AMI を実行する Amazon EMR クラスターインスタンスは、それらの更新を自動的にダウンロードおよびインストールしません。カーネルのアップデートを入手するには、Amazon EMR AMI をカスタマイズする最新の Amazon Linux AMI を使用してください

  • コンソールがサポートされ、AWSRanger 統合オプションは、現在 GovCloud リージョンでサポートされていません。セキュリティ設定は CLI を使用して実行できます。「」を参照してください。EMR セキュリティ設定を作成するAmazon EMR 管理ガイド

  • EMR 5.31.0 または 5.32.0 を使用するクラスターで ATrestEncryption または HDFS 暗号化が有効になっている場合、Hive クエリでは次のランタイム例外が発生します。

    TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found

リリース 6.2.0

次のリリースノートには、Amazon EMR リリースバージョン 6.2.0 に関する情報が含まれています。変更点は、6.1.0 に関連するものです。

初回リリース日: 2020 年 12 月 9 日

最終更新日: 2021 年 10 月 4 日

サポートされているアプリケーション

  • AWS SDK for Javaバージョン1.11.828

  • emr-record-Server バージョン 1.7.0

  • Flink バージョン 1.11.2

  • Ganglia バージョン 3.7.2

  • Hadoop バージョン 3.2.1-amzn-1

  • HBase バージョン 2.2.6-amzn-0

  • HBase-Operator-Tools 1.0.0

  • HCatalog バージョン 3.1.2-amzn-0

  • Hive バージョン 3.1.2-amzn-3

  • Hudi バージョン 0.6.0-amzn-1

  • Hue バージョン 4.8.0

  • JupyterHub バージョン 1.1.0

  • Livy バージョン 0.7.0

  • MXNet バージョン 1.7.0

  • Oozie バージョン 5.2.0

  • Phoenix バージョン 5.0.0

  • Pig バージョン 0.17.0

  • Presto バージョン 0.238.3-amzn-1

  • PrestoSQL バージョン 343

  • Spark バージョン 3.0.1-amzn-0

  • Spark-Rapids 0.2.0

  • TensorFlow バージョン 2.3.1

  • Zeppelin バージョン 0.9.0 (preview1)

  • Zookeeper バージョン 3.4.14

  • コネクターおよびドライバ: DynamoDB Connector 4.16.0

新機能

  • HBase: コミットフェーズでの名前の変更を削除し、永続的な HFile トラッキングを追加しました。「」を参照してください。永続的ファイルトラッキングAmazon EMR リリース ガイド

  • HBase: バックポート圧縮時にブロックを強制的にキャッシュする設定を作成する

  • prestoDB: ダイナミックパーティションプルーニングの改善。ルールベースの結合順序は、パーティション化されていないデータに対して機能します。

  • スコープ指定管理ポリシー: に整列するにはAWSベストプラクティスとして、Amazon EMR は、非推奨となるポリシーの代替として v2 EMR スコープのデフォルト管理ポリシーを導入しました。「」を参照してください。Amazon EMR 管理ポリシー

  • インスタンスメタデータサービス (IMDS) V2 サポートステータス: Amazon EMR 6.2 以降では、Amazon EMR コンポーネントはすべての IMDS 呼び出しに IMDSv2 を使用します。アプリケーションコード内の IMDS 呼び出しでは、IMDSv1 と IMDSv2 の両方を使用するか、セキュリティを強化するために IMDSv2 のみを使用するように設定することができます。以前の Amazon EMR 6.x リリースで IMDSv1 を無効にすると、クラスターの起動に失敗します。

変更、機能強化、および解決された問題

  • Amazon EMR バージョン 6.2.1 マネージドスケーリングが完了できない、またはアプリケーションの障害を引き起こす問題を修正しました。

  • Spark: Spark ランタイムのパフォーマンスが改善されました。

既知の問題

  • Amazon EMR 6.2 の EMR 6.2.0 の /etc/cron.d/libinstance-controller-java ファイルに対して不正なアクセス許可が設定されています。ファイルに対するパーミッションは 645 (-rw-r—r-x) で、644 (-rw-r—r—) である必要があります。その結果、Amazon EMR バージョン 6.2 ではインスタンス状態ログはログに記録されず、/emr/instance-logs ディレクトリは空になります。この問題は、EMR バージョン 6.3 以降で修正されています。

    この問題を回避するには、クラスターの起動時に以下のスクリプトをブートストラップアクションとして実行します。

    #!/bin/bash sudo chmod 644 /etc/cron.d/libinstance-controller-java
  • Amazon EMR 6.2.0 および 6.3.0 のプライベートサブネットクラスターでは、Ganglia ウェブ UI にアクセスできません。「アクセス拒否 (403)」というエラーが表示されます。Spark、Hue、JupyterHub、Zeppelin、Livy、Tezなどの他のウェブUIは正常に動作している。パブリックサブネットクラスタでの Ganglia ウェブ UI アクセスも正常に動作しています。この問題を解決するには、を使用してマスターノードで httpd サービスを再起動します。sudo systemctl restart httpd

  • Amazon EMR 6.2.0 に httpd が継続的に失敗し、Ganglia が利用できないという問題があります。「サーバーに接続できません」というエラーが表示されます。この問題ですでに実行されているクラスターを修復するには、クラスターマスターノードに SSH 接続して行を追加します。Listen 80ファイルにhttpd.conf次の場所にあります。/etc/httpd/conf/httpd.conf。この問題は Amazon EMR 6.3.0 で修正されています。

  • セキュリティ設定を使用すると、EMR 6.2.0 クラスタで HTTPD が失敗します。これにより、Ganglia ウェブアプリケーションのユーザーインターフェイスが使用できなくなります。Ganglia ウェブアプリケーションのユーザーインターフェイスにアクセスするには、Listen 80/etc/httpd/conf/httpd.confをクラスターのマスターノードにあります。クラスターへの接続については、「」を参照してください。SSH を使用してマスターノードに接続する

    EMR Notebooks は、セキュリティ構成を使用する場合、EMR 6.2.0 クラスターとの接続の確立にも失敗します。ノートブックはカーネルをリストし、Spark ジョブを送信できません。代わりに、別のバージョンの Amazon EMR で EMR ノートブックを使用することをお勧めします。

  • 古い AL2 の「オープンファイルの最大数」の制限を下げる。Amazon EMR リリース:emr-5.30.x、emr-5.31.0、emr-5.32.0、emr-6.0.0、emr-6.1.0、およびemr-6.2.0は、Amazon Linux 2 (AL2) の古いバージョンに基づいています。これらは、デフォルトの AMI を使用して EMR クラスターを作成する場合の「最大オープンファイル」のulimit設定が低くなります。開いているファイルの上限を下げると、Spark ジョブを送信するときに「開いているファイルが多すぎます」というエラーが発生します。影響を受ける EMR リリースでは、Amazon EMR のデフォルト AMI の「オープンファイルの最大数」のデフォルトの ulimit 設定が 4096 に設定されています。これは、最新の Amazon Linux 2 AMI の 65536 ファイル制限を下回っています。「最大オープンファイル」の ulimit 設定を低くすると、Spark ドライバとエグゼキュータが 4096 を超えるファイルを開こうとすると、Spark ジョブが失敗します。この問題を解決するために、Amazon EMR には、クラスターの作成時に ulimit 設定を調整するブートストラップアクション (BA) スクリプトがあります。Amazon EMR リリース 6.3.0 および 5.33.0 には、「オープンファイルの最大数」設定が高い永続的な修正が含まれます。

    この問題の次の回避策では、インスタンスコントローラの ulimit を最大 65536 ファイルに明示的に設定することができます。

    コマンドラインから ulimit を明示的に設定する

    1. 編集/etc/systemd/system/instance-controller.serviceをクリックして、Service セクションに次のパラメータを追加します。

      LimitNOFILE=65536

      LimitNPROC=65536

    2. InstanceController を再起動する

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    ブートストラップアクション (BA) を使用して ulimit を設定する

    ブートストラップアクション (BA) スクリプトを使用して、クラスター作成時にインスタンスコントローラの ulimit を 65536 ファイルに設定することもできます。

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • 重要

    Amazon EMR 6.1.0 および 6.2.0 には、すべての Hudi の挿入、アップサート、および削除操作に深刻な影響を与える可能性のあるパフォーマンスの問題が含まれています。Amazon EMR 6.1.0 または 6.2.0 で Hudi を使用する予定の場合は、AWSパッチが適用された Hudi RPM の取得をサポートします。

  • 重要

    Amazon Linux または Amazon Linux 2 AMI (Amazon Linux マシンイメージ) を実行している Amazon EMR クラスターは、デフォルトの Amazon Linux 動作を使用し、再起動が必要な重要かつ重要なカーネル更新を自動的にダウンロードしてインストールすることはありません。これは、デフォルトの Amazon Linux AMI を実行している他の Amazon EC2 インスタンスと同じ動作です。Amazon EMR バージョンのリリース後に、再起動が必要な新しい Amazon Linux ソフトウェアアップデート(カーネル、NVIDIA、CUDA アップデートなど)が使用可能になった場合、デフォルトの AMI を実行する Amazon EMR クラスターインスタンスは、それらの更新を自動的にダウンロードおよびインストールしません。カーネルのアップデートを入手するには、Amazon EMR AMI をカスタマイズする最新の Amazon Linux AMI を使用してください

  • Amazon EMR 6.2.0 Maven アーティファクトは公開されません。これらは Amazon EMR の将来のリリースで公開される予定です。

  • HBase ストアファイルシステムテーブルを使用した永続的な HFile トラッキングは、HBase リージョンのレプリケーション機能をサポートしていません。HBase リージョンのレプリケーションの詳細については、「」を参照してください。タイムライン・コンシステント・ハイ・アベイラビリティ・リード

  • Amazon EMR 6.x と EMR 5.x ハイブバケットバージョンの違い

    EMR 5.xはOOS Apache Hive 2を使用し、EMR 6.xではOOS Apache Hive 3を使用している。オープンソースの Hive2 は Bucketing バージョン 1 を、オープンソースの Hive3 は Bucketing バージョン 2 を使用します。Hive 2 (EMR 5.x) と Hive 3 (EMR 6.x) のこのバケットバージョンの違いは、Hive のバケットハッシュ関数が異なることを意味します。以下の例を参照してください。

    次の表は、それぞれ EMR 6.x および EMR 5.x で作成された例です。

    -- Using following LOCATION in EMR 6.x CREATE TABLE test_bucketing (id INT, desc STRING) PARTITIONED BY (day STRING) CLUSTERED BY(id) INTO 128 BUCKETS LOCATION 's3://your-own-s3-bucket/emr-6-bucketing/'; -- Using following LOCATION in EMR 5.x LOCATION 's3://your-own-s3-bucket/emr-5-bucketing/';

    EMR 6.x と EMR 5.x の両方に同じデータを挿入します。

    INSERT INTO test_bucketing PARTITION (day='01') VALUES(66, 'some_data'); INSERT INTO test_bucketing PARTITION (day='01') VALUES(200, 'some_data');

    S3 の場所をチェックすると、バケットファイル名が異なることを示します。これは、ハッシュ関数が EMR 6.x(Hive 3)と EMR 5.x(Hive 2)で異なるためです。

    [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-6-bucketing/day=01/ 2020-10-21 20:35:16 13 000025_0 2020-10-21 20:35:22 14 000121_0 [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-5-bucketing/day=01/ 2020-10-21 20:32:07 13 000066_0 2020-10-21 20:32:51 14 000072_0

    EMR 6.x の Hive CLI で次のコマンドを実行してバージョンの違いを確認することもできます。バケットバージョン 2 が返されることに注意してください。

    hive> DESCRIBE FORMATTED test_bucketing; ... Table Parameters: bucketing_version 2 ...
  • 複数のマスターノードと Kerberos 認証を使用するクラスターの既知の問題

    EMR リリース 5.20.0 以降で複数のマスターノードと Kerberos 認証を使用してクラスタを実行すると、クラスタがしばらく実行された後、スケールダウンやステップの送信などのクラスタ操作で問題が発生する可能性があります。期間は、定義した Kerberos チケットの有効期間によって異なります。スケールダウンの問題は、送信した自動スケールダウンリクエストと明示的なスケールダウンリクエストの両方に影響します。追加のクラスター操作も影響を受ける可能性があります。

    回避方法:

    • SSH としてhadoop複数のマスターノードを持つ EMR クラスターのリードマスターノードにログインします。

    • 以下のコマンドを実行して、の Kerberos チケットを更新します。hadoopユーザー。

      kinit -kt <keytab_file> <principal>

      通常、キータブファイルはにあります。/etc/hadoop.keytabであり、校長はという形式になります。hadoop/<hostname>@<REALM>

    注記

    この回避策は、Kerberos チケットの有効期間に有効です。この期間はデフォルトで 10 時間ですが、Kerberos の設定で設定できます。Kerberos チケットの有効期限が切れたら、上記のコマンドを再実行する必要があります。

リリース 5.31.0

次のリリースノートには、Amazon EMR リリースバージョン 5.31.0 に関する情報が含まれています。5.30.1 からの変更が含まれています。

初回リリース日: 2020 年 10 月 9 日

最終更新日: 2020 年 10 月 15 日

Upgrades

  • Amazon Glue コネクタをバージョン 1.13.0 にアップグレードしました

  • Amazon SageMaker Spark SDK をバージョン 1.4.0 にアップグレードしました

  • Amazon Kinesis コネクタをバージョン 3.5.9 にアップグレードしました

  • をバージョン 1.11.852 にアップグレードしました

  • Bigtop-Tomcat をバージョン 8.5.56 にアップグレードしました

  • EMR FS をバージョン 2.43.0 にアップグレード

  • EMR MetricsAndEventsApiGateway クライアントをバージョン 1.4.0 にアップグレードしました。

  • EMR S3 ディスト CP をバージョン 2.15.0 にアップグレードしました

  • EMR S3 セレクトをバージョン 1.6.0 にアップグレードしました

  • Flink をバージョン 1.11.0 にアップグレードしました

  • Hadoop をバージョン 2.10.0 にアップグレードしました

  • Hive をバージョン 2.3.7 にアップグレードしました

  • Hudi をバージョン 0.6.0 にアップグレードしました

  • Hue をバージョン 4.7.1 にアップグレードしました

  • JupyterHub をバージョン 1.1.0 にアップグレードしました

  • Mxnet をバージョン 1.6.0 にアップグレードしました

  • OpenCV をバージョン 4.3.0 にアップグレードしました

  • Presto をバージョン 0.238.3 にアップグレードしました

  • TensorFlow をバージョン 2.1.0 にアップグレードしました

変更、機能強化、および解決された問題

  • Amazon EMR バージョン 5.31.1 は、マネージドスケーリングが完了できない、またはアプリケーションの障害の原因となる問題を修正しました。

  • Hive の列の統計情報Amazon EMR バージョン 5.31.0 以降でサポートされています。

  • アップグレードされたコンポーネントバージョン。

  • アマゾンでのEMRFS S3EC V2Support EMR 5.31.0。S3 Java SDK リリース 1.11.837 以降では、暗号化クライアントバージョン 2 (S3EC V2) がさまざまなセキュリティ強化で導入されました。詳細については、以下を参照してください:

    暗号化クライアント V1 は、下位互換性を保つため、SDK でも使用できます。

新機能

  • 古い AL2 の「オープンファイルの最大数」の制限を下げる。Amazon EMR リリース:emr-5.30.x、emr-5.31.0、emr-5.32.0、emr-6.0.0、emr-6.1.0、およびemr-6.2.0は、Amazon Linux 2 (AL2) の古いバージョンに基づいています。これらは、デフォルトの AMI を使用して EMR クラスターを作成する場合の「最大オープンファイル」のulimit設定が低くなります。開いているファイルの上限を下げると、Spark ジョブを送信するときに「開いているファイルが多すぎます」というエラーが発生します。影響を受ける EMR リリースでは、Amazon EMR のデフォルト AMI の「オープンファイルの最大数」のデフォルトの ulimit 設定が 4096 に設定されています。これは、最新の Amazon Linux 2 AMI の 65536 ファイル制限を下回っています。「最大オープンファイル」の ulimit 設定を低くすると、Spark ドライバとエグゼキュータが 4096 を超えるファイルを開こうとすると、Spark ジョブが失敗します。この問題を解決するために、Amazon EMR には、クラスターの作成時に ulimit 設定を調整するブートストラップアクション (BA) スクリプトがあります。Amazon EMR リリース 6.3.0 および 5.33.0 には、「オープンファイルの最大数」設定が高い永続的な修正が含まれます。

    この問題の次の回避策では、インスタンスコントローラの ulimit を最大 65536 ファイルに明示的に設定することができます。

    コマンドラインから ulimit を明示的に設定する

    1. 編集/etc/systemd/system/instance-controller.serviceをクリックして、Service セクションに次のパラメータを追加します。

      LimitNOFILE=65536

      LimitNPROC=65536

    2. InstanceController を再起動する

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    ブートストラップアクション (BA) を使用して ulimit を設定する

    ブートストラップアクション (BA) スクリプトを使用して、クラスター作成時にインスタンスコントローラの ulimit を 65536 ファイルに設定することもできます。

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Amazon EMR 5.31.0 を使用すると、Lake Formation と統合するクラスターを起動できます。この統合により、データベースとテーブルに対して、きめ細かな列レベルのデータフィルタリングが可能になります。AWSGlue データカタログ。また、企業の ID システムから EMR Notebooks または Apache Zeppelin へのフェデレーションシングルサインオンも有効になります。詳細については、「」を参照してください。Amazon EMR との統合AWS Lake FormationAmazon EMR 管理ガイド

    Amazon EMR と Lake Formation は現在 16 で利用可能ですAWS地域: 米国東部 (オハイオ、バージニア)、米国西部 (北カリフォルニア、オレゴン)、アジアパシフィック (ムンバイ、ソウル、シンガポール、シドニー、東京)、カナダ (中部)、欧州 (フランクフルト、アイルランド、ロンドン、パリ、ストックホルム)、南米 (サンパウロ)。

既知の問題

  • 複数のマスターノードと Kerberos 認証を使用するクラスターの既知の問題

    EMR リリース 5.20.0 以降で複数のマスターノードと Kerberos 認証を使用してクラスタを実行すると、クラスタがしばらく実行された後、スケールダウンやステップの送信などのクラスタ操作で問題が発生する可能性があります。期間は、定義した Kerberos チケットの有効期間によって異なります。スケールダウンの問題は、送信した自動スケールダウンリクエストと明示的なスケールダウンリクエストの両方に影響します。追加のクラスター操作も影響を受ける可能性があります。

    回避方法:

    • SSH としてhadoop複数のマスターノードを持つ EMR クラスターのリードマスターノードにログインします。

    • 以下のコマンドを実行して、の Kerberos チケットを更新します。hadoopユーザー。

      kinit -kt <keytab_file> <principal>

      通常、キータブファイルはにあります。/etc/hadoop.keytabであり、校長はという形式になります。hadoop/<hostname>@<REALM>

    注記

    この回避策は、Kerberos チケットの有効期間に有効です。この期間はデフォルトで 10 時間ですが、Kerberos の設定で設定できます。Kerberos チケットの有効期限が切れたら、上記のコマンドを再実行する必要があります。

  • EMR 5.31.0 または 5.32.0 を使用するクラスターで ATrestEncryption または HDFS 暗号化が有効になっている場合、Hive クエリでは次のランタイム例外が発生します。

    TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found

リリース 6.1.0

次のリリースノートには、Amazon EMR リリースバージョン 6.1.0 に関する情報が含まれています。変更は 6.0.0 に関連するものです。

初回リリース日: 2020年9月4日

最終更新日: 2020 年 10 月 15 日

サポートされているアプリケーション

  • AWS SDK for Javaバージョン1.11.828

  • Flink バージョン 1.11.0

  • Ganglia バージョン 3.7.2

  • Hadoop バージョン 3.2.1-amzn-1

  • HBase バージョン 2.2.5

  • HBase-Operator-Tools 1.0.0

  • HCatalog バージョン 3.1.2-amzn-0

  • Hive バージョン 3.1.2-amzn-1

  • Hudi バージョン 0.5.2 (incubating)

  • Hue バージョン 4.7.1

  • JupyterHub バージョン 1.1.0

  • Livy バージョン 0.7.0

  • MXNet バージョン 1.6.0

  • Oozie バージョン 5.2.0

  • Phoenix バージョン 5.0.0

  • Presto バージョン 0.232

  • PrestoSQL バージョン 338

  • Spark バージョン 3.0.0-amzn-0

  • TensorFlow バージョン 2.1.0

  • Zeppelin バージョン 0.9.0 (preview1)

  • Zookeeper バージョン 3.4.14

  • コネクターおよびドライバ: DynamoDB Connector 4.14.0

新機能

  • ARM インスタンスタイプは、Amazon EMR バージョン 5.30.0、Amazon EMR バージョン 6.1.0 以降でサポートされています。

  • M6g 汎用インスタンスタイプは、Amazon EMR バージョン 6.1.0 および 5.30.0 以降でサポートされています。詳細については、「」を参照してください。サポートされるインスタンスタイプAmazon EMR 管理ガイド

  • EC2 プレイスメントグループ機能は、複数のマスターノードクラスターのオプションとして Amazon EMR バージョン 5.23.0 以降でサポートされています。現在、プレイスメントグループ機能ではマスターノードタイプのみがサポートされており、SPREADストラテジーは、これらのマスターノードに適用されます。-SPREADストラテジーでは、ハードウェア障害時に複数のマスターノードが失われるのを防ぐため、個別の基盤となるハードウェアに少数のインスタンスを配置します。詳細については、「」を参照してください。EC2 プレイスメントグループと EMR 統合Amazon EMR 管理ガイド

  • マネージドスケーリング機能 — Amazon EMR バージョン 6.1.0 では、EMR マネージドスケーリングを有効にすることで、ワークロードに応じてクラスター内のインスタンスやユニットの数を自動的に増減できます。EMR は引き続きクラスターのメトリクスを評価し、クラスターのコストと速度を最適化するためのスケーリングを決定します。6.0.0 を除き、Amazon EMR バージョン 5.30.0 以降では、6.0.0 以降でも使用できます。詳細については、「」を参照してください。クラスターリソースのスケーリングAmazon EMR 管理ガイド

  • PrestoSQL バージョン 338 は EMR 6.1.0 でサポートされています。詳細については、「」を参照してください。Presto

    • PrestoSQL は EMR 6.1.0 以降のバージョンでのみサポートされ、EMR 6.0.0 または EMR 5.x ではサポートされません。

    • アプリケーション名,Prestoクラスタへの PrestoDB のインストールには引き続き使用されます。クラスタに PrestoSQL をインストールするには、アプリケーション名を使用します。PrestoSQL

    • PrestoDB または PrestoSQL のいずれかをインストールできますが、両方を単一のクラスターにインストールすることはできません。クラスターの作成時に PrestoDB と PrestoSQL の両方が指定されている場合、検証エラーが発生し、クラスター作成リクエストは失敗します。

    • PrestoSQL は、シングルマスタークラスターとマルチマスタークラスターの両方でサポートされます。マルチマスタークラスタでは、PrestoSQL または PrestoDB を実行するには、外部 Hive メタストアが必要です。「」を参照してください。複数のマスターノードを持つ EMR クラスターでサポートされているアプリケーション

  • Docker で Apache Hadoop および Apache Spark での ECR 自動認証のサポート: Spark ユーザーは、Docker ハブおよび Amazon Elastic Container Registry (Amazon ECR) からの Docker イメージを使用して、環境とライブラリの依存関係を定義できます。

    Docker の設定およびAmazon EMR 6.x を使用して Docker で Spark アプリケーションを実行する

  • EMR は Apache Hive ACID トランザクションをサポートしています。Amazon EMR 6.1.0 では、データベースの ACID プロパティに準拠するように Hive ACID トランザクションのサポートが追加されています。この機能を使用すると、INSERT, UPDATE, DELETE,およびMERGEAmazon Simple Storage Service (Amazon S3) のデータを使用した Hive 管理テーブルの操作。これは、ストリーミングの取り込み、データの再配置、MERGE を使用した一括更新、ディメンションの緩やかな変更などのユースケースにとって重要な機能です。設定例とユースケースを含む詳細については、を参照してください。Amazon EMR は Apache Hive ACID トランザクションをサポートしています

変更、機能強化、および解決された問題

  • Amazon EMR バージョン 6.1.1 では、マネージドスケーリングが完了できない、またはアプリケーションの障害の原因となる問題を修正しました。

  • Apache FlinkはEMR 6.0.0ではサポートされていないが、Flink 1.11.0ではEMR 6.1.0でサポートされている。Hadoop 3を正式にサポートするFlinkの最初のバージョンである。「」を参照してください。Apache Flink 1.11.0 リリースのお知らせ

  • Ganglia はデフォルトの EMR 6.1.0 パッケージバンドルから削除されました。

既知の問題

  • 古い AL2 の「オープンファイルの最大数」の制限を下げる。Amazon EMR リリース:emr-5.30.x、emr-5.31.0、emr-5.32.0、emr-6.0.0、emr-6.1.0、およびemr-6.2.0は、Amazon Linux 2 (AL2) の古いバージョンに基づいています。これらは、デフォルトの AMI を使用して EMR クラスターを作成する場合の「最大オープンファイル」のulimit設定が低くなります。開いているファイルの上限を下げると、Spark ジョブを送信するときに「開いているファイルが多すぎます」というエラーが発生します。影響を受ける EMR リリースでは、Amazon EMR のデフォルト AMI の「オープンファイルの最大数」のデフォルトの ulimit 設定が 4096 に設定されています。これは、最新の Amazon Linux 2 AMI の 65536 ファイル制限を下回っています。「最大オープンファイル」の ulimit 設定を低くすると、Spark ドライバとエグゼキュータが 4096 を超えるファイルを開こうとすると、Spark ジョブが失敗します。この問題を解決するために、Amazon EMR には、クラスターの作成時に ulimit 設定を調整するブートストラップアクション (BA) スクリプトがあります。Amazon EMR リリース 6.3.0 および 5.33.0 には、「オープンファイルの最大数」設定が高い永続的な修正が含まれます。

    この問題の次の回避策では、インスタンスコントローラの ulimit を最大 65536 ファイルに明示的に設定することができます。

    コマンドラインから ulimit を明示的に設定する

    1. 編集/etc/systemd/system/instance-controller.serviceをクリックして、Service セクションに次のパラメータを追加します。

      LimitNOFILE=65536

      LimitNPROC=65536

    2. InstanceController を再起動する

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    ブートストラップアクション (BA) を使用して ulimit を設定する

    ブートストラップアクション (BA) スクリプトを使用して、クラスター作成時にインスタンスコントローラの ulimit を 65536 ファイルに設定することもできます。

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • 重要

    Amazon EMR 6.1.0 および 6.2.0 には、すべての Hudi の挿入、アップサート、および削除操作に深刻な影響を与える可能性のあるパフォーマンスの問題が含まれています。Amazon EMR 6.1.0 または 6.2.0 で Hudi を使用する予定の場合は、AWSパッチが適用された Hudi RPM の取得をサポートします。

  • でカスタムガベージコレクション設定を設定した場合spark.driver.extraJavaOptionsおよびspark.executor.extraJavaOptionsの場合、これにより、ガベージコレクションの構成が競合するため、EMR 6.1 でドライバ/エグゼキュータの起動に失敗します。EMR リリース 6.1.0 では、プロパティを使用して、ドライバとエグゼキュータのカスタム Spark ガベージコレクション構成を指定する必要があります。spark.driver.defaultJavaOptionsおよびspark.executor.defaultJavaOptions代わりに、. もっと読むApache Spark ランタイム環境およびAmazon EMR 6.1.0 での Spark ガベージコレクションの設定

  • Oozie で Pig を使用すると (Hue では、Oozie アクションを使用して Pig スクリプトを実行するため)、ネイティブ lzo ライブラリをロードできないというエラーが生成されます。このエラーメッセージは情報提供であり、Pig の実行をブロックするものではありません。

  • Hudi 同時実行Support: 現在、Hudi は単一の Hudi テーブルへの同時書き込みをサポートしていません。さらに、Hudi は、新しいライターの開始を許可する前に、進行中のライターによって行われた変更をロールバックします。同時書き込みは、このメカニズムに干渉し、競合状態を引き起こし、データの破損につながる可能性があります。データ処理ワークフローの一部として、いつでも Hudi テーブルに対して動作する Hudi ライターが 1 つだけであることを確認してください。Hudi は、同じ Hudi テーブルに対して動作する複数の同時リーダーをサポートしています。

  • 複数のマスターノードと Kerberos 認証を使用するクラスターの既知の問題

    EMR リリース 5.20.0 以降で複数のマスターノードと Kerberos 認証を使用してクラスタを実行すると、クラスタがしばらく実行された後、スケールダウンやステップの送信などのクラスタ操作で問題が発生する可能性があります。期間は、定義した Kerberos チケットの有効期間によって異なります。スケールダウンの問題は、送信した自動スケールダウンリクエストと明示的なスケールダウンリクエストの両方に影響します。追加のクラスター操作も影響を受ける可能性があります。

    回避方法:

    • SSH としてhadoop複数のマスターノードを持つ EMR クラスターのリードマスターノードにログインします。

    • 以下のコマンドを実行して、の Kerberos チケットを更新します。hadoopユーザー。

      kinit -kt <keytab_file> <principal>

      通常、キータブファイルはにあります。/etc/hadoop.keytabであり、校長はという形式になります。hadoop/<hostname>@<REALM>

    注記

    この回避策は、Kerberos チケットの有効期間に有効です。この期間はデフォルトで 10 時間ですが、Kerberos の設定で設定できます。Kerberos チケットの有効期限が切れたら、上記のコマンドを再実行する必要があります。

  • Amazon EMR 6.1.0 には、Presto を実行しているクラスターに影響する問題があります。長時間(日数)後、クラスターは「su: /bin/bash を実行できませんでした。リソースが一時的に利用できない」または「シェルリクエストがチャネル 0 で失敗しました」。この問題は、内部の Amazon EMR プロセス(InstanceController)が生成されすぎたライトウェイトプロセス(LWP)が原因で発生し、最終的に Hadoop ユーザーが nproc の制限を超えることになります。これにより、ユーザーは追加のプロセスを開くことができなくなります。この問題の解決策は、EMR 6.2.0 にアップグレードすることです。

リリース 6.0.0

次のリリースノートには、Amazon EMR リリースバージョン 6.0.0 に関する情報が含まれています。

初回リリース日: 2020 年 3 月 10 日

サポートされているアプリケーション

  • AWS SDK for Java バージョン 1.11.711

  • Ganglia バージョン 3.7.2

  • Hadoop バージョン 3.2.1

  • HBase バージョン 2.2.3

  • HCatalog バージョン 3.1.2

  • Hive バージョン 3.1.2

  • Hudi バージョン 0.5.0-incubating

  • Hue バージョン 4.4.0

  • JupyterHub バージョン 1.0.0

  • Livy バージョン 0.6.0

  • MXNet バージョン 1.5.1

  • Oozie バージョン 5.1.0

  • Phoenix バージョン 5.0.0

  • Presto バージョン 0.230

  • Spark バージョン 2.4.4

  • TensorFlow バージョン 1.14.0

  • Zeppelin バージョン 0.9.0-SNAPSHOT

  • Zookeeper バージョン 3.4.14

  • コネクターおよびドライバ: DynamoDB Connector 4.14.0

注記

Flink、Sqoop、Pig、および Mahout は、Amazon EMR バージョン 6.0.0 では使用できません。

新機能

  • YARN Docker ランタイムのサポート - Spark ジョブなどの YARN アプリケーションは、Docker コンテナのコンテキストで実行できるようになりました。これにより、Amazon EMR クラスターにカスタムライブラリをインストールすることなく、Docker イメージの依存関係を簡単に定義できます。詳細については、「」を参照してください。Docker 統合の設定およびAmazon EMR 6.0.0 を使用して Docker で Spark アプリケーションを実行する

  • Hive LLAP のサポート - クエリのパフォーマンス向上のため、Hive が LLAP 実行モードをサポートしました。詳細については、「Hive LLAP の使用」を参照してください。

変更、機能強化、および解決された問題

  • Amazon EMR バージョン 6.0.1 では、マネージドスケーリングが完了できない、またはアプリケーションの障害の原因となる問題を修正しました。

  • Amazon Linux

    • Amazon Linux 2 は EMR 6.x リリースシリーズのオペレーティングシステムです。

    • systemdではなく、サービス管理に使用されます。upstartAmazon Linux 1で使用。

  • Java Development Kit (JDK)

    • Coretto JDK 8 は、EMR 6.x リリースシリーズのデフォルトの JDK です。

  • Scala

    • Scala 2.12 は、Apache Spark および Apache Livy で使用されます。

  • Python 3

    • Python 3 が EMR の Python のデフォルトバージョンになりました。

  • YARN ノードラベル

    • Amazon EMR 6.x リリースシリーズ以降では、YARN ノードラベル機能はデフォルトで無効になっています。アプリケーションマスタープロセスは、デフォルトでコアノードとタスクノードの両方で実行できます。次のプロパティを設定することで、YARN ノードラベル機能を有効にできます: yarn.node-labels.enabled および yarn.node-labels.am.default-node-label-expression。詳細については、「Understanding Master, Core, and Task Nodes」を参照してください。

既知の問題

  • 古い AL2 の「オープンファイルの最大数」の制限を下げる。Amazon EMR リリース:emr-5.30.x、emr-5.31.0、emr-5.32.0、emr-6.0.0、emr-6.1.0、およびemr-6.2.0は、Amazon Linux 2 (AL2) の古いバージョンに基づいています。これらは、デフォルトの AMI を使用して EMR クラスターを作成する場合の「最大オープンファイル」のulimit設定が低くなります。開いているファイルの上限を下げると、Spark ジョブを送信するときに「開いているファイルが多すぎます」というエラーが発生します。影響を受ける EMR リリースでは、Amazon EMR のデフォルト AMI の「オープンファイルの最大数」のデフォルトの ulimit 設定が 4096 に設定されています。これは、最新の Amazon Linux 2 AMI の 65536 ファイル制限を下回っています。「最大オープンファイル」の ulimit 設定を低くすると、Spark ドライバとエグゼキュータが 4096 を超えるファイルを開こうとすると、Spark ジョブが失敗します。この問題を解決するために、Amazon EMR には、クラスターの作成時に ulimit 設定を調整するブートストラップアクション (BA) スクリプトがあります。Amazon EMR リリース 6.3.0 および 5.33.0 には、「オープンファイルの最大数」設定が高い永続的な修正が含まれます。

    この問題の次の回避策では、インスタンスコントローラの ulimit を最大 65536 ファイルに明示的に設定することができます。

    コマンドラインから ulimit を明示的に設定する

    1. 編集/etc/systemd/system/instance-controller.serviceをクリックして、Service セクションに次のパラメータを追加します。

      LimitNOFILE=65536

      LimitNPROC=65536

    2. InstanceController を再起動する

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    ブートストラップアクション (BA) を使用して ulimit を設定する

    ブートストラップアクション (BA) スクリプトを使用して、クラスター作成時にインスタンスコントローラの ulimit を 65536 ファイルに設定することもできます。

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • PySpark、SparkR、spark-shell を含む Spark インタラクティブシェルは、追加のライブラリでの Docker の使用をサポートしていません。

  • Amazon EMR バージョン 6.0.0 で Python 3 を使用するには、PATHyarn.nodemanager.env-whitelist

  • ライブロングアンドプロセス (LLAP) 機能は、AWSHive のメタストアとしての Data Catalog をGlue します。

  • Spark と Docker の統合で Amazon EMR 6.0.0 を使用する場合、Docker ランタイムで Spark ジョブを送信する際の失敗を避けるために、同じインスタンスタイプと同量の EBS ボリュームでクラスター内のインスタンスを構成する必要があります。

  • Amazon EMR 6.0.0 では、HBase on Amazon S3 ストレージモードは、HBASE-24286. 問題。既存の S3 データを使用してクラスターを作成する場合、HBase マスターは初期化できません。

  • 複数のマスターノードと Kerberos 認証を使用するクラスターの既知の問題

    EMR リリース 5.20.0 以降で複数のマスターノードと Kerberos 認証を使用してクラスタを実行すると、クラスタがしばらく実行された後、スケールダウンやステップの送信などのクラスタ操作で問題が発生する可能性があります。期間は、定義した Kerberos チケットの有効期間によって異なります。スケールダウンの問題は、送信した自動スケールダウンリクエストと明示的なスケールダウンリクエストの両方に影響します。追加のクラスター操作も影響を受ける可能性があります。

    回避方法:

    • SSH としてhadoop複数のマスターノードを持つ EMR クラスターのリードマスターノードにログインします。

    • 以下のコマンドを実行して、の Kerberos チケットを更新します。hadoopユーザー。

      kinit -kt <keytab_file> <principal>

      通常、キータブファイルはにあります。/etc/hadoop.keytabであり、校長はという形式になります。hadoop/<hostname>@<REALM>

    注記

    この回避策は、Kerberos チケットの有効期間に有効です。この期間はデフォルトで 10 時間ですが、Kerberos の設定で設定できます。Kerberos チケットの有効期限が切れたら、上記のコマンドを再実行する必要があります。

リリース 5.30.1

次のリリースノートには、Amazon EMR リリースバージョン 5.30.1 に関する情報が含まれています。5.30.0 からの変更が含まれています。

初回リリース日: 2020 年 6 月 30 日

最終更新日: 2020 年 8 月 24 日

変更、機能強化、および解決された問題

  • インスタンスコントローラプロセスが無限数のプロセスをスポーンする問題を修正しました。

  • Hue が Hive クエリを実行できず、「データベースがロックされています」というメッセージが表示され、クエリの実行を妨げる問題を修正しました。

  • EMR クラスターでより多くのタスクを同時に実行できるようにするための Spark の問題を修正しました。

  • Jupyter サーバーで「開いているファイルが多すぎるエラー」が発生する Jupyter ノートブックの問題を修正しました。

  • クラスターの開始時間の問題を修正しました。

新機能

  • Tez UI および YARN タイムラインサーバー永続アプリケーションインターフェイスは、Amazon EMR バージョン 6.x および EMR バージョン 5.30.1 以降で利用可能です。永続アプリケーション履歴へのワンクリックリンクアクセスにより、SSH 接続を介してウェブプロキシを設定することなく、ジョブ履歴にすばやくアクセスできます。アクティブクラスターと終了したクラスターのログは、アプリケーションの終了後 30 日間利用できます。詳細については、「」を参照してください。永続アプリケーションユーザーインターフェイスの表示Amazon EMR 管理ガイド

  • EMR ノートブック実行 API は、スクリプトまたはコマンドラインで EMR ノートブックを実行するために使用できます。EMR ノートブックの実行を起動、停止、一覧表示、および記述できる機能AWSコンソールを使用すると、EMR ノートブックをプログラムで制御できます。パラメータ化されたノートブックセルを使用すると、新しいパラメータ値のセットごとにノートブックのコピーを作成しなくても、異なるパラメータ値をノートブックに渡すことができます。「」を参照してください。EMR API アクション。サンプルコードについては、「」を参照してください。EMR Notebooks をプログラムで実行するサンプルコマンド。

既知の問題

  • 古い AL2 の「オープンファイルの最大数」の制限を下げる。Amazon EMR リリース:emr-5.30.x、emr-5.31.0、emr-5.32.0、emr-6.0.0、emr-6.1.0、およびemr-6.2.0は、Amazon Linux 2 (AL2) の古いバージョンに基づいています。これらは、デフォルトの AMI を使用して EMR クラスターを作成する場合の「最大オープンファイル」のulimit設定が低くなります。開いているファイルの上限を下げると、Spark ジョブを送信するときに「開いているファイルが多すぎます」というエラーが発生します。影響を受ける EMR リリースでは、Amazon EMR のデフォルト AMI の「オープンファイルの最大数」のデフォルトの ulimit 設定が 4096 に設定されています。これは、最新の Amazon Linux 2 AMI の 65536 ファイル制限を下回っています。「最大オープンファイル」の ulimit 設定を低くすると、Spark ドライバとエグゼキュータが 4096 を超えるファイルを開こうとすると、Spark ジョブが失敗します。この問題を解決するために、Amazon EMR には、クラスターの作成時に ulimit 設定を調整するブートストラップアクション (BA) スクリプトがあります。Amazon EMR リリース 6.3.0 および 5.33.0 には、「オープンファイルの最大数」設定が高い永続的な修正が含まれます。

    この問題の次の回避策では、インスタンスコントローラの ulimit を最大 65536 ファイルに明示的に設定することができます。

    コマンドラインから ulimit を明示的に設定する

    1. 編集/etc/systemd/system/instance-controller.serviceをクリックして、Service セクションに次のパラメータを追加します。

      LimitNOFILE=65536

      LimitNPROC=65536

    2. InstanceController を再起動する

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    ブートストラップアクション (BA) を使用して ulimit を設定する

    ブートストラップアクション (BA) スクリプトを使用して、クラスター作成時にインスタンスコントローラの ulimit を 65536 ファイルに設定することもできます。

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • EMR ノートブック

    クラスタマスターノードにカーネルと追加の Python ライブラリをインストールできる機能は、EMR バージョン 5.30.1 ではデフォルトで無効になっています。この機能の詳細については、「」を参照してください。クラスターのマスターノードへのカーネルと Python ライブラリのインストール

    この機能を有効にするには、次の手順を実行します。

    1. EMR Notebooks のサービスロールにアタッチされたアクセス権限ポリシーで、次のアクションが許可されていることを確認します。

      elasticmapreduce:ListSteps

      詳細については、「EMR Notebooks のサービスロール」を参照してください。

    2. を使用するAWS CLI次の例に示すように、EMR Notebooks を設定するステップを実行する手順を実行します。置換us-east-1を使用して、クラスターが存在するリージョンを使用します。詳細については、「」を参照してください。を使用したクラスターへのステップの追加AWS CLI

      aws emr add-steps --cluster-id MyClusterID --steps Type=CUSTOM_JAR,Name=EMRNotebooksSetup,ActionOnFailure=CONTINUE,Jar=s3://us-east-1.elasticmapreduce/libs/script-runner/script-runner.jar,Args=["s3://awssupportdatasvcs.com/bootstrap-actions/EMRNotebooksSetup/emr-notebooks-setup.sh"]
  • マネージドスケーリング

    Presto がインストールされていない 5.30.0 および 5.30.1 クラスターでマネージドスケーリングオペレーションを実行すると、アプリケーションの障害が発生したり、均一なインスタンスグループまたはインスタンスフリートがARRESTED状態。特に、スケールダウン操作の後に、スケールアップ操作がすばやく実行される場合です。

    回避策として、ジョブに Presto が必要ない場合でも、クラスターの作成時にインストールするアプリケーションとして Presto を選択します。

  • 複数のマスターノードと Kerberos 認証を使用するクラスターの既知の問題

    EMR リリース 5.20.0 以降で複数のマスターノードと Kerberos 認証を使用してクラスタを実行すると、クラスタがしばらく実行された後、スケールダウンやステップの送信などのクラスタ操作で問題が発生する可能性があります。期間は、定義した Kerberos チケットの有効期間によって異なります。スケールダウンの問題は、送信した自動スケールダウンリクエストと明示的なスケールダウンリクエストの両方に影響します。追加のクラスター操作も影響を受ける可能性があります。

    回避方法:

    • SSH としてhadoop複数のマスターノードを持つ EMR クラスターのリードマスターノードにログインします。

    • 以下のコマンドを実行して、の Kerberos チケットを更新します。hadoopユーザー。

      kinit -kt <keytab_file> <principal>

      通常、キータブファイルはにあります。/etc/hadoop.keytabであり、校長はという形式になります。hadoop/<hostname>@<REALM>

    注記

    この回避策は、Kerberos チケットの有効期間に有効です。この期間はデフォルトで 10 時間ですが、Kerberos の設定で設定できます。Kerberos チケットの有効期限が切れたら、上記のコマンドを再実行する必要があります。

リリース 5.30.0

次のリリースノートには、Amazon EMR リリースバージョン 5.30.0 に関する情報が含まれています。5.29.0 からの変更が含まれています。

初回リリース日: 2020 年 5 月 13 日

最終更新日: 2020 年 6 月 25 日

Upgrades

  • AWS SDK for Java をバージョン 1.11.759 にアップグレードしました

  • Amazon SageMaker Spark SDK をバージョン 1.3.0 にアップグレードしました

  • EMR Record Server をバージョン 1.6.0 にアップグレードしました

  • Flink をバージョン 1.10.0 にアップグレードしました

  • Ganglia をバージョン 3.7.2 にアップグレードしました

  • HBase をバージョン 1.4.13 にアップグレードしました

  • Hudi をバージョン 0.5.2 (incubating) にアップグレードしました

  • Hue をバージョン 4.6.0 にアップグレードしました

  • JupyterHub をバージョン 1.1.0 にアップグレードしました

  • Livy をバージョン 0.7.0 (incubating) にアップグレードしました

  • Oozie をバージョン 5.2.0 にアップグレードしました

  • Presto をバージョン 0.232 にアップグレードしました

  • Spark をバージョン 2.4.5 にアップグレードしました

  • アップグレードされたコネクタとドライバ: Amazon Glue Connector 1.12.0、Amazon Kinesis Connector 3.5.0、EMR DynamoDB Connector 4.14.0

新機能

  • EMR ノートブック— 5.30.0 を使用して作成された EMR クラスターで使用すると、EMR ノートブックカーネルはクラスター上で実行されます。これにより、ノートブックのパフォーマンスが向上し、カーネルをインストールおよびカスタマイズすることができます。また、クラスターのマスターノードに Python ライブラリをインストールすることもできます。詳細については、「」を参照してください。カーネルとライブラリのインストールと使用EMR 管理ガイド

  • マネージドスケーリング— Amazon EMR バージョン 5.30.0 以降では、EMR マネージドスケーリングを有効にすることで、ワークロードに応じてクラスター内のインスタンスやユニットの数を自動的に増減できます。EMR は引き続きクラスターのメトリクスを評価し、クラスターのコストと速度を最適化するためのスケーリングを決定します。詳細については、「」を参照してください。クラスターリソースのスケーリングAmazon EMR 管理ガイド

  • Amazon S3 に保存されているログファイルの暗号化— Amazon EMR バージョン 5.30.0 以降では、Amazon S3 に保存されたログファイルをAWS KMSカスタマー管理のキー. 詳細については、「」を参照してください。Amazon S3 に保存されているログファイルの暗号化Amazon EMR 管理ガイド

  • Amazon Linux 2 サポート— EMR バージョン 5.30.0 以降では、Amazon Linux 2 OS を使用します。新しいカスタム AMI (Amazon マシンイメージ) は、Amazon Linux 2 AMI に基づいている必要があります。詳細については、「カスタム AMI の使用」を参照してください。

  • プレストグレースフルオートスケール— 5.30.0 を使用する EMR クラスターには、Auto Scaling タイムアウト期間を設定することで、Presto タスクの実行が終了するまで待ってからノードの使用を停止できます。詳細については、「」を参照してくださいグレースフルな廃止による Presto 自動スケーリングを使用する

  • 新しい割り当て戦略オプションを使用したフリートインスタンスの作成— EMR バージョン 5.12.1 以降では、新しい割り当て戦略オプションを使用できます。これにより、クラスタのプロビジョニング、より正確なスポット割り当て、スポットインスタンスの中断が少なくなります。デフォルト以外の EMR サービスロールの更新が必要です。「」を参照してください。インスタンスフリートを構成する

  • sudo systemctl stop と sudo systemctl 開始コマンド— Amazon Linux 2 OS を使用する EMR バージョン 5.30.0 以降では、sudo systemctl stopおよびsudo systemctl startサービスを再起動するコマンド。詳細については、「」を参照してください。Amazon EMR でサービスを再起動するにはどうすればよいですか?

変更、機能強化、および解決された問題

  • EMR バージョン 5.30.0 では、デフォルトで Ganglia がインストールされません。クラスターの作成時に、Ganglia を明示的に選択してインストールできます。

  • Spark パフォーマンスの最適化。

  • Presto パフォーマンスの最適化。

  • Amazon EMR バージョン 5.30.0 以降では、Python 3 がデフォルトです。

  • プライベートサブネット内のサービスアクセス用のデフォルトのマネージドセキュリティグループが更新され、複数の新しいルールが追加されました。サービスアクセスにカスタムセキュリティグループを使用している場合は、同じルールをデフォルトのマネージドセキュリティグループとして含める必要があります。詳細については、「」を参照してください。サービスアクセスの Amazon EMR マネージドセキュリティグループ (プライベートサブネット)。Amazon EMR でカスタムサービスロールを使用している場合は、次の権限を付与する必要があります。ec2:describeSecurityGroupsセキュリティグループが正しく作成されたかどうかを EMR で検証できるようにします。EMR_DefaultRole を使用する場合、このアクセス許可はデフォルトのマネージドポリシーに既に含まれています。

既知の問題

  • 古い AL2 の「オープンファイルの最大数」の制限を下げる。Amazon EMR リリース:emr-5.30.x、emr-5.31.0、emr-5.32.0、emr-6.0.0、emr-6.1.0、およびemr-6.2.0は、Amazon Linux 2 (AL2) の古いバージョンに基づいています。これらは、デフォルトの AMI を使用して EMR クラスターを作成する場合の「最大オープンファイル」のulimit設定が低くなります。開いているファイルの上限を下げると、Spark ジョブを送信するときに「開いているファイルが多すぎます」というエラーが発生します。影響を受ける EMR リリースでは、Amazon EMR のデフォルト AMI の「オープンファイルの最大数」のデフォルトの ulimit 設定が 4096 に設定されています。これは、最新の Amazon Linux 2 AMI の 65536 ファイル制限を下回っています。「最大オープンファイル」の ulimit 設定を低くすると、Spark ドライバとエグゼキュータが 4096 を超えるファイルを開こうとすると、Spark ジョブが失敗します。この問題を解決するために、Amazon EMR には、クラスターの作成時に ulimit 設定を調整するブートストラップアクション (BA) スクリプトがあります。Amazon EMR リリース 6.3.0 および 5.33.0 には、「オープンファイルの最大数」設定が高い永続的な修正が含まれます。

    この問題の次の回避策では、インスタンスコントローラの ulimit を最大 65536 ファイルに明示的に設定することができます。

    コマンドラインから ulimit を明示的に設定する

    1. 編集/etc/systemd/system/instance-controller.serviceをクリックして、Service セクションに次のパラメータを追加します。

      LimitNOFILE=65536

      LimitNPROC=65536

    2. InstanceController を再起動する

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    ブートストラップアクション (BA) を使用して ulimit を設定する

    ブートストラップアクション (BA) スクリプトを使用して、クラスター作成時にインスタンスコントローラの ulimit を 65536 ファイルに設定することもできます。

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • マネージドスケーリング

    Presto がインストールされていない 5.30.0 および 5.30.1 クラスターでマネージドスケーリングオペレーションを実行すると、アプリケーションの障害が発生したり、均一なインスタンスグループまたはインスタンスフリートがARRESTED状態。特に、スケールダウン操作の後に、スケールアップ操作がすばやく実行される場合です。

    回避策として、ジョブに Presto が必要ない場合でも、クラスターの作成時にインストールするアプリケーションとして Presto を選択します。

  • 複数のマスターノードと Kerberos 認証を使用するクラスターの既知の問題

    EMR リリース 5.20.0 以降で複数のマスターノードと Kerberos 認証を使用してクラスタを実行すると、クラスタがしばらく実行された後、スケールダウンやステップの送信などのクラスタ操作で問題が発生する可能性があります。期間は、定義した Kerberos チケットの有効期間によって異なります。スケールダウンの問題は、送信した自動スケールダウンリクエストと明示的なスケールダウンリクエストの両方に影響します。追加のクラスター操作も影響を受ける可能性があります。

    回避方法:

    • SSH としてhadoop複数のマスターノードを持つ EMR クラスターのリードマスターノードにログインします。

    • 以下のコマンドを実行して、の Kerberos チケットを更新します。hadoopユーザー。

      kinit -kt <keytab_file> <principal>

      通常、キータブファイルはにあります。/etc/hadoop.keytabであり、校長はという形式になります。hadoop/<hostname>@<REALM>

    注記

    この回避策は、Kerberos チケットの有効期間に有効です。この期間はデフォルトで 10 時間ですが、Kerberos の設定で設定できます。Kerberos チケットの有効期限が切れたら、上記のコマンドを再実行する必要があります。

  • Hue 4.6.0 のデフォルトのデータベースエンジンは SQLite で、外部データベースで Hue を使用しようとすると問題が発生します。これを修正するには、engine内のhue-ini設定分類mysql。この問題は、Amazon EMR バージョン 5.30.1 で修正されています。

リリース 5.29.0

次のリリースノートには、Amazon EMR リリースバージョン 5.29.0 に関する情報が含まれています。5.28.1 からの変更が含まれています。

初回リリース日: 2020 年 1 月 17 日

Upgrades

  • をバージョン 1.11.682 にアップグレードしました

  • Hive をバージョン 2.3.6 にアップグレードしました

  • Flink をバージョン 1.9.1 にアップグレードしました

  • EmrFS をバージョン 2.38.0 にアップグレードしました

  • EMR DynamoDB コネクタをバージョン 4.13.0 にアップグレードしました

変更、機能強化、および解決された問題

  • Spark

    • Spark パフォーマンスの最適化。

  • EMRFS

    • 管理ガイドでは、一貫したビューの emrfs-site.xml のデフォルト設定が更新されます。

既知の問題

  • 複数のマスターノードと Kerberos 認証を使用するクラスターの既知の問題

    EMR リリース 5.20.0 以降で複数のマスターノードと Kerberos 認証を使用してクラスタを実行すると、クラスタがしばらく実行された後、スケールダウンやステップの送信などのクラスタ操作で問題が発生する可能性があります。期間は、定義した Kerberos チケットの有効期間によって異なります。スケールダウンの問題は、送信した自動スケールダウンリクエストと明示的なスケールダウンリクエストの両方に影響します。追加のクラスター操作も影響を受ける可能性があります。

    回避方法:

    • SSH としてhadoop複数のマスターノードを持つ EMR クラスターのリードマスターノードにログインします。

    • 以下のコマンドを実行して、の Kerberos チケットを更新します。hadoopユーザー。

      kinit -kt <keytab_file> <principal>

      通常、キータブファイルはにあります。/etc/hadoop.keytabであり、校長はという形式になります。hadoop/<hostname>@<REALM>

    注記

    この回避策は、Kerberos チケットの有効期間に有効です。この期間はデフォルトで 10 時間ですが、Kerberos の設定で設定できます。Kerberos チケットの有効期限が切れたら、上記のコマンドを再実行する必要があります。

リリース 5.28.1

次のリリースノートには、Amazon EMR リリースバージョン 5.28.1 に関する情報が含まれています。5.28.0 からの変更が含まれています。

初回リリース日: 2020 年 1 月 10 日

変更、機能強化、および解決された問題

  • Spark

    • Spark の互換性の問題が修正されました。

  • CloudWatch Metrics

    • 複数のマスターノードを持つ EMR クラスターでの Amazon CloudWatch メトリクスの発行が修正されました。

  • ログメッセージの無効化

    • 「... Apache http クライアントの古いバージョン (<4.5.8) を使用」という誤ったログメッセージを無効にしました。

既知の問題

  • 複数のマスターノードと Kerberos 認証を使用するクラスターの既知の問題

    EMR リリース 5.20.0 以降で複数のマスターノードと Kerberos 認証を使用してクラスタを実行すると、クラスタがしばらく実行された後、スケールダウンやステップの送信などのクラスタ操作で問題が発生する可能性があります。期間は、定義した Kerberos チケットの有効期間によって異なります。スケールダウンの問題は、送信した自動スケールダウンリクエストと明示的なスケールダウンリクエストの両方に影響します。追加のクラスター操作も影響を受ける可能性があります。

    回避方法:

    • SSH としてhadoop複数のマスターノードを持つ EMR クラスターのリードマスターノードにログインします。

    • 以下のコマンドを実行して、の Kerberos チケットを更新します。hadoopユーザー。

      kinit -kt <keytab_file> <principal>

      通常、キータブファイルはにあります。/etc/hadoop.keytabであり、校長はという形式になります。hadoop/<hostname>@<REALM>

    注記

    この回避策は、Kerberos チケットの有効期間に有効です。この期間はデフォルトで 10 時間ですが、Kerberos の設定で設定できます。Kerberos チケットの有効期限が切れたら、上記のコマンドを再実行する必要があります。

リリース 5.28.0

次のリリースノートには、Amazon EMR リリースバージョン 5.28.0 に関する情報が含まれています。変更は 5.27.0 に関連するものです。

初回リリース日: 2019 年 11 月 12 日

Upgrades

  • Flink をバージョン 1.9.0 にアップグレードしました

  • Hive をバージョン 2.3.6 にアップグレードしました

  • MXNet をバージョン 1.5.1 にアップグレードしました

  • Phoenix をバージョン 4.14.3 にアップグレードしました

  • Presto をバージョン 0.227 にアップグレードしました

  • Zeppelin をバージョン 0.8.2 にアップグレードしました

新機能

  • Apache Hudiクラスターの作成時に Amazon EMR をインストールできるようになりました。詳細については、「」を参照してくださいHudi

  • (2019 年 11 月 25 日) 複数のステップを並行して選択して、クラスター使用率を改善し、コストを削減できるようになりました。また、保留中および実行中のステップの両方をキャンセルできるようになりました。詳細については、「AWS CLI およびコンソールを使用した手順の作業」を参照してください。

  • (2019 年 12 月 3 日) EMR クラスターを作成し、実行できるようになりました。AWS Outposts。AWS Outpostsネイティブを有効にするAWSオンプレミス施設でのサービス、インフラストラクチャ、運用モデル。EclipseAWS Outposts環境の場合は、同じものを使用できます。AWSで使用する API、ツール、インフラストラクチャーAWSクラウド。詳細については、「」を参照してください。の EMR クラスターAWS Outposts

  • (2020 年 3 月 11 日) Amazon EMR バージョン 5.28.0 以降では、AWSの論理拡張としてのLocal Zones サブネットAWSLocal Zones をサポートするリージョン。ローカルゾーンでは、Amazon EMR 機能とサブセットを使用できます。AWSコンピューティングサービスやストレージサービスなどのサービスは、ユーザーの近くに配置され、ローカルで実行されるアプリケーションに非常に低いレイテンシーでアクセスできます。利用可能なLocal Zones リストについては、「」を参照してください。AWSローカルゾーン。利用可能なアクセスの詳細については、AWSLocal Zones、を参照してください。リージョン、アベイラビリティーゾーン、およびローカルゾーン

    Local Zones では、現在 Amazon EMR Notebooks をサポートしており、インターフェイス VPC エンドポイント (VPC) を使用した Amazon EMR への直接接続をサポートしていません (™ AWS PrivateLink ).

変更、機能強化、および解決された問題

既知の問題

  • 複数のマスターノードと Kerberos 認証を使用するクラスターの既知の問題

    EMR リリース 5.20.0 以降で複数のマスターノードと Kerberos 認証を使用してクラスタを実行すると、クラスタがしばらく実行された後、スケールダウンやステップの送信などのクラスタ操作で問題が発生する可能性があります。期間は、定義した Kerberos チケットの有効期間によって異なります。スケールダウンの問題は、送信した自動スケールダウンリクエストと明示的なスケールダウンリクエストの両方に影響します。追加のクラスター操作も影響を受ける可能性があります。

    回避方法:

    • SSH としてhadoop複数のマスターノードを持つ EMR クラスターのリードマスターノードにログインします。

    • 以下のコマンドを実行して、の Kerberos チケットを更新します。hadoopユーザー。

      kinit -kt <keytab_file> <principal>

      通常、キータブファイルはにあります。/etc/hadoop.keytabであり、校長はという形式になります。hadoop/<hostname>@<REALM>

    注記

    この回避策は、Kerberos チケットの有効期間に有効です。この期間はデフォルトで 10 時間ですが、Kerberos の設定で設定できます。Kerberos チケットの有効期限が切れたら、上記のコマンドを再実行する必要があります。

リリース 5.27.0

次のリリースノートには、Amazon EMR リリースバージョン 5.27.0 に関する情報が含まれています。5.26.0 からの変更が含まれています。

初回リリース日: 2019 年 9 月 23 日

Upgrades

  • AWS SDK for Java1.11.615

  • Flink 1.8.1

  • JupyterHub 1.0.0

  • Spark 2.4.4

  • TensorFlow 1.14.0

  • コネクターおよびドライバ:

    • DynamoDB コネクタ 4.12.0

新機能

  • (2019 年 10 月 24 日) EMR ノートブックの次の新機能は、すべての Amazon EMR リリースで利用できます。

    • インスタンスメタデータサービス (IMDS) V2 サポートステータス: Amazon EMR 5.23.1、5.27.1 および 5.32 以降のコンポーネントは、すべての IMDS 呼び出しに IMDSv2 を使用します。アプリケーションコード内の IMDS 呼び出しでは、IMDSv1 と IMDSv2 の両方を使用するか、セキュリティを強化するために IMDSv2 のみを使用するように設定することができます。他の 5.x EMR リリースでは、IMDSv1 を無効にすると、クラスタの起動に失敗します。

    • Git リポジトリを EMR ノートブックに関連付けて、バージョン管理された環境にノートブックを保存できるようになりました。リモートの Git リポジトリを使用して、ピアとコードを共有し、既存の Jupyter ノートブックを再利用できます。詳細については、「」を参照してください。Git リポジトリを Amazon EMR Notebooks に関連付けるAmazon EMR 管理ガイド

    • -nbdime ユーティリティEMR ノートブックで利用可能になり、ノートブックの比較とマージを簡素化できるようになりました。Â

    • EMR ノートブックが JupyterLab をサポートするようになりました。JupyterLab は、Jupyter ノートブックと完全に互換性のあるウェブベースのインタラクティブ開発環境です。これで、JupyterLab または Jupyter ノートブックエディタでノートブックを開くことができます。

  • (2019 年 10 月 30 日) Amazon EMR バージョン 5.25.0 以降では、クラスターから Spark 履歴サーバー UI に接続できます。概要ページで、アプリケーションの履歴コンソールの [] タブ。SSH 接続を介してウェブプロキシを設定する代わりに、Spark 履歴サーバー UI にすばやくアクセスして、アプリケーションメトリクスを確認し、アクティブなクラスターと終了クラスターに関連するログファイルにアクセスできます。詳細については、「」を参照してください。永続アプリケーションユーザーインターフェイスへのオフクラスターアクセスAmazon EMR 管理ガイド

変更、機能強化、および解決された問題

既知の問題

  • 複数のマスターノードと Kerberos 認証を使用するクラスターの既知の問題

    EMR リリース 5.20.0 以降で複数のマスターノードと Kerberos 認証を使用してクラスタを実行すると、クラスタがしばらく実行された後、スケールダウンやステップの送信などのクラスタ操作で問題が発生する可能性があります。期間は、定義した Kerberos チケットの有効期間によって異なります。スケールダウンの問題は、送信した自動スケールダウンリクエストと明示的なスケールダウンリクエストの両方に影響します。追加のクラスター操作も影響を受ける可能性があります。

    回避方法:

    • SSH としてhadoop複数のマスターノードを持つ EMR クラスターのリードマスターノードにログインします。

    • 以下のコマンドを実行して、の Kerberos チケットを更新します。hadoopユーザー。

      kinit -kt <keytab_file> <principal>

      通常、キータブファイルはにあります。/etc/hadoop.keytabであり、校長はという形式になります。hadoop/<hostname>@<REALM>

    注記

    この回避策は、Kerberos チケットの有効期間に有効です。この期間はデフォルトで 10 時間ですが、Kerberos の設定で設定できます。Kerberos チケットの有効期限が切れたら、上記のコマンドを再実行する必要があります。

リリース 5.26.0

次のリリースノートには、Amazon EMR リリースバージョン 5.26.0 に関する情報が含まれています。5.25.0 からの変更が含まれています。

初回リリース日: 2019 年 8 月 8 日

最終更新日: 2019 年 8 月 19 日

Upgrades

  • AWS SDK for Java1.11.595

  • HBase 1.4.10

  • Phoenix 4.14.2

  • コネクターおよびドライバ:

    • DynamoDB コネクタ 4.11.0

    • MariaDB Connector 2.4.2

    • Amazon Redshift JDBC ドライバー 1.2.32.1056

新機能

  • (ベータ) Amazon EMR 5.26.0 を使用すると、Lake Formation と統合するクラスターを起動できます。この統合により、データベースとテーブルへのきめ細かな列レベルのアクセスを提供します。AWSGlue データカタログ。また、企業の ID システムから EMR Notebooks または Apache Zeppelin へのフェデレーションシングルサインオンも有効になります。詳細については、「」を参照してください。Amazon EMR との統合AWS Lake Formation(ベータ)

  • (2019 年 8 月 19 日) Amazon EMR ブロックパブリックアクセスは、セキュリティグループをサポートするすべての Amazon EMR リリースで利用可能になりました。パブリックアクセスのブロックは、それぞれに適用されるアカウント全体の設定です。AWSリージョン。のパブリックアクセスブロックにより、クラスターに関連付けられているセキュリティグループに、ポートで IPv4 0.0.0.0/0 または IPv6። /0 (パブリックアクセス) からのインバウンドトラフィックを許可するルールがある場合に、クラスターの起動が禁止されます (ポートが例外として指定されている場合を除く)。ポート 22 は、デフォルトで例外になります。詳細については、「」を参照してください。Amazon EMR の使用ブロックパブリックアクセスの使用Amazon EMR 管理ガイド

変更、機能強化、および解決された問題

  • EMR ノートブック

    • EMR 5.26.0 以降では、EMR Notebooks はデフォルトの Python ライブラリに加えて、ノートブックスコープの Python ライブラリをサポートします。ノートブックスコープライブラリは、ノートブックエディター内から、クラスターを再作成したり、ノートブックをクラスターに再アタッチしたりすることなく、ノートブックエディターからインストールできます。ノートブックのスコープのライブラリは Python 仮想環境で作成されるため、現在のノートブックセッションにのみ適用されます。これにより、ノートブックの依存関係を分離できます。詳細については、「」を参照してください。ノートブックスコープのライブラリの使用Amazon EMR 管理ガイド

  • EMRFS

    • ETag 検証機能 (ベータ) は、fs.s3.consistent.metadata.etag.verification.enabledtrue。この機能により、EMRFS は Amazon S3 ETags を使用して、読み取られているオブジェクトが利用可能な最新バージョンであることを確認します。この機能は、Amazon S3 上のファイルが同じ名前を維持しながら上書きされる、更新後の読み取りのユースケースに役立ちます。この ETag 検証機能は、現在 S3 Select では使用できません。詳細については、「」を参照してください。一貫性のあるビューを構成する

  • Spark

    • 動的パーティションプルーニング、INTERSECT の前にDISTINCT、および DISTINCT クエリが続く JOIN の SQL プラン統計推論の改善、スカラーサブクエリのフラット化、最適化された結合の並べ替え、ブルームフィルタ結合の最適化の最適化がデフォルトで有効になりました。詳細については、「」を参照してください。Spark のパフォーマンスの最適化

    • ソート・マージ・ジョインのステージ全体のコード生成が改善されました。

    • クエリフラグメントとサブクエリの再利用が改善されました。

    • Spark の起動時にエグゼキュータを事前割り当てする機能が改善されました。

    • 結合の小さい側にブロードキャストヒントが含まれている場合、ブルームフィルタの結合は適用されなくなりました。

  • Tez

    • Tez の問題を解決しました。Tez UI は、複数のマスターノードを持つ EMR クラスターで動作するようになりました。

既知の問題

  • Sort Merge Join のステージ全体のコード生成機能が改善され、有効にすると、メモリ負荷が増加する可能性があります。この最適化によりパフォーマンスは向上しますが、spark.yarn.executor.memoryOverheadFactorは、十分なメモリを提供するように調整されていません。この機能を無効にするには、spark.sql.sortMergeJoinExec.extendedCodegen.enabledが偽になります。

  • 複数のマスターノードと Kerberos 認証を使用するクラスターの既知の問題

    EMR リリース 5.20.0 以降で複数のマスターノードと Kerberos 認証を使用してクラスタを実行すると、クラスタがしばらく実行された後、スケールダウンやステップの送信などのクラスタ操作で問題が発生する可能性があります。期間は、定義した Kerberos チケットの有効期間によって異なります。スケールダウンの問題は、送信した自動スケールダウンリクエストと明示的なスケールダウンリクエストの両方に影響します。追加のクラスター操作も影響を受ける可能性があります。

    回避方法:

    • SSH としてhadoop複数のマスターノードを持つ EMR クラスターのリードマスターノードにログインします。

    • 以下のコマンドを実行して、の Kerberos チケットを更新します。hadoopユーザー。

      kinit -kt <keytab_file> <principal>

      通常、キータブファイルはにあります。/etc/hadoop.keytabであり、校長はという形式になります。hadoop/<hostname>@<REALM>

    注記

    この回避策は、Kerberos チケットの有効期間に有効です。この期間はデフォルトで 10 時間ですが、Kerberos の設定で設定できます。Kerberos チケットの有効期限が切れたら、上記のコマンドを再実行する必要があります。

リリース 5.25.0

次のリリースノートには、Amazon EMR リリースバージョン 5.25.0 に関する情報が含まれています。5.24.1 からの変更が含まれています。

初回リリース日: 2019 年 7 月 17 日

最終更新日: 2019 年 10 月 30 日

Amazon EMR 5.25.0

Upgrades

  • AWS SDK for Java1.11.566

  • Hive 2.3.5

  • Presto 0.220

  • Spark 2.4.3

  • TensorFlow 1.13.1

  • Tez 0.9.2

  • ZooKeeper 3.4.14

新機能

  • (2019 年 10 月 30 日) Amazon EMR バージョン 5.25.0 以降では、クラスターから Spark 履歴サーバー UI に接続できます。概要ページで、アプリケーションの履歴コンソールの [] タブ。SSH 接続を介してウェブプロキシを設定する代わりに、Spark 履歴サーバー UI にすばやくアクセスして、アプリケーションメトリクスを確認し、アクティブなクラスターと終了クラスターに関連するログファイルにアクセスできます。詳細については、「」を参照してください。永続アプリケーションユーザーインターフェイスへのオフクラスターアクセスAmazon EMR 管理ガイド

変更、機能強化、および解決された問題

  • Spark

    • ブルームフィルターを使用して入力を事前フィルターすることで、一部の結合のパフォーマンスが改善されました。最適化はデフォルトでは無効になっており、Spark 設定パラメーターを設定して有効にすることができます。spark.sql.bloomFilterJoin.enabledtrue

    • 文字列型の列によるグループ化のパフォーマンスが改善されました。

    • HBase がインストールされていないクラスターの R4 インスタンスタイプのデフォルトの Spark エグゼキュータメモリとコア構成が改善されました。

    • 以前の動的パーティションプルーニング機能で、プルーニングされたテーブルが結合の左側にある必要がある問題を修正しました。

    • INTERSECT 最適化の前に DISTINCT が改善され、エイリアスを含む追加のケースに適用できるようになりました。

    • JOIN の後に続く DISTINCT クエリの SQL プラン統計の推論が改善されました。この改善点はデフォルトでは無効になっており、Spark 設定パラメーターを設定して有効にすることができます。spark.sql.statsImprovements.enabledtrue。この最適化は、[交差前の区別] 機能で必要であり、次の場合に自動的に有効になります。spark.sql.optimizer.distinctBeforeIntersect.enabledは、 に設定されます。true

    • テーブルのサイズとフィルターに基づいて最適化された結合順です。この最適化はデフォルトでは無効になっており、Spark 設定パラメーターを設定して有効にすることができます。spark.sql.optimizer.sizeBasedJoinReorder.enabledtrue

    詳細については、「」を参照してください。Spark のパフォーマンスの最適化

  • EMRFS

    • EMRFS の設定は、fs.s3.buckets.create.enabledがデフォルトで無効になっています。テストの結果、この設定を無効にすると、パフォーマンスが向上し、意図しない S3 バケットの作成を防ぐことがわかりました。アプリケーションがこの機能に依存している場合は、プロパティを設定して有効にできます。fs.s3.buckets.create.enabledtrueemrfs-site設定分類。詳細については、 を参照してください。クラスターの作成時に設定を指定する

  • セキュリティ設定におけるローカルディスクの暗号化と S3 暗号化の改善 (2019 年 8 月 5 日)

    • セキュリティ設定で、Amazon S3 暗号化設定をローカルディスク暗号化設定から分離しました。

    • リリース 5.24.0 以降で EBS 暗号化を有効にするオプションを追加しました。このオプションを選択すると、ストレージボリュームに加えてルートデバイスボリュームが暗号化されます。以前のバージョンでは、ルートデバイスボリュームを暗号化するためにカスタム AMI を使用する必要がありました。

    • 詳細については、「」を参照してください。暗号化オプションAmazon EMR 管理ガイド

既知の問題

  • 複数のマスターノードと Kerberos 認証を使用するクラスターの既知の問題

    EMR リリース 5.20.0 以降で複数のマスターノードと Kerberos 認証を使用してクラスタを実行すると、クラスタがしばらく実行された後、スケールダウンやステップの送信などのクラスタ操作で問題が発生する可能性があります。期間は、定義した Kerberos チケットの有効期間によって異なります。スケールダウンの問題は、送信した自動スケールダウンリクエストと明示的なスケールダウンリクエストの両方に影響します。追加のクラスター操作も影響を受ける可能性があります。

    回避方法:

    • SSH としてhadoop複数のマスターノードを持つ EMR クラスターのリードマスターノードにログインします。

    • 以下のコマンドを実行して、の Kerberos チケットを更新します。hadoopユーザー。

      kinit -kt <keytab_file> <principal>

      通常、キータブファイルはにあります。/etc/hadoop.keytabであり、校長はという形式になります。hadoop/<hostname>@<REALM>

    注記

    この回避策は、Kerberos チケットの有効期間に有効です。この期間はデフォルトで 10 時間ですが、Kerberos の設定で設定できます。Kerberos チケットの有効期限が切れたら、上記のコマンドを再実行する必要があります。

リリース 5.24.1

次のリリースノートには、Amazon EMR リリースバージョン 5.24.1 に関する情報が含まれています。5.24.0 からの変更が含まれています。

初回リリース日: 2019 年 6 月 26 日

変更、機能強化、および解決された問題

  • EMR 用 defaultAmazon Linux AMI を更新し、TCP SACK サービス拒否の問題など、重要な Linux カーネルのセキュリティ更新プログラムを含むように更新しました (AWS-005).

既知の問題

  • 複数のマスターノードと Kerberos 認証を使用するクラスターの既知の問題

    EMR リリース 5.20.0 以降で複数のマスターノードと Kerberos 認証を使用してクラスタを実行すると、クラスタがしばらく実行された後、スケールダウンやステップの送信などのクラスタ操作で問題が発生する可能性があります。期間は、定義した Kerberos チケットの有効期間によって異なります。スケールダウンの問題は、送信した自動スケールダウンリクエストと明示的なスケールダウンリクエストの両方に影響します。追加のクラスター操作も影響を受ける可能性があります。

    回避方法:

    • SSH としてhadoop複数のマスターノードを持つ EMR クラスターのリードマスターノードにログインします。

    • 以下のコマンドを実行して、の Kerberos チケットを更新します。hadoopユーザー。

      kinit -kt <keytab_file> <principal>

      通常、キータブファイルはにあります。/etc/hadoop.keytabであり、校長はという形式になります。hadoop/<hostname>@<REALM>

    注記

    この回避策は、Kerberos チケットの有効期間に有効です。この期間はデフォルトで 10 時間ですが、Kerberos の設定で設定できます。Kerberos チケットの有効期限が切れたら、上記のコマンドを再実行する必要があります。

リリース 5.24.0

次のリリースノートには、Amazon EMR リリースバージョン 5.24.0 に関する情報が含まれています。5.23.0 からの変更が含まれています。

初回リリース日: 2019 年 6 月 11 日

最終更新日: 2019 年 8 月 5 日

Upgrades

  • Flink 1.8.0

  • Hue 4.4.0

  • JupyterHub 0.9.6

  • Livy 0.6.0

  • MxNet 1.4.0

  • Presto 0.219

  • Spark 2.4.2

  • AWS SDK for Java1.11.546

  • コネクターおよびドライバ:

    • DynamoDB Connector 4.9.0

    • MariaDB Connector 2.4.1

    • Amazon Redshift JDBC ドライバー 1.2.27.1051

変更、機能強化、および解決された問題

  • Spark

    • パーティションを動的にプルーニングするための最適化を追加しました。この最適化はデフォルトで無効になっています。これを有効にするには、Spark 構成パラメータを設定します。spark.sql.dynamicPartitionPruning.enabledtrue

    • のパフォーマンスが向上しました。INTERSECTクエリを実行します。この最適化はデフォルトで無効になっています。これを有効にするには、Spark 構成パラメータを設定します。spark.sql.optimizer.distinctBeforeIntersect.enabledtrue

    • 同じリレーションを使用する集計でスカラーサブクエリをフラット化するための最適化が追加されました。この最適化はデフォルトで無効になっています。これを有効にするには、Spark 構成パラメータを設定します。spark.sql.optimizer.flattenScalarSubqueriesWithAggregates.enabledtrue

    • ステージ全体のコード生成が改善されました。

    詳細については、「」を参照してください。Spark のパフォーマンスの最適化

  • セキュリティ設定におけるローカルディスクの暗号化と S3 暗号化の改善 (2019 年 8 月 5 日)

    • セキュリティ設定で、Amazon S3 暗号化設定をローカルディスク暗号化設定から分離しました。

    • EBS 暗号化を有効にするオプションが追加されました。このオプションを選択すると、ストレージボリュームに加えてルートデバイスボリュームが暗号化されます。以前のバージョンでは、ルートデバイスボリュームを暗号化するためにカスタム AMI を使用する必要がありました。

    • 詳細については、「」を参照してください。暗号化オプションAmazon EMR 管理ガイド

既知の問題

  • 複数のマスターノードと Kerberos 認証を使用するクラスターの既知の問題

    EMR リリース 5.20.0 以降で複数のマスターノードと Kerberos 認証を使用してクラスタを実行すると、クラスタがしばらく実行された後、スケールダウンやステップの送信などのクラスタ操作で問題が発生する可能性があります。期間は、定義した Kerberos チケットの有効期間によって異なります。スケールダウンの問題は、送信した自動スケールダウンリクエストと明示的なスケールダウンリクエストの両方に影響します。追加のクラスター操作も影響を受ける可能性があります。

    回避方法:

    • SSH としてhadoop複数のマスターノードを持つ EMR クラスターのリードマスターノードにログインします。

    • 以下のコマンドを実行して、の Kerberos チケットを更新します。hadoopユーザー。

      kinit -kt <keytab_file> <principal>

      通常、キータブファイルはにあります。/etc/hadoop.keytabであり、校長はという形式になります。hadoop/<hostname>@<REALM>

    注記

    この回避策は、Kerberos チケットの有効期間に有効です。この期間はデフォルトで 10 時間ですが、Kerberos の設定で設定できます。Kerberos チケットの有効期限が切れたら、上記のコマンドを再実行する必要があります。

リリース 5.23.0

次のリリースノートには、Amazon EMR リリースバージョン 5.23.0 に関する情報が含まれています。5.22.0 からの変更が含まれています。

初回リリース日: 2019 年 4 月 01 日

最終更新日: 2019 年 4 月 30 日

Upgrades

  • AWS SDK for Java1.11.519

新機能

  • (2019 年 4 月 30 日) Amazon EMR 5.23.0 以降では、YARN リソースマネージャー、HDFS 名前ノード、Spark、Hive、Ganglia といったアプリケーションの高可用性をサポートできるように、3 つのマスターノードでクラスターを起動できます。マスターノードは、現在この機能による潜在的な単一障害点ではありません。マスターノードのいずれかに障害が発生した場合、Amazon EMR は、自動的にスタンバイマスターノードにフェイルオーバーされ、障害が発生したマスターノードを同じ構成およびブートストラップアクションを持つ新しいマスターノードに置き換えられます。詳細については、「」を参照してください。マスターノードの計画と設定

  • インスタンスメタデータサービス (IMDS) V2 サポートステータス: Amazon EMR 5.23.1、5.27.1 および 5.32 以降のコンポーネントは、すべての IMDS 呼び出しに IMDSv2 を使用します。アプリケーションコード内の IMDS 呼び出しでは、IMDSv1 と IMDSv2 の両方を使用するか、セキュリティを強化するために IMDSv2 のみを使用するように設定することができます。他の 5.x EMR リリースでは、IMDSv1 を無効にすると、クラスタの起動に失敗します。

既知の問題

  • Tez UI (Amazon EMR リリースバージョン 5.26.0 で修正されました)

    Tez UI は、複数のマスターノードを持つ EMR クラスターでは機能しません。

  • 色相 (Amazon EMR リリースバージョン 5.24.0 で修正されました)

    • Amazon EMR で実行されている Hue は Solr をサポートしていません。Amazon EMR リリースバージョン 5.20.0 以降、設定ミスの問題により Solr が有効になり、次のような無害なエラーメッセージが表示されます。

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr エラーメッセージが表示されないようにするには、次の手順を実行します。

      1. SSH を使用してマスターノードのコマンドラインConnect。

      2. テキストエディタを使用して、hue.ini ファイルを開きます。例:

        sudo vim /etc/hue/conf/hue.ini

      3. 「appblacklist」という用語を検索し、行を次のように変更します。

        appblacklist = search
      4. 次の例に示すように、変更を保存し、Hue を再起動します。

        sudo stop hue; sudo start hue
  • 複数のマスターノードと Kerberos 認証を使用するクラスターの既知の問題

    EMR リリース 5.20.0 以降で複数のマスターノードと Kerberos 認証を使用してクラスタを実行すると、クラスタがしばらく実行された後、スケールダウンやステップの送信などのクラスタ操作で問題が発生する可能性があります。期間は、定義した Kerberos チケットの有効期間によって異なります。スケールダウンの問題は、送信した自動スケールダウンリクエストと明示的なスケールダウンリクエストの両方に影響します。追加のクラスター操作も影響を受ける可能性があります。

    回避方法:

    • SSH としてhadoop複数のマスターノードを持つ EMR クラスターのリードマスターノードにログインします。

    • 以下のコマンドを実行して、の Kerberos チケットを更新します。hadoopユーザー。

      kinit -kt <keytab_file> <principal>

      通常、キータブファイルはにあります。/etc/hadoop.keytabであり、校長はという形式になります。hadoop/<hostname>@<REALM>

    注記

    この回避策は、Kerberos チケットの有効期間に有効です。この期間はデフォルトで 10 時間ですが、Kerberos の設定で設定できます。Kerberos チケットの有効期限が切れたら、上記のコマンドを再実行する必要があります。

リリース 5.22.0

次のリリースノートには、Amazon EMR リリースバージョン 5.220 に関する情報が含まれています。5.21.0 からの変更が含まれています。

重要

Amazon EMR リリースバージョン 5.22.0 以降、Amazon EMR ではAWS署名バージョン 4 は、Amazon S3 へのリクエストを認証する専用です。以前のバージョンの Amazon EMR リリースではAWS場合によっては、署名バージョン 4 が排他的に使用されていることをリリースノートに示していない限り、署名バージョン 2。詳細については、「」を参照してください。リクエストの認証 (AWS署名バージョン 4)およびリクエストの認証 (AWS署名バージョン 2)Amazon Simple Storage Service 開発者ガイド

初回リリース日: 2019 年 3 月 20 日

Upgrades

  • Flink 1.7.1

  • HBase 1.4.9

  • Oozie 5.1.0

  • Phoenix 4.14.1

  • Zeppelin 0.8.1

  • コネクターおよびドライバ:

    • DynamoDB Connector 4.8.0

    • MariaDB Connector 2.6

    • Amazon Redshift JDBC ドライバー 1.2.20.1043

新機能

  • EBS 専用ストレージを使用した EC2 インスタンスタイプのデフォルトの EBS 設定を修正しました。Amazon EMR リリースバージョン 5.22.0 以降を使用してクラスターを作成する場合、デフォルトの EBS ストレージ量は、インスタンスのサイズに基づいて増加します。さらに、増加したストレージを複数のボリュームに分割することで、IOPS のパフォーマンスも向上しました。別の EBS インスタンスストレージ設定を使用する場合は、EMR クラスターを作成する際、または既存のクラスターをノードに追加する際に指定することができます。各インスタンスタイプに対してデフォルトで割り当てられるストレージ量とボリューム数の詳細については、「」を参照してください。インスタンスのデフォルト EBS ストレージAmazon EMR 管理ガイド

変更、機能強化、および解決された問題

  • Spark

    • YARN 上の Spark の新しい設定プロパティが導入されました。spark.yarn.executor.memoryOverheadFactor。このプロパティの値は、メモリー・オーバーヘッドの値をエグゼキュータ・メモリーに対するパーセンテージに設定するスケール係数で、最低 384 MB です。メモリオーバーヘッドが明示的に設定されている場合spark.yarn.executor.memoryOverheadの場合、このプロパティは一切影響を与えません。デフォルト値は です。0.187518.75%を表す。Amazon EMR のこのデフォルトは、Spark によって内部的に設定された 10% のデフォルトよりも、エグゼキュータのメモリオーバーヘッドのために YARN コンテナに余分なスペースを残します。Amazon EMR のデフォルトの 18.75% は、TPC-DS ベンチマークでのメモリ関連の障害が経験的に少なくなりました。

    • バックポートSPARK-26316パフォーマンスを向上させます。

  • Amazon EMR バージョン 5.19.0、5.20.0、および 5.21.0 では、YARN ノードラベルは HDFS ディレクトリに保存されます。状況によっては、コアノードの起動が遅延し、クラスターのタイムアウトと起動のエラーが発生することがあります。Amazon EMR 5.22.0 以降、この問題は解決されています。YARN ノードラベルは各クラスターノードのローカルディスクに保存され、HDFS への依存を回避します。

既知の問題

  • 色相 (Amazon EMR リリースバージョン 5.24.0 で修正されました)

    • Amazon EMR で実行されている Hue は Solr をサポートしていません。Amazon EMR リリースバージョン 5.20.0 以降、設定ミスの問題により Solr が有効になり、次のような無害なエラーメッセージが表示されます。

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr エラーメッセージが表示されないようにするには、次の手順を実行します。

      1. SSH を使用してマスターノードのコマンドラインConnect。

      2. テキストエディタを使用して、hue.ini ファイルを開きます。例:

        sudo vim /etc/hue/conf/hue.ini

      3. 「appblacklist」という用語を検索し、行を次のように変更します。

        appblacklist = search
      4. 次の例に示すように、変更を保存し、Hue を再起動します。

        sudo stop hue; sudo start hue
  • 複数のマスターノードと Kerberos 認証を使用するクラスターの既知の問題

    EMR リリース 5.20.0 以降で複数のマスターノードと Kerberos 認証を使用してクラスタを実行すると、クラスタがしばらく実行された後、スケールダウンやステップの送信などのクラスタ操作で問題が発生する可能性があります。期間は、定義した Kerberos チケットの有効期間によって異なります。スケールダウンの問題は、送信した自動スケールダウンリクエストと明示的なスケールダウンリクエストの両方に影響します。追加のクラスター操作も影響を受ける可能性があります。

    回避方法:

    • SSH としてhadoop複数のマスターノードを持つ EMR クラスターのリードマスターノードにログインします。

    • 以下のコマンドを実行して、の Kerberos チケットを更新します。hadoopユーザー。

      kinit -kt <keytab_file> <principal>

      通常、キータブファイルはにあります。/etc/hadoop.keytabであり、校長はという形式になります。hadoop/<hostname>@<REALM>

    注記

    この回避策は、Kerberos チケットの有効期間に有効です。この期間はデフォルトで 10 時間ですが、Kerberos の設定で設定できます。Kerberos チケットの有効期限が切れたら、上記のコマンドを再実行する必要があります。

リリース 5.21.1

次のリリースノートには、Amazon EMR リリースバージョン 5.21.1 に関する情報が含まれています。5.21.0 からの変更が含まれています。

初回リリース日: 2019 年 7 月 18 日

変更、機能強化、および解決された問題

  • EMR 用 defaultAmazon Linux AMI を更新し、TCP SACK サービス拒否の問題など、重要な Linux カーネルのセキュリティ更新プログラムを含むように更新しました (AWS-005).

既知の問題

  • 複数のマスターノードと Kerberos 認証を使用するクラスターの既知の問題

    EMR リリース 5.20.0 以降で複数のマスターノードと Kerberos 認証を使用してクラスタを実行すると、クラスタがしばらく実行された後、スケールダウンやステップの送信などのクラスタ操作で問題が発生する可能性があります。期間は、定義した Kerberos チケットの有効期間によって異なります。スケールダウンの問題は、送信した自動スケールダウンリクエストと明示的なスケールダウンリクエストの両方に影響します。追加のクラスター操作も影響を受ける可能性があります。

    回避方法:

    • SSH としてhadoop複数のマスターノードを持つ EMR クラスターのリードマスターノードにログインします。

    • 以下のコマンドを実行して、の Kerberos チケットを更新します。hadoopユーザー。

      kinit -kt <keytab_file> <principal>

      通常、キータブファイルはにあります。/etc/hadoop.keytabであり、校長はという形式になります。hadoop/<hostname>@<REALM>

    注記

    この回避策は、Kerberos チケットの有効期間に有効です。この期間はデフォルトで 10 時間ですが、Kerberos の設定で設定できます。Kerberos チケットの有効期限が切れたら、上記のコマンドを再実行する必要があります。

リリース 5.21.0

次のリリースノートには、Amazon EMR リリースバージョン 5.21.0 に関する情報が含まれています。5.20.0 からの変更が含まれています。

初回リリース日: 2019 年 2 月 18 日

最終更新日: 2019 年 4 月 3 日

Upgrades

  • Flink 1.7.0

  • Presto 0.215

  • AWS SDK for Java1.11.479

新機能

  • (2019 年 4 月 3 日) Amazon EMR バージョン 5.21.0 以降では、実行中のクラスター内のインスタンスグループごとに、クラスター設定を上書きして追加の設定分類を指定できます。これを行うには、Amazon EMR コンソールを使用して、AWS Command Line Interface(AWS CLI)、またはAWSSDK. 詳細については、「」を参照してください。実行中のクラスター内のインスタンスグループの設定を指定する

変更、機能強化、および解決された問題

既知の問題

  • 色相 (Amazon EMR リリースバージョン 5.24.0 で修正されました)

    • Amazon EMR で実行されている Hue は Solr をサポートしていません。Amazon EMR リリースバージョン 5.20.0 以降、設定ミスの問題により Solr が有効になり、次のような無害なエラーメッセージが表示されます。

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr エラーメッセージが表示されないようにするには、次の手順を実行します。

      1. SSH を使用してマスターノードのコマンドラインConnect。

      2. テキストエディタを使用して、hue.ini ファイルを開きます。例:

        sudo vim /etc/hue/conf/hue.ini

      3. 「appblacklist」という用語を検索し、行を次のように変更します。

        appblacklist = search
      4. 次の例に示すように、変更を保存し、Hue を再起動します。

        sudo stop hue; sudo start hue
  • Tez

    • この問題は Amazon EMR 5.22.0 で修正されました。

      http://でTez UIに接続するとmasterDNS:8080/tez-ui がクラスタマスターノードへの SSH 接続を介して、「アダプタの操作に失敗しました-タイムラインサーバー (ATS) が届きません。それがダウンしている、または CORS が有効になっていない」と表示されるか、タスクが予期せずN/Aと表示される。

      これは、Tez UI がを使用して YARN タイムラインサーバーにリクエストを行ったことが原因です。localhostマスターノードのホスト名ではなく。回避策として、スクリプトをブートストラップアクションまたはステップとして実行できます。スクリプトは Tez のホスト名を更新します。configs.envファイルを開きます。スクリプトの詳細と場所については、『』を参照してください。ブートストラップ手順

  • Amazon EMR バージョン 5.19.0、5.20.0、および 5.21.0 では、YARN ノードラベルは HDFS ディレクトリに保存されます。状況によっては、コアノードの起動が遅延し、クラスターのタイムアウトと起動のエラーが発生することがあります。Amazon EMR 5.22.0 以降、この問題は解決されています。YARN ノードラベルは各クラスターノードのローカルディスクに保存され、HDFS への依存を回避します。

  • 複数のマスターノードと Kerberos 認証を使用するクラスターの既知の問題

    EMR リリース 5.20.0 以降で複数のマスターノードと Kerberos 認証を使用してクラスタを実行すると、クラスタがしばらく実行された後、スケールダウンやステップの送信などのクラスタ操作で問題が発生する可能性があります。期間は、定義した Kerberos チケットの有効期間によって異なります。スケールダウンの問題は、送信した自動スケールダウンリクエストと明示的なスケールダウンリクエストの両方に影響します。追加のクラスター操作も影響を受ける可能性があります。

    回避方法:

    • SSH としてhadoop複数のマスターノードを持つ EMR クラスターのリードマスターノードにログインします。

    • 以下のコマンドを実行して、の Kerberos チケットを更新します。hadoopユーザー。

      kinit -kt <keytab_file> <principal>

      通常、キータブファイルはにあります。/etc/hadoop.keytabであり、校長はという形式になります。hadoop/<hostname>@<REALM>

    注記

    この回避策は、Kerberos チケットの有効期間に有効です。この期間はデフォルトで 10 時間ですが、Kerberos の設定で設定できます。Kerberos チケットの有効期限が切れたら、上記のコマンドを再実行する必要があります。

リリース 5.20.0

次のリリースノートには、Amazon EMR リリースバージョン 5.20.0 に関する情報が含まれています。5.19.0 からの変更が含まれています。

初回リリース日: 2018 年 12 月 18 日

最終更新日: 2019 年 1 月 22 日

Upgrades

  • Flink 1.6.2

  • HBase 1.4.8

  • Hive 2.3.4

  • Hue 4.3.0

  • MXNet 1.3.1

  • Presto 0.214

  • Spark 2.4.0

  • TensorFlow 1.12.0

  • Tez 0.9.1

  • AWS SDK for Java1.11.461

新機能

  • (2019 年 1 月 22 日) Amazon EMR の Kerberos は、外部 KDC からのプリンシパルの認証をサポートするように改善されました。これにより、複数のクラスターが単一の外部 KDC を共有できるため、プリンシパル管理が集中化されます。さらに、外部 KDC は Active Directory ドメインとのクロス領域信頼を得られます。これにより、すべてのクラスターが Active Directory からプリンシパルを認証できます。詳細については、「」を参照してください。Kerberos 認証を使用するAmazon EMR 管理ガイド

変更、機能強化、および解決された問題

  • Amazon EMR 用のデフォルトアマゾン Linux AMI

    • Python3 パッケージは python 3.4 から 3.6 にアップグレードされました。

  • EMRFS S3 向けに最適化されたコミッター

  • Hive

  • スパークとハイブでGlue

    • EMR 5.20.0 以降では、がメタストアとして使用されると、Spark と Hive の並列パーティションプルーニングが自動的に有効になります。この変更により、複数の要求を並列に実行してパーティションを取得できるため、クエリ計画時間が大幅に短縮されます。同時に実行できるセグメントの総数は、1 ~ 10 の範囲です。デフォルト値は 5 です。これは推奨設定です。プロパティを指定することで変更できます。aws.glue.partition.num.segmentshive-site設定分類。スロットリングが発生した場合は、値を 1 に変更して機能をオフにすることができます。詳細については、「」を参照してください。AWSGlue セグメント構造

既知の問題

  • 色相 (Amazon EMR リリースバージョン 5.24.0 で修正されました)

    • Amazon EMR で実行されている Hue は Solr をサポートしていません。Amazon EMR リリースバージョン 5.20.0 以降、設定ミスの問題により Solr が有効になり、次のような無害なエラーメッセージが表示されます。

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr エラーメッセージが表示されないようにするには、次の手順を実行します。

      1. SSH を使用してマスターノードのコマンドラインConnect。

      2. テキストエディタを使用して、hue.ini ファイルを開きます。例:

        sudo vim /etc/hue/conf/hue.ini

      3. 「appblacklist」という用語を検索し、行を次のように変更します。

        appblacklist = search
      4. 次の例に示すように、変更を保存し、Hue を再起動します。

        sudo stop hue; sudo start hue
  • Tez

    • この問題は Amazon EMR 5.22.0 で修正されました。

      http://でTez UIに接続するとmasterDNS:8080/tez-ui がクラスタマスターノードへの SSH 接続を介して、「アダプタの操作に失敗しました-タイムラインサーバー (ATS) が届きません。それがダウンしている、または CORS が有効になっていない」と表示されるか、タスクが予期せずN/Aと表示される。

      これは、Tez UI がを使用して YARN タイムラインサーバーにリクエストを行ったことが原因です。localhostマスターノードのホスト名ではなく。回避策として、スクリプトをブートストラップアクションまたはステップとして実行できます。スクリプトは Tez のホスト名を更新します。configs.envファイルを開きます。スクリプトの詳細と場所については、『』を参照してください。ブートストラップ手順

  • Amazon EMR バージョン 5.19.0、5.20.0、および 5.21.0 では、YARN ノードラベルは HDFS ディレクトリに保存されます。状況によっては、コアノードの起動が遅延し、クラスターのタイムアウトと起動のエラーが発生することがあります。Amazon EMR 5.22.0 以降、この問題は解決されています。YARN ノードラベルは各クラスターノードのローカルディスクに保存され、HDFS への依存を回避します。

  • 複数のマスターノードと Kerberos 認証を使用するクラスターの既知の問題

    EMR リリース 5.20.0 以降で複数のマスターノードと Kerberos 認証を使用してクラスタを実行すると、クラスタがしばらく実行された後、スケールダウンやステップの送信などのクラスタ操作で問題が発生する可能性があります。期間は、定義した Kerberos チケットの有効期間によって異なります。スケールダウンの問題は、送信した自動スケールダウンリクエストと明示的なスケールダウンリクエストの両方に影響します。追加のクラスター操作も影響を受ける可能性があります。

    回避方法:

    • SSH としてhadoop複数のマスターノードを持つ EMR クラスターのリードマスターノードにログインします。

    • 以下のコマンドを実行して、の Kerberos チケットを更新します。hadoopユーザー。

      kinit -kt <keytab_file> <principal>

      通常、キータブファイルはにあります。/etc/hadoop.keytabであり、校長はという形式になります。hadoop/<hostname>@<REALM>

    注記

    この回避策は、Kerberos チケットの有効期間に有効です。この期間はデフォルトで 10 時間ですが、Kerberos の設定で設定できます。Kerberos チケットの有効期限が切れたら、上記のコマンドを再実行する必要があります。

リリース 5.19.0

次のリリースノートには、Amazon EMR リリースバージョン 5.19.0 に関する情報が含まれています。5.18.0 からの変更が含まれています。

初回リリース日: 2018 年 11 月 7 日

最終更新日: 2018 年 11 月 19 日

Upgrades

  • Hadoop 2.8.5

  • Flink 1.6.1

  • JupyterHub 0.9.4

  • MXNet 1.3.0

  • Presto 0.212

  • TensorFlow 1.11.0

  • ZooKeeper 3.4.13

  • AWS SDK for Java1.11.433

新機能

  • (2018年11月19日)EMR Notebooksは、Jupyter Notebookをベースとした管理環境である。PySpark、Spark SQL、Spark R、および Scala の Spark マジックカーネルをサポートします。EMR Notebooks は、Amazon EMR リリースバージョン 5.18.0 以降を使用して作成されたクラスターで使用できます。詳細については、「」を参照してください。EMR ノートブックの使用Amazon EMR 管理ガイド

  • EMRFS S3 向けに最適化されたコミッターは、Spark と EMRFS を使用して Parquet ファイルを書き込む場合に利用できます。このコミッターは書き込みパフォーマンスを向上させます。詳細については、「」を参照してくださいEMRFS S3 向けに最適化されたコミッターの使用

変更、機能強化、および解決された問題

  • YARN

  • Amazon EMR 用のデフォルトアマゾン Linux AMI

    • ruby18,php56, およびgcc48はデフォルトではインストールされません。これらは、必要に応じてを使用してインストールできます。yum

    • aws-java-SDK Ruby Gem はデフォルトでインストールされなくなりました。これは、を使用してインストールできます。gem install aws-java-sdk必要に応じて。特定のコンポーネントをインストールすることもできます。例えば、gem install aws-java-sdk-s3

既知の問題

  • EMR ノートブック—状況によっては、複数のノートブックエディタが開いているときに、ノートブックエディタがクラスタに接続できないように見えることがあります。このような場合は、ブラウザの Cookie をクリアしてから、ノートブックエディタを再度開きます。

  • CloudWatch ContainerPending メトリックスと自動スケーリング— (5.20.0 で修正) Amazon EMR は、次の場合に負の値を放出することがありますContainerPending。もしContainerPendingが自動スケーリングルールで使用されている場合、自動スケーリングは期待どおりに動作しません。は使用しないでください。ContainerPending自動スケーリング。

  • Amazon EMR バージョン 5.19.0、5.20.0、および 5.21.0 では、YARN ノードラベルは HDFS ディレクトリに保存されます。状況によっては、コアノードの起動が遅延し、クラスターのタイムアウトと起動のエラーが発生することがあります。Amazon EMR 5.22.0 以降、この問題は解決されています。YARN ノードラベルは各クラスターノードのローカルディスクに保存され、HDFS への依存を回避します。

リリース 5.18.0

次のリリースノートには、Amazon EMR リリースバージョン 5.18.0 に関する情報が含まれています。5.17.0 からの変更が含まれています。

初回リリース日: 2018 年 10 月 24 日

Upgrades

  • Flink 1.6.0

  • HBase 1.4.7

  • Presto 0.210

  • Spark 2.3.2

  • Zeppelin 0.8.0

新機能

  • Amazon EMR 5.18.0 以降では、Amazon EMR アーティファクトリポジトリを使用して、特定の Amazon EMR リリースバージョンで利用可能なライブラリおよび依存関係の正確なバージョンに対してジョブコードをビルドできます。詳細については、「」を参照してくださいAmazon EMR アーティファクトリポジトリを使用した依存関係の確認

変更、機能強化、および解決された問題

リリース 5.17.1

次のリリースノートには、Amazon EMR リリースバージョン 5.17.1 に関する情報が含まれています。5.17.0 からの変更が含まれています。

初回リリース日: 2019 年 7 月 18 日

変更、機能強化、および解決された問題

  • EMR 用 defaultAmazon Linux AMI を更新し、TCP SACK サービス拒否の問題など、重要な Linux カーネルのセキュリティ更新プログラムを含むように更新しました (AWS-005).

リリース 5.17.0

次のリリースノートには、Amazon EMR リリースバージョン 5.17.0 に関する情報が含まれています。5.16.0 からの変更が含まれています。

初回リリース日: 2018 年 8 月 30 日

Upgrades

  • Flink 1.5.2

  • HBase 1.4.6

  • Presto 0.206

新機能

  • TensorFlow のサポートが追加されました。詳細については、「」を参照してくださいTensorFlow

変更、機能強化、および解決された問題

既知の問題

  • Livy がインストールされた Kerberized クラスターを作成すると、簡易認証が有効になっていないというエラーで Livy は失敗します。Livy サーバーを再起動すると、問題は解決されます。回避策として、クラスターの作成時に実行されるステップを追加します。sudo restart livy-serverマスターノードの。

  • 作成日が 2018-08-11 の Amazon Linux AMI に基づくカスタム Amazon Linux AMI を使用すると、Oozie サーバーの起動に失敗します。Oozie を使用する場合は、作成日が異なるAmazon Linux AMI ID に基づいてカスタム AMI を作成します。以下を使用できますAWS CLIコマンドを使用すると、ベースとして適切な Amazon Linux AMI を選択できるように、リリース日とともに 2018.03 バージョンのすべての HVM Amazon Linux AMI のイメージ ID のリストが返されます。MyRegion をリージョン識別子 (us-west-2 など) に置き換えます。

    aws ec2 --region MyRegion describe-images --owner amazon --query 'Images[?Name!=`null`]|[?starts_with(Name, `amzn-ami-hvm-2018.03`) == `true`].[CreationDate,ImageId,Name]' --output text | sort -rk1

リリース 5.16.0

次のリリースノートには、Amazon EMR リリースバージョン 5.16.0 に関する情報が含まれています。5.15.0 からの変更が含まれています。

初回リリース日: 2018 年 7 月 19 日

Upgrades

  • Hadoop 2.8.4

  • Flink 1.5.0

  • Livy 0.5.0

  • MXNet 1.2.0

  • Phoenix 4.14.0

  • Presto 0.203

  • Spark 2.3.1

  • AWS SDK for Java1.11.336

  • CUDA 9.2

  • Redshift JDBC ドライバー 1.2.15.1025

変更、機能強化、および解決された問題

  • HBase

  • Presto

  • Spark

    • Apache Spark バージョン 2.3.1、Amazon EMR リリースバージョン 5.16.0 以降で利用可能、アドレスCVE-8024およびCVE-1334。以前のバージョンの Spark は、Spark バージョン 2.3.1 以降に移行することをお勧めします。

既知の問題

  • このリリースバージョンでは、c1.medium または m1.small インスタンスタイプはサポートされていません。これらのインスタンスタイプのいずれかを使用するクラスターは起動できません。回避策として、別のインスタンスタイプを指定するか、別のリリースバージョンを使用します。

  • Livy がインストールされた Kerberized クラスターを作成すると、簡易認証が有効になっていないというエラーで Livy は失敗します。Livy サーバーを再起動すると、問題は解決されます。回避策として、クラスターの作成時に実行されるステップを追加します。sudo restart livy-serverマスターノードの。

  • マスターノードが再起動またはインスタンスコントローラーを再起動すると、CloudWatch メトリックスは収集されず、自動スケーリング機能は Amazon EMR バージョン 5.14.0、5.15.0、または 5.16.0 で使用できなくなります。この問題は、Amazon EMR バージョン 5.17.0 で修正されています。

リリース 5.15.0

次のリリースノートには、Amazon EMR リリースバージョン 5.15.0 に関する情報が含まれています。5.14.0 からの変更が含まれています。

初回リリース日: 2018 年 6 月 21 日

Upgrades

  • HBase を 1.4.4 にアップグレードしました

  • Hive を 2.3.3 にアップグレードしました

  • Hue を 4.2.0 にアップグレードしました

  • Oozie を 5.0.0 にアップグレードしました

  • Zookeeper を3.4.12 にアップグレードしました

  • アップグレードAWS1.11.333にSDK

変更、機能強化、および解決された問題

  • Hive

  • Hue

    • Kerberos が有効になっているときに Livy で正しく認証されるように Hue を更新しました。Amazon EMR で Kerberos を使用する場合、Livy がサポートされるようになりました。

  • JupyterHub

    • Amazon EMR がデフォルトで LDAP クライアントライブラリをインストールするように JupyterHub を更新しました。

    • 自己署名証明書を生成するスクリプトのエラーが修正されました。この問題の詳細については、「」を参照してください。リリースノート

既知の問題

  • このリリースバージョンでは、c1.medium または m1.small インスタンスタイプはサポートされていません。これらのインスタンスタイプのいずれかを使用するクラスターは起動できません。回避策として、別のインスタンスタイプを指定するか、別のリリースバージョンを使用します。

  • マスターノードが再起動またはインスタンスコントローラーを再起動すると、CloudWatch メトリックスは収集されず、自動スケーリング機能は Amazon EMR バージョン 5.14.0、5.15.0、または 5.16.0 で使用できなくなります。この問題は、Amazon EMR バージョン 5.17.0 で修正されています。

リリース 5.14.1

次のリリースノートには、Amazon EMR リリースバージョン 5.14.1 に関する情報が含まれています。5.14.0 からの変更が含まれています。

初回リリース日: 2018 年 10 月 17 日

潜在的なセキュリティの脆弱性に対処するために Amazon EMR のデフォルトの AMI を更新しました。

リリース 5.14.0

次のリリースノートには、Amazon EMR リリースバージョン 5.14.0 に関する情報が含まれています。5.13.0 からの変更が含まれています。

初回リリース日: 2018 年 6 月 4 日

Upgrades

  • Apache Flink を1.4.2 にアップグレードしました

  • Apache MXNet を1.1.0 にアップグレードしました

  • Apache Sqoop を1.4.7 にアップグレードしました

新機能

  • JupyterHub のサポートが追加されました。詳細については、「」を参照してくださいJupyterHub

変更、機能強化、および解決された問題

  • EMRFS

    • Amazon S3 へのリクエストの UserAgent 文字列が更新され、呼び出し元のプリンシパルのユーザーおよびグループ情報が含まれています。これはAWS CloudTrailより包括的なリクエスト追跡のためのログ。

  • HBase

    • IncluHBASE-20447。これは、特にスプリットリージョンでキャッシュの問題を引き起こす可能性のある問題に対処します。

  • MXNet

    • OpenCV ライブラリを追加しました。

  • Spark

    • Spark が EMRFS を使用して Amazon S3 の場所に Parquet ファイルを書き込むと、FileOutputCommitter アルゴリズムがバージョン 1 ではなくバージョン 2 を使用するように更新されました。これにより、名前変更の数が減り、アプリケーションのパフォーマンスが向上します。この変更は、以下には影響しません。

      • Spark以外のアプリケーション。

      • HDFS などの他のファイルシステムに書き込むアプリケーション (バージョン 1 の FileOutputCommitter をまだ使用している)。

      • テキストや csv など、EMRFS ダイレクト書き込みを既に使用している他の出力形式を使用するアプリケーション。

既知の問題

  • JupyterHub

    • クラスタの作成時に、構成分類を使用して JupyterHub および個々の Jupyter ノートブックをセットアップすることはできません。各ユーザーの jupyterhub_config.py ファイルと jupyter_notebook_config.py ファイルを手動で編集します。詳細については、「」を参照してくださいJupyterHub の設定

    • JupyterHub がプライベートサブネット内のクラスターで起動できず、メッセージが表示されないError: ENOENT: no such file or directory, open '/etc/jupyter/conf/server.crt' 。これは、自己署名証明書を生成するスクリプトのエラーが原因で発生します。自己署名証明書を生成するには、次の回避策を使用します。すべてのコマンドは、マスターノードに接続しているときに実行されます。

      1. 証明書生成スクリプトをコンテナからマスターノードにコピーします。

        sudo docker cp jupyterhub:/tmp/gen_self_signed_cert.sh ./
      2. テキストエディタを使用して 23 行目を変更し、パブリックホスト名をローカルホスト名に変更します。

        local hostname=$(curl -s $EC2_METADATA_SERVICE_URI/local-hostname)
      3. スクリプトを実行して、自己署名証明書を生成します。

        sudo bash ./gen_self_signed_cert.sh
      4. スクリプトが生成する証明書ファイルを/etc/jupyter/conf/ディレクトリ:

        sudo mv /tmp/server.crt /tmp/server.key /etc/jupyter/conf/

      以下の操作を実行できます。tailザ・jupyter.logファイルを使用して、JupyterHub が再起動し、200 レスポンスコードを返していることを確認します。例:

      tail -f /var/log/jupyter/jupyter.log

      これにより、次のようなレスポンスが返されます。

      # [I 2018-06-14 18:56:51.356 JupyterHub app:1581] JupyterHub is now running at https://:9443/ # 19:01:51.359 - info: [ConfigProxy] 200 GET /api/routes
  • マスターノードが再起動またはインスタンスコントローラーを再起動すると、CloudWatch メトリックスは収集されず、自動スケーリング機能は Amazon EMR バージョン 5.14.0、5.15.0、または 5.16.0 で使用できなくなります。この問題は、Amazon EMR バージョン 5.17.0 で修正されています。

リリース 5.13.0

次のリリースノートには、Amazon EMR リリースバージョン 5.13.0 に関する情報が含まれています。5.12.0 からの変更が含まれています。

Upgrades

  • Spark を 2.3.0 にアップグレードしました

  • HBase を 1.4.2 にアップグレードしました

  • Presto を 0.194 にアップグレードしました

  • 1.11.297 にアップグレード

変更、機能強化、および解決された問題

  • Hive

    • バックポートHIVE-15436。ビューのみを返すように Hive API が強化されました。

既知の問題

  • MXNet には現在 OpenCV ライブラリがありません。

リリース 5.12.2

次のリリースノートには、Amazon EMR リリースバージョン 5.12.2 に関する情報が含まれています。5.12.1 からの変更が含まれています。

初回リリース日: 2018 年 8 月 29 日

変更、機能強化、および解決された問題

  • このリリースでは、潜在的なセキュリティ脆弱性に対処しています。

リリース 5.12.1

次のリリースノートには、Amazon EMR リリースバージョン 5.12.1 に関する情報が含まれています。5.12.0 からの変更が含まれています。

初回リリース日: 2018 年 3 月 29 日

変更、機能強化、および解決された問題

  • 潜在的な脆弱性に対処するために、Amazon EMR 用 defaultAmazon Linux AMI の Amazon Linux カーネルを更新しました。

リリース 5.12.0

次のリリースノートには、Amazon EMR リリースバージョン 5.12.0 に関する情報が含まれています。5.11.1 からの変更が含まれています。

Upgrades

変更、機能強化、および解決された問題

  • Hadoop

    • -yarn.resourcemanager.decommissioning.timeoutプロパティは次のように変更されましたyarn.resourcemanager.nodemanager-graceful-decommission-timeout-secs。このプロパティを使用して、クラスタのスケールダウンをカスタマイズできます。詳細については、「」を参照してください。クラスターのスケールダウンAmazon EMR 管理ガイド

    • Hadoop CLI は、-dオプションをcp(copy) コマンド。直接コピーを指定します。これを使用して、仲介業者を作成しないようにすることができます。.COPYINGファイル。これにより、Amazon S3 間のデータのコピーが高速になります。詳細については、「」を参照してください。HADOOP-12384

  • Pig

    • 「」が追加されました。pig-env構成分類。Pig 環境プロパティの設定を簡素化します。詳細については、「」を参照してくださいアプリケーションの設定

  • Presto

    • 「」が追加されました。presto-connector-redshift設定分類。Presto で値を設定するために使用できます。redshift.properties設定ファイル。詳細については、「」を参照してください。Redshift コネクタPresto のドキュメントで、アプリケーションの設定

    • EMRFS の Presto サポートが追加され、デフォルトの設定です。以前の Amazon EMR リリースバージョンでは prestos3FileSystem が使用されていました。これが唯一のオプションでした。詳細については、「」を参照してくださいEMRFS と PrestoS3ファイルシステム設定

      注記

      Amazon EMR リリースバージョン 5.12.0 で Amazon S3 の基盤となるデータをクエリするときに、設定の問題により Presto エラーが発生することがあります。これは、Presto が構成分類値を取得できないためです。emrfs-site.xml。回避策として、emrfsサブディレクトリusr/lib/presto/plugin/hive-hadoop2/で、シンボリックリンクを作成します。usr/lib/presto/plugin/hive-hadoop2/emrfs既存のに/usr/share/aws/emr/emrfs/conf/emrfs-site.xmlファイルを実行して、プレストサーバープロセスを再起動します(sudo presto-server stop次のようになりますsudo presto-server start).

  • Spark

既知の問題

  • MXNet には OpenCV ライブラリは含まれていません。

  • デフォルトでは R がクラスターノードにインストールされていないため、カスタム AMI を使用して作成されたクラスターでは SparkR を使用できません。

リリース 5.11.3

次のリリースノートには、Amazon EMR リリースバージョン 5.11.3 に関する情報が含まれています。変更点は、5.11.2 に関連するものです。

初回リリース日: 2019 年 7 月 18 日

変更、機能強化、および解決された問題

  • EMR 用 defaultAmazon Linux AMI を更新し、TCP SACK サービス拒否の問題など、重要な Linux カーネルのセキュリティ更新プログラムを含むように更新しました (AWS-005).

リリース 5.11.2

次のリリースノートには、Amazon EMR リリースバージョン 5.11.2 に関する情報が含まれています。変更点は、5.11.1 に関連するものです。

初回リリース日: 2018 年 8 月 29 日

変更、機能強化、および解決された問題

  • このリリースでは、潜在的なセキュリティ脆弱性に対処しています。

リリース 5.11.1

次のリリースノートには、Amazon EMR バージョン 5.11.1 に関する情報が含まれています。変更点は、Amazon EMR 5.11.0 リリースに関連するものです。

初回リリース日: 2018 年 1 月 22 日

変更、機能強化、および解決された問題

  • 投機的実行(CVE-2017-5715、CVE-2017-5753、CVE-2017-5754)に関連する脆弱性に対処するために、Amazon EMR 用 defaultAmazon Linux AMI の Amazon Linux カーネルを更新しました。詳細については、「」を参照してくださいhttp://aws.amazon.com/security/security-bulletins/AWS-2018-013/

既知の問題

  • MXNet には OpenCV ライブラリは含まれていません。

  • Hive 2.3.2 では hive.compute.query.using.stats=true がデフォルト設定になっています。これにより、クエリではデータが直接ではなく既存の統計から取得されるため、混乱が生じる場合があります。たとえば、hive.compute.query.using.stats=true が設定されたテーブルの LOCATION に新しいファイルをアップロードした場合、テーブルに対して SELECT COUNT(*) クエリを実行すると、追加された行がカウントされずに、統計からカウントが返されます。

    回避策として、ANALYZE TABLE コマンドを使用して新しい統計を収集するか、hive.compute.query.using.stats=false を設定します。詳細については、Apache Hive ドキュメントの「Statistics in Hive」を参照してください。

リリース 5.11.0

次のリリースノートには、Amazon EMR バージョン 5.11.0 に関する情報が含まれています。変更点は、Amazon EMR 5.10.0 リリースに関連するものです。

Upgrades

このリリースでは、以下のアプリケーションおよびコンポーネントがアップグレードされ、以下のバージョンが含められています。

  • Hive 2.3.2

  • Spark 2.2.1

  • SDK for Java 1.11.238

新機能

  • Spark

    • spark.decommissioning.timeout.threshold 設定が追加されました。スポットインスタンス使用時の Spark 廃棄の動作が向上します。詳細については、「」を参照してくださいノードの使用停止動作の設定

    • aws-sagemaker-spark-sdk コンポーネントが Spark に追加されました。Amazon SageMaker Spark および Spark の Amazon SageMaker との統合用の関連依存関係をインストールします。Amazon SageMaker Spark を使用して、Amazon SageMaker のステージを使用した Spark 機械学習 (ML) パイプラインを作成できます。詳細については、「」を参照してください。SageMaker Spark readGitHub でAmazon SageMaker で Apache Spark を使用するAmazon SageMaker 開発者ガイド

既知の問題

  • MXNet には OpenCV ライブラリは含まれていません。

  • Hive 2.3.2 では hive.compute.query.using.stats=true がデフォルト設定になっています。これにより、クエリではデータが直接ではなく既存の統計から取得されるため、混乱が生じる場合があります。たとえば、hive.compute.query.using.stats=true が設定されたテーブルの LOCATION に新しいファイルをアップロードした場合、テーブルに対して SELECT COUNT(*) クエリを実行すると、追加された行がカウントされずに、統計からカウントが返されます。

    回避策として、ANALYZE TABLE コマンドを使用して新しい統計を収集するか、hive.compute.query.using.stats=false を設定します。詳細については、Apache Hive ドキュメントの「Statistics in Hive」を参照してください。

リリース 5.10.0

次のリリースノートには、Amazon EMR バージョン 5.10.0 に関する情報が含まれています。変更点は、Amazon EMR 5.9.0 リリースに関連するものです。

Upgrades

このリリースでは、以下のアプリケーションおよびコンポーネントがアップグレードされ、以下のバージョンが含められています。

  • AWS SDK for Java 1.11.221

  • Hive 2.3.1

  • Presto 0.187

新機能

  • Kerberos 認証のサポートが追加されました。詳細については、「」を参照してください。Kerberos 認証を使用するAmazon EMR 管理ガイド

  • Amazon S3 への EMRFS リクエストの IAM ロールのサポートを追加しました。詳細については、「」を参照してください。Amazon S3 への EMRFS リクエストの IAM ロールの設定Amazon EMR 管理ガイド

  • GPU ベースの P2 および P3 のインスタンスタイプのサポートが追加されました。詳細については、「」を参照してください。Amazon EC2 P2 インスタンスおよびAmazon EC2 P3 インスタンス。これらのインスタンスタイプには、デフォルトで NVIDIA ドライバー 384.81 および CUDA ドライバー 9.0.176 がインストールされています。

  • Apache MXNet のサポートが追加されました。

変更、機能強化、および解決された問題

  • Presto

  • Spark

    • SPARK-20640」をバックポートしました。これにより、spark.shuffle.registration.timeout プロパティおよび spark.shuffle.registration.maxAttempts プロパティを使用して、rpc タイムアウトや、シャッフル登録値の再試行回数が設定可能になりました。

    • SPARK-21549」をバックポートしました。これにより、カスタムの OutputFormat を HDFS 以外の場所に書き出す際に発生するエラーが修正されます。

  • Hadoop-13270」をバックポートしました。

  • Numpy、Scipy、Matplotlib ライブラリは、Amazon EMR AMI の基本 AMI より削除されています。アプリケーションでこれらのライブラリが必要な場合、アプリケーションリポジトリで使用できるため、ブートストラップアクションで yum install を使用してすべてのノードにインストールすることができます。

  • Amazon EMR の基本 AMI にはアプリケーション RPM パッケージがなくなったため、その RPM パッケージはクラスターノードに存在しません。カスタム AMI と Amazon EMR の基本 AMI で、Amazon S3 の RPM パッケージリポジトリを参照できるようになりました。

  • Amazon EC2 で秒単位の請求が導入されたため、デフォルトです。スケールダウン動作は になりましたタスクの完了時に終了というよりインスタンス時間で終了する。詳細については、「」を参照してください。クラスタのスケールダウンを構成する

既知の問題

  • MXNet には OpenCV ライブラリは含まれていません。

  • Hive 2.3.1 では hive.compute.query.using.stats=true がデフォルト設定になっています。これにより、クエリではデータが直接ではなく既存の統計から取得されるため、混乱が生じる場合があります。たとえば、hive.compute.query.using.stats=true が設定されたテーブルの LOCATION に新しいファイルをアップロードした場合、テーブルに対して SELECT COUNT(*) クエリを実行すると、追加された行がカウントされずに、統計からカウントが返されます。

    回避策として、ANALYZE TABLE コマンドを使用して新しい統計を収集するか、hive.compute.query.using.stats=false を設定します。詳細については、Apache Hive ドキュメントの「Statistics in Hive」を参照してください。

リリース 5.9.0

次のリリースノートには、Amazon EMR バージョン 5.9.0 に関する情報が含まれています。変更点は、Amazon EMR 5.8.0 リリースに関連するものです。

リリース日: 2017 年 10 月 5 日

最新機能更新日: 2017 年 10 月 12 日

Upgrades

このリリースでは、以下のアプリケーションおよびコンポーネントがアップグレードされ、以下のバージョンが含められています。

  • AWS SDK for Java バージョン 1.11.183

  • Flink 1.3.2

  • Hue 4.0.1

  • Pig 0.17.0

  • Presto 0.184

新機能

  • Livy サポート (バージョン 0.4.0-incubating) を追加しました。詳細については、「」を参照してくださいApache Livy

  • Spark の Hue ノートブックのサポートを追加しました。

  • i3-シリーズの Amazon EC2 インスタンスのサポートを追加しました (2017 年 10 月 12 日)。

変更、機能強化、および解決された問題

  • Spark

    • 手動のサイズ変更または自動のスケーリングポリシーのリクエストによるノードの終了処理を、Spark がより適切に行う、新しい機能のセットを追加しました。詳細については、「」を参照してくださいノードの使用停止動作の設定

    • ブロック転送サービスの転送時の暗号化には 3DES に代わり SSL を使用します。これにより AES-NI で Amazon EC2 インスタンスタイプを使用する場合のパフォーマンスが向上します。

    • SPARK-21494 を移植しました。

  • Zeppelin

  • HBase

    • パッチ HBASE-18533 を追加しました。これにより、hbase-site 設定分類を使用して、HBase BucketCache 設定の値を追加できます。

  • Hue

    • 「」を追加AWSHue の Hive クエリエディタの Glue データカタログのサポートを使用します。

    • デフォルトでは、Hue のスーパーユーザーは、Amazon EMR IAM ロールがアクセスを許可されているすべてのファイルにアクセスできます。新しく作成されたユーザーには、Amazon S3 ファイルブラウザへのアクセス許可は自動的には付与されません。filebrowser.s3_accessグループに対して有効になっているパーミッション。

  • を使用して作成された、基盤となる JSON データが作成される問題を解決しました。AWSデータカタログにアクセスできないようにGlue します。

既知の問題

  • すべてのアプリケーションがインストールされ、デフォルトの Amazon EBS ルートボリュームサイズが変更されていない場合、クラスターの起動は失敗します。回避策として、AWS CLI から aws emr create-cluster コマンドを使用し、より大きな --ebs-root-volume-size パラメータを指定します。

  • Hive 2.3.0 では hive.compute.query.using.stats=true がデフォルト設定になっています。これにより、クエリではデータが直接ではなく既存の統計から取得されるため、混乱が生じる場合があります。たとえば、hive.compute.query.using.stats=true が設定されたテーブルの LOCATION に新しいファイルをアップロードした場合、テーブルに対して SELECT COUNT(*) クエリを実行すると、追加された行がカウントされずに、統計からカウントが返されます。

    回避策として、ANALYZE TABLE コマンドを使用して新しい統計を収集するか、hive.compute.query.using.stats=false を設定します。詳細については、Apache Hive ドキュメントの「Statistics in Hive」を参照してください。

リリース 5.8.2

次のリリースノートには、Amazon EMR リリースバージョン 5.8.2 に関する情報が含まれています。5.8.1 からの変更が含まれています。

初回リリース日: 2018 年 3 月 29 日

変更、機能強化、および解決された問題

  • 潜在的な脆弱性に対処するために、Amazon EMR 用 defaultAmazon Linux AMI の Amazon Linux カーネルを更新しました。

リリース 5.8.1

次のリリースノートには、Amazon EMR バージョン 5.8.1 に関する情報が含まれています。変更点は、Amazon EMR 5.8.0 リリースに関連するものです。

初回リリース日: 2018 年 1 月 22 日

変更、機能強化、および解決された問題

  • 投機的実行(CVE-2017-5715、CVE-2017-5753、CVE-2017-5754)に関連する脆弱性に対処するために、Amazon EMR 用 defaultAmazon Linux AMI の Amazon Linux カーネルを更新しました。詳細については、「」を参照してくださいhttp://aws.amazon.com/security/security-bulletins/AWS-2018-013/

リリース 5.8.0

次のリリースノートには、Amazon EMR バージョン 5.8.0 に関する情報が含まれています。変更点は、Amazon EMR 5.7.0 リリースに関連するものです。

初回リリース日: 2017 年 8 月 10 日

最新機能更新日: 2017 年 9 月 25 日

Upgrades

このリリースでは、以下のアプリケーションおよびコンポーネントがアップグレードされ、以下のバージョンが含められています。

  • AWSSDK 1.11.160

  • Flink 1.3.1

  • Hive 2.3.0。詳細については、「」を参照してください。リリースノートで Apache Hive サイト。

  • Spark 2.2.0。詳細については、「」を参照してください。リリースノートApache Spark サイトの.

新機能

  • アプリケーション履歴の表示のサポートを追加しました (2017 年 9 月 25 日)。詳細については、「」を参照してください。アプリケーション履歴の表示Amazon EMR 管理ガイド

変更、機能強化、および解決された問題

  • との統合AWSGlue データカタログ

  • クラスター詳細の [Application history] を追加しました。これにより、YARN アプリケーションの履歴データや、Spark アプリケーションの追加の詳細を表示できます。詳細については、「」を参照してください。アプリケーションの履歴を表示するAmazon EMR 管理ガイド

  • Oozie

  • Hue

    • HUE-5859 をバックポートしました。

  • HBase

    • getMasterInitializedTime を使用して Java Management Extensions (JMX) 経由で HBase マスターサーバーの開始時間を公開するパッチを追加しました。

    • クラスターの開始時間を改善するパッチを追加しました。

既知の問題

  • すべてのアプリケーションがインストールされ、デフォルトの Amazon EBS ルートボリュームサイズが変更されていない場合、クラスターの起動は失敗します。回避策として、AWS CLI から aws emr create-cluster コマンドを使用し、より大きな --ebs-root-volume-size パラメータを指定します。

  • Hive 2.3.0 では hive.compute.query.using.stats=true がデフォルト設定になっています。これにより、クエリではデータが直接ではなく既存の統計から取得されるため、混乱が生じる場合があります。たとえば、hive.compute.query.using.stats=true が設定されたテーブルの LOCATION に新しいファイルをアップロードした場合、テーブルに対して SELECT COUNT(*) クエリを実行すると、追加された行がカウントされずに、統計からカウントが返されます。

    回避策として、ANALYZE TABLE コマンドを使用して新しい統計を収集するか、hive.compute.query.using.stats=false を設定します。詳細については、Apache Hive ドキュメントの「Statistics in Hive」を参照してください。

  • Spark— Spark を使用する場合、apppusher デーモンには、長時間実行されている Spark ジョブで数時間または数日後に発生する可能性があるファイルハンドラのリークの問題があります。この問題を修正するには、マスターノードに接続し、「sudo /etc/init.d/apppusher stop」と入力します。これにより、その apppusher デーモンが停止し、Amazon EMR は自動的に再起動します。

  • アプリケーションの履歴

    • Spark のデッドエグゼキュターの履歴データは利用できません。

    • アプリケーション履歴は、セキュリティ設定を使用してインフライト暗号化を有効にするクラスターでは利用できません。

リリース 5.7.0

次のリリースノートには、Amazon EMR 5.7.0 に関する情報が含まれています。変更点は、Amazon EMR 5.6.0 リリースに関連するものです。

リリース日: 2017 年 7 月 13 日

Upgrades

  • Flink 1.3.0

  • Phoenix 4.11.0

  • Zeppelin 0.7.2

新機能

  • クラスターの作成時に、カスタム Amazon Linux AMI を指定する機能を追加しました。詳細については、「」を参照してください。カスタム AMI の使用

変更、機能強化、および解決された問題

  • HBase

  • Presto-を設定する機能を追加しました。node.properties

  • YARN-を設定する機能を追加しました。container-log4j.properties

  • Sqoop-バックポートSQOOP-2880で、Sqoop 一時ディレクトリを設定できる引数が導入されています。

リリース 5.6.0

次のリリースノートには、Amazon EMR 5.6.0 に関する情報が含まれています。変更点は、Amazon EMR 5.5.0 リリースに関連するものです。

リリース日: 2017 年 5 月 6 日

Upgrades

  • Flink 1.2.1

  • HBase 1.3.1

  • Mahout 0.13.0。Amazon EMR バージョン 5.0 以降の Spark 2.x をサポートする最初のバージョンの Mahout です。

  • Spark 2.1.1

変更、機能強化、および解決された問題

  • Presto

    • セキュリティ設定を使って転送時の暗号化を有効にして、Presto ノード間で SSL/TLS を使った安全な通信を有効にする機能が追加されました。詳細については、「」を参照してください。転送時のデータの暗号化

    • Presto 7661 を移植しました。これにより VERBOSE オプションを EXPLAIN ANALYZE ステートメントに追加し、クエリプランについての、より詳細なレポートと低レベルの統計を作成できます。

リリース 5.5.3

次のリリースノートには、Amazon EMR リリースバージョン 5.3 に関する情報が含まれています。5.5.2 からの変更が含まれています。

初回リリース日: 2018 年 8 月 29 日

変更、機能強化、および解決された問題

  • このリリースでは、潜在的なセキュリティ脆弱性に対処しています。

リリース 5.5.2

次のリリースノートには、Amazon EMR リリースバージョン 5.2 に関する情報が含まれています。5.5.1 からの変更が含まれています。

初回リリース日: 2018 年 3 月 29 日

変更、機能強化、および解決された問題

  • 潜在的な脆弱性に対処するために、Amazon EMR 用 defaultAmazon Linux AMI の Amazon Linux カーネルを更新しました。

リリース 5.5.1

次のリリースノートには、Amazon EMR 5.5.5.1 に関する情報が含まれています。変更点は、Amazon EMR 5.5.0 リリースに関連するものです。

初回リリース日: 2018 年 1 月 22 日

変更、機能強化、および解決された問題

  • 投機的実行(CVE-2017-5715、CVE-2017-5753、CVE-2017-5754)に関連する脆弱性に対処するために、Amazon EMR 用 defaultAmazon Linux AMI の Amazon Linux カーネルを更新しました。詳細については、「」を参照してくださいhttp://aws.amazon.com/security/security-bulletins/AWS-2018-013/

リリース 5.5.0

次のリリースノートには、Amazon EMR 5.5.0 に関する情報が含まれています。変更点は、Amazon EMR 5.4.0 リリースに関連するものです。

リリース日: 2017 年 4 月 26 日

Upgrades

  • Hue 3.12

  • Presto 0.170

  • Zeppelin 0.7.1

  • ZooKeeper 3.4.10

変更、機能強化、および解決された問題

  • Spark

  • Flink

    • Flink は Scala 2.11 で作成されるようになりました。プロジェクトで Scala API とライブラリを使用する場合は、Scala 2.11 を使用することをお勧めします。

    • HADOOP_CONF_DIRYARN_CONF_DIR のデフォルトが適切に設定されないため start-scala-shell.sh が機能しない問題に対応しました。さらに env.hadoop.conf.dir または env.yarn.conf.dir 設定分類の /etc/flink/conf/flink-conf.yamlflink-conf を使って、これらの値を設定する機能を追加しました。

    • EMR 固有の新しいコマンドで、flink-scala-shell のラッパーとなる start-scala-shell.sh を追加しました。start-scala-shell に代えて、このコマンドを使用することをお勧めします。新しいコマンドにより実行が簡素化されます。たとえば、flink-scala-shell -n 2 は、タスクの並行度 2 で、Flink Scala シェルを開始します。

    • EMR 固有の新しいコマンドで、flink-yarn-session のラッパーとなる yarn-session.sh を追加しました。yarn-session に代えて、このコマンドを使用することをお勧めします。新しいコマンドにより実行が簡素化されます。たとえば、flink-yarn-session -d -n 2 は長時間稼働の Flink セッションを、デタッチ状態で、2 つのタスクマネージャを使って開始します。

    • アドレス指定(FLINK-6125) コモンズ httpclient が Flink 1.2 でシェーディングされない

  • Presto

    • LDAP 認証のサポートが追加されました。Amazon EMR で Presto で LDAP を使用するには、Presto コーディネーター (http-server.https.enabled=trueconfig.properties). 設定の詳細については、「」を参照してくださいLDAP 認証Presto のドキュメントで。

    • SHOW GRANTS のサポートが追加されました。

  • Amazon EMR ベース

    • Amazon EMR リリースは、Amazon Linux 2017.03 ベースになりました。詳細については、「」を参照してください。Amazon Linux AMI 2017.03 リリースノート

    • Python 2.6 はAmazon EMR ベース Linux イメージから削除されました。Python 2.7 と 3.4 がデフォルトでインストールされます。必要な場合には Python 2.6 を手動でインストールできます。

リリース 5.4.0

次のリリースノートには、Amazon EMR 5.4.0 に関する情報が含まれています。変更点は、Amazon EMR 5.3.0 リリースに関連するものです。

リリース日: 2017 年 3 月 08 日

Upgrades

このリリースでは、次のアップグレードを使用できます。

  • Flink 1.2.0 にアップグレードしました

  • Hbase 1.3.0 にアップグレード済み

  • Phoenix 4.9.0 にアップグレード済み

    注記

    古いバージョンの Amazon EMR から Amazon EMR バージョン 5.4.0 以降にアップグレードしてセカンダリインデックスを使用する場合は、で説明されるようにローカルインデックスをアップグレードします。Apache フェニックスのドキュメント。Amazon EMR は、必要な設定をhbase-site分類ですが、インデックスは再入力する必要があります。インデックスはオンラインとオフラインでアップグレードできます。オンラインのアップグレードがデフォルトです。これはバージョン4.8.0以降のPhoenixクライアントで初期する間にインデックスの値が再設定されることを意味します。オフラインアップグレードを指定するには、 phoenix.client.localIndexUpgrade 構成を phoenix-site 分類で False に設定してから、SSH をマスターノードに設定して psql [zookeeper] -1を実行します。

  • Presto 0.166 にアップグレードしました

  • Zeppelin 0.7.0 にアップグレードしました

変更と機能強化

以下は、リリースラベル emr-5.4.0 のリリースでの変更点です。

リリース 5.3.1

次のリリースノートには、Amazon EMR 5.3.1 に関する情報が含まれています。変更点は、Amazon EMR 5.3.0 リリースに関連するものです。

リリース日: 2017 年 2 月 7 日

Zeppelin パッチをバックポートし、Amazon EMR のデフォルトの AMI を更新するためのマイナーな変更。

リリース 5.3.0

次のリリースノートには、Amazon EMR 5.3.0 に関する情報が含まれています。変更点は、Amazon EMR 5.2.1 リリースに関連するものです。

リリース日: 2017 年 1 月 26 日

Upgrades

このリリースでは、次のアップグレードを使用できます。

  • Hive 2.1.1 にアップグレードしました

  • Hue 3.11.0 にアップグレードしました

  • Spark 2.1.0 にアップグレードしました

  • Oozie 4.3.0 にアップグレードしました

  • Flink 1.1.4 にアップグレードしました

変更と機能強化

以下は、リリースラベル emr-5.3.0 のリリースでの変更点です。

  • interpreters_shown_on_wheel ファイルでの順序にかかわらず、ノートブックの選択ホイールで最初に表示するインタープリタを指定する hue.ini 設定を使用できるようにするパッチを Hue に追加しました。

  • Hive の hive-parquet-logging ファイルで値を設定するために使用できる、parquet-logging.properties 設定分類を追加しました。

リリース 5.2.2

次のリリースノートには、Amazon EMR 5.2.2 に関する情報が含まれています。変更点は、Amazon EMR 5.2.1 リリースに関連するものです。

リリース日: 2017 年 5 月 2 日

以前のリリースで解決された既知の問題

  • SPARK-194459 をしました。char/varchar の列を持つ ORC テーブルからの読み取りが失敗する問題に対応しました。

リリース 5.2.1

次のリリースノートには、Amazon EMR 5.2.1 に関する情報が含まれています。変更点は、Amazon EMR 5.2.0 リリースに関連するものです。

リリース日: 2016 年 12 月 29 日

Upgrades

このリリースでは、次のアップグレードを使用できます。

  • Presto を 0.157.1 にアップグレードしました。詳細については、「」を参照してください。Presto リリースノートPresto のドキュメントを参照してください。

  • ZooKeeper を 3.4.9 にアップグレードしました。詳細については、「」を参照してください。ZooKeeper リリースノートは Apache ZooKeeper ドキュメントにあります。

変更と機能強化

以下は、リリースラベル emr-5.2.1 のリリースでの変更点です。

  • 5.0.0、5.0.3、5.2.0 を除くAmazon EMR バージョン 4.8.3 以降の Amazon EC2 m4.16xlarge インスタンスタイプのサポートが追加されました。

  • Amazon EMR リリースは、Amazon Linux 2016.09 ベースになりました。詳細については、「」を参照してくださいhttp://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/

  • これで、Flink および YARN 設定パスの場所はデフォルトで /etc/default/flink に設定されましたので、Flink のジョブを起動するために FLINK_CONF_DIR または HADOOP_CONF_DIR ドライバースクリプトを実行するときに、環境変数 flink および yarn-session.sh を設定する必要はありません。

  • FlinkKinesisConsumer クラスのサポートを追加しました。

以前のリリースで解決された既知の問題

  • ReplicationMonitor のスレッドが大きなクラスターで同じファイルのレプリケーションと削除間の競合のために長時間スタックが生じる Hadoop の問題を修正しました。

  • ジョブのステータスが正常に更新されていないときに ControlledJob#toString が null ポインタ例外 (NPE) で失敗していた問題を修正しました。

リリース 5.2.0

次のリリースノートには、Amazon EMR 5.2.0 に関する情報が含まれています。変更点は、Amazon EMR 5.1.0 リリースに関連するものです。

リリース日: 2016 年 11 月 21 日

変更と機能強化

このリリースでは、次の変更と機能強化を使用できます。

  • HBase の Amazon S3 ストレージモードを追加しました。

  • HBase ルートディレクトリの Amazon S3 の場所を指定可能。詳細については、「」を参照してください。Amazon S3 でHBase

Upgrades

このリリースでは、次のアップグレードを使用できます。

  • Spark 2.0.2 にアップグレードしました

以前のリリースで解決された既知の問題

  • EBS のみのインスタンスタイプで 2 TB に制約されていた /mnt に関する問題を修正。

  • 通常の log4j-configured .log ファイルではなく、対応する .out ファイルに出力され、1 時間ごとにローテーションされていた、インスタンスコントローラーおよび logpusher ログに関する問題を修正。.out ファイルはローテーションしないため、最終的には /emr パーティションがいっぱいになります。この問題は、ハードウェア仮想マシン (HVM) のインスタンスタイプにのみ影響します。

リリース 5.1.0

次のリリースノートには、Amazon EMR 5.1.0 に関する情報が含まれています。変更点は、Amazon EMR 5.0.0 リリースに関連するものです。

リリース日: 2016 年 11 月 03 日

変更と機能強化

このリリースでは、次の変更と機能強化を使用できます。

  • Flink 1.1.3 のサポートを追加。

  • Presto が、Hue のノートブックセクションでオプションとして追加。

Upgrades

このリリースでは、次のアップグレードを使用できます。

  • HBase 1.2.3 にアップグレードしました

  • Zeppelin 0.6.2 にアップグレードしました

以前のリリースで解決された既知の問題

  • 以前の Amazon EMR 4.x バージョンと同じく、ORC ファイルがあるの Amazon S3 での Tez クエリが実行されない問題を修正しました。

リリース 5.0.3

次のリリースノートには、Amazon EMR 5.0.3 に関する情報が含まれています。変更点は、Amazon EMR 5.0.0 リリースに関連するものです。

リリース日: 2016 年 10 月 24 日

Upgrades

このリリースでは、次のアップグレードを使用できます。

  • Hadoop 2.7.3 にアップグレードしました

  • Presto 0.152.3 にアップグレードします。このアップグレードには Presto ウェブインターフェイスのサポートが含まれています。Presto コーディネーターの Presto ウェブインターフェイスには、ポート 8889 を使用してアクセスできます。Presto Web インターフェイスの詳細については、「」を参照してください。ウェブインターフェイスPresto のドキュメントを参照してください。

  • Spark 2.0.1 にアップグレードしました

  • Amazon EMR リリースは、Amazon Linux 2016.09 ベースになりました。詳細については、「」を参照してくださいhttp://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/

リリース 5.0.0

リリース日: 2016 年 7 月 27 日

Upgrades

このリリースでは、次のアップグレードを使用できます。

  • Hive 2.1 にアップグレードしました

  • Presto 0.150 にアップグレードしました

  • Spark 2.0 にアップグレードしました

  • Hue 3.10.0 にアップグレードしました

  • Pig 0.16.0 にアップグレードしました

  • Tez 0.8.4 にアップグレードしました

  • Zeppelin 0.6.1 にアップグレードしました

変更と機能強化

以下は、リリースラベル emr-5.0.0 以降の Amazon EMR リリースに加えられた変更点です。

  • Amazon EMR は Hive (バージョン 2.1)、Pig (バージョン 0.16.0) の最新のオープンソースバージョンをサポートします。以前にAmazon EMR で Hive または Pig を使用したことがあるなら、このことはいくつかのユースケースに影響を与える可能性があります。詳細については、「Hive」および「Pig」を参照してください。

  • 現在の Hive および Pig のデフォルト実行エンジンは Tez です。これを変更するには、hive-site および pig-properties のそれぞれの設定分類の適切な値を編集します。

  • サービスが原因を識別できる場合にステップ障害の根本原因を表示できるようにするステップ、デバッグ機能が追加されました。詳細については、「」を参照してください。ステップ、デバッグの向上Amazon EMR 管理ガイドを参照してください。

  • アプリケーションは以前「-Sandbox」で終了しましたが、そのサフィックスはもうありません。たとえば、これらのアプリケーションを使ってクラスターを起動するスクリプトを使用している場合、これによってオートメーションが中断する可能性があります。次の表は、Amazon EMR 4.7.2 と Amazon EMR 5.0.0 のアプリケーション名を示しています。

    アプリケーション名変更
    Amazon EMR 4.7.2 Amazon EMR 5.0.0
    Oozie-Sandbox Oozie
    Presto-Sandbox Presto
    Sqoop-Sandbox Sqoop
    Zeppelin-Sandbox Zeppelin
    ZooKeeper-Sandbox ZooKeeper
  • Spark は現在 Scala 2.11 向けにコンパイルされています。

  • 現在のデフォルト JVM は Java 8 です。すべてのアプリケーションは Java 8 ランタイムを使用して動作します。アプリケーションのバイトコードターゲットには変更はありません。ほとんどのアプリケーションは、引き続き Java 7 を対象としています。

  • Zeppelin には、認証機能が組み込まれています。詳細については、「Zeppelin」を参照してください。

  • セキュリティ設定のサポートを追加しました。これにより、暗号化オプションをより簡単に作成、適用できます。詳細については、「」を参照してください。データの暗号化

リリース 4.9.5

次のリリースノートには、Amazon EMR リリースバージョン 4.9.5 に関する情報が含まれています。変更点は、4.9.4 に関連するものです。

初回リリース日: 2018 年 8 月 29 日

変更、機能強化、および解決された問題

  • HBase

    • このリリースでは、潜在的なセキュリティ脆弱性に対処しています。

リリース 4.9.4

次のリリースノートには、Amazon EMR リリースバージョン 4.9.4 に関する情報が含まれています。変更点は、4.9.3 に関連するものです。

初回リリース日: 2018 年 3 月 29 日

変更、機能強化、および解決された問題

  • 潜在的な脆弱性に対処するために、Amazon EMR 用 defaultAmazon Linux AMI の Amazon Linux カーネルを更新しました。

リリース 4.9.3

次のリリースノートには、Amazon EMR 4.9.3 に関する情報が含まれています。変更点は、Amazon EMR 4.9.2 リリースに関連するものです。

初回リリース日: 2018 年 1 月 22 日

変更、機能強化、および解決された問題

  • 投機的実行(CVE-2017-5715、CVE-2017-5753、CVE-2017-5754)に関連する脆弱性に対処するために、Amazon EMR 用 defaultAmazon Linux AMI の Amazon Linux カーネルを更新しました。詳細については、「」を参照してくださいhttp://aws.amazon.com/security/security-bulletins/AWS-2018-013/

リリース 4.9.2

次のリリースノートには、Amazon EMR 4.9.2 に関する情報が含まれています。変更点は、Amazon EMR 4.9.1 リリースに関連するものです。

リリース日: 2017 年 7 月 13 日

このリリースでは小さな変更、バグ修正、および機能強化が行われました。

リリース 4.9.1

次のリリースノートには、Amazon EMR 4.9.1 に関する情報が含まれています。変更点は、Amazon EMR 4.8.4 リリースに関連するものです。

リリース日: 2017 年 4 月 10 日

以前のリリースで解決された既知の問題

  • HIVE-9976 および HIVE-10106 を移植しました。

  • 多数のノード (2,000 以上) やコンテナ (5,000 以上) によって、"Exception in thread 'main' java.lang.OutOfMemoryError" などのメモリエラーが発生することがある、YARN の問題を修正しました。

変更と機能強化

以下は、リリースラベル emr-4.9.1 のリリースでの変更点です。

  • Amazon EMR リリースは、Amazon Linux 2017.03 ベースになりました。詳細については、「」を参照してくださいhttp://aws.amazon.com/amazon-linux-ami/2017.03-release-notes/

  • Python 2.6 はAmazon EMR ベース Linux イメージから削除されました。必要な場合には Python 2.6 を手動でインストールできます。

リリース 4.8.4

次のリリースノートには、Amazon EMR 4.8.4 に関する情報が含まれています。変更点は、Amazon EMR 4.8.3 リリースに関連するものです。

リリース日: 2017 年 2 月 7 日

このリリースでは小さな変更、バグ修正、および機能強化が行われました。

リリース 4.8.3

次のリリースノートには、Amazon EMR 4.8.3 に関する情報が含まれています。変更点は、Amazon EMR 4.8.2 リリースに関連するものです。

リリース日: 2016 年 12 月 29 日

Upgrades

このリリースでは、次のアップグレードを使用できます。

  • Presto を 0.157.1 にアップグレードしました。詳細については、「」を参照してください。Presto リリースノートPresto のドキュメントを参照してください。

  • Spark を 1.6.3 にアップグレードしました。詳細については、「」を参照してください。Spark リリースノートは Apache Spark ドキュメントを参照してください。

  • ZooKeeper を 3.4.9 にアップグレードしました。詳細については、「」を参照してください。ZooKeeper リリースノートは Apache ZooKeeper ドキュメントを参照してください。

変更と機能強化

以下は、リリースラベル emr-4.8.3 の Amazon EMR リリースでの変更点です。

  • 5.0.0、5.0.3、5.2.0 を除くAmazon EMR バージョン 4.8.3 以降の Amazon EC2 m4.16xlarge インスタンスタイプのサポートが追加されました。

  • Amazon EMR リリースは、Amazon Linux 2016.09 ベースになりました。詳細については、「」を参照してくださいhttp://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/

以前のリリースで解決された既知の問題

  • ReplicationMonitor のスレッドが大きなクラスターで同じファイルのレプリケーションと削除間の競合のために長時間スタックが生じる Hadoop の問題を修正しました。

  • ジョブのステータスが正常に更新されていないときに ControlledJob#toString が null ポインタ例外 (NPE) で失敗していた問題を修正しました。

リリース 4.8.2

次のリリースノートには、Amazon EMR 4.8.2 に関する情報が含まれています。変更点は、Amazon EMR 4.8.0 リリースに関連するものです。

リリース日: 2016 年 10 月 24 日

Upgrades

このリリースでは、次のアップグレードを使用できます。

  • Hadoop 2.7.3 にアップグレードしました

  • Presto 0.152.3 にアップグレードします。このアップグレードには Presto ウェブインターフェイスのサポートが含まれています。Presto コーディネーターの Presto ウェブインターフェイスには、ポート 8889 を使用してアクセスできます。Presto Web インターフェイスの詳細については、「」を参照してください。ウェブインターフェイスPresto のドキュメントを参照してください。

  • Amazon EMR リリースは、Amazon Linux 2016.09 ベースになりました。詳細については、「」を参照してくださいhttp://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/

リリース 4.8.0

リリース日: 2016 年 9 月 7 日

Upgrades

このリリースでは、次のアップグレードを使用できます。

  • HBase 1.2.2 にアップグレードしました

  • Presto-Sandbox 0.151 にアップグレードしました

  • Tez 0.8.4 にアップグレードしました

  • Zeppelin-Sandbox 0.6.1 にアップグレードしました

変更と機能強化

以下は、リリースラベル emr-4.8.0 のリリースでの変更点です。

  • インスタンスが削除されたため、存在していないコンテナを ApplicationMaster がクリーンアップしようとする YARN の問題を修正しました。

  • Oozie の例の Hive2 アクションの hive-server2 URL を修正しました。

  • さらに多くの Presto カタログのサポートを追加しました。

  • バックポートされたパッチ: HIVE-8948,HIVE-12679,HIVE-13405,PHOENIX-3116,HADOOP-12689

  • セキュリティ設定のサポートを追加しました。これにより、暗号化オプションをより簡単に作成、適用できます。詳細については、「」を参照してください。データの暗号化

リリース 4.7.2

次のリリースノートには、Amazon EMR 4.7.2 に関する情報が含まれています。

リリース日: 2016 年 7 月 15 日

Features

このリリースでは、次の機能を使用できます。

  • Mahout 0.12.2 にアップグレードしました

  • Presto 0.148 にアップグレードしました

  • Spark 1.6.2 にアップグレードしました

  • パラメータとして URI を使用して EMRFS で使用する AWSCredentialsProvider を作成できるようになりました。詳細については、「EMRFS 用に AWSCredentialsProvider を作成する」を参照してください。

  • EMRFS では、ユーザーが整合性のあるビューのメタデータのカスタム DynamoDB エンドポイントを設定できるようになりました。fs.s3.consistent.dynamodb.endpointのプロパティemrfs-site.xml

  • /usr/binspark-example というスクリプトを追加しました。これにより /usr/lib/spark/spark/bin/run-example をラップし、例を直接実行できます。たとえば、Spark ディストリビューションに付属する SparkPi の例を実行するには、API のステップとしてコマンドラインから spark-example SparkPi 100 を実行するか、command-runner.jar を使用できます。

以前のリリースで解決された既知の問題

  • Oozie で、Spark もインストールされたときに spark-assembly.jar が正しい場所にないために、Oozie で Spark アプリケーションを起動できなくなる問題を解決しました。

  • YARN コンテナで Spark Log4j ベースのログインに関する問題を修正しました。

リリース 4.7.1

リリース日: 2016 年 6 月 10 日

以前のリリースで解決された既知の問題

  • プライベートサブネットを持つ VPC で起動されたクラスターの起動時間が長くなる問題を修正しました。このバグの影響があったのは、Amazon EMR 4.7.0 リリースで起動されたクラスターのみです。

  • Amazon EMR 4.7.0 リリースで起動されたクラスターの Amazon EMR でのファイルのリスト処理が不適切であった問題を修正しました。

リリース 4.7.0

重要

Amazon EMR 4.7.0 は廃止されました。代わりに Amazon EMR 4.7.1 以降を使用してください。

リリース日: 2016 年 6 月 2 日

Features

このリリースでは、次の機能を使用できます。

  • Apache Phoenix 4.7.0 を追加しました

  • Apache Tez 0.8.3 を追加しました

  • HBase 1.2.1 にアップグレードしました

  • Mahout 0.12.0 にアップグレードしました

  • Presto 0.147 にアップグレードしました

  • AWS SDK for Java が 1.10.75 にアップグレード

  • ユーザーがローカルモードで Pig を実行できるようにするため、最終的なフラグが mapreduce.cluster.local.dirmapred-site.xml プロパティから削除されました。

Amazon Redshift JDBC ドライバーはクラスターで利用可能

Amazon Redshift JDBC ドライバーは/usr/share/aws/redshift/jdbc/usr/share/aws/redshift/jdbc/RedshiftJDBC41.jarJDBC 4.1 互換の Amazon Redshift ドライバーですか/usr/share/aws/redshift/jdbc/RedshiftJDBC4.jarは、JDBC 4.0 互換の Amazon Redshift ドライバーです。詳細については、「」を参照してください。JDBC 接続を設定するAmazon Redshift クラスター管理ガイド

Java 8

Presto を除き、OpenJDK 1.7 はすべてのアプリケーションに使用されるデフォルトの JDK です。ただし、OpenJDK 1.7 と 1.8 の両方がインストールされています。は設定する方法についての情報を参照JAVA_HOMEアプリケーションについては、を参照してください。Java 8 を使用するようにアプリケーションを構成する

以前のリリースで解決された既知の問題

  • emr-4.6.0 の Amazon EMR 向けのスループット最適化 HDD (st1) EBS ボリュームでのパフォーマンスに大きく影響するカーネルの問題を修正しました。

  • アプリケーションとして Hadoop を選択せずに HDFS 暗号化ゾーンを指定した場合にクラスターが失敗する問題を修正しました。

  • デフォルトの HDFS 書き込みポリシーを RoundRobin から AvailableSpaceVolumeChoosingPolicy に変更しました。一部のボリュームは RoundRobin 設定で正しく利用されず、それによってコアノードが失敗し、HDFS の信頼性が低くなりました。

  • 整合性のあるビューのため、デフォルトの DynamoDB メタデータテーブルを作成するときに例外を発生させる EMRFS CLI に関する問題を修正しました。

  • マルチパートの名前の変更およびコピーオペレーション中に発生する可能性のあった、EMRFS のデッドロックの問題を修正しました。

  • CopyPart のサイズがデフォルトで 5 MB になる EMRFS の問題を修正しました。現在では、デフォルト値は 128 MB で適切に設定されます。

  • サービスを停止できなくなる可能性のある、Zeppelin upstart 設定の問題を修正しました。

  • s3a:// がそれぞれのクラスパスで適切にロードされていないために、/usr/lib/hadoop/hadoop-aws.jar URI スキームを使用できなくなる Spark および Zeppelin の問題を修正しました。

  • HUE-2484 を移植しました。

  • HBase ブラウザサンプルでの問題を修正するため、Hue 3.9.0 (JIRA が存在しない) から commit を移植しました。

  • HIVE-9073 を移植しました。

リリース 4.6.0

リリース日: 2016 年 4 月 21 日

Features

このリリースでは、次の機能を使用できます。

  • HBase 1.2.0 を追加しました

  • Zookeeper-Sandbox 3.4.8 を追加しました

  • Presto-Sandbox 0.143 にアップグレードしました

  • Amazon EMR リリースは、Amazon Linux 2016.03.0 ベースになりました。詳細については、「」を参照してくださいhttp://aws.amazon.com/amazon-linux-ami/2016.03-release-notes/

スループット最適化 HDD (st1) EBS ボリュームタイプに影響を与える問題

Linux カーネルバージョン 4.2 以降の問題は、EMR 用のスループット最適化 HDD (st1) EBS ボリュームのパフォーマンスに大きな影響を及ぼします。このリリース (emr-4.6.0) ではカーネルバージョン 4.4.5 を使用するため、影響を受けます。したがって、st1 EBS ボリュームを使用する場合、emr-4.6.0 を使用しないことをお勧めします。emr-4.5.0 以前の Amazon EMR リリースと st1 であれば、影響を受けずに使用できます。これに加えて、将来のリリースで修正が提供されます。

Python のデフォルト値

現在、Python 3.4 がデフォルトでインストールされますが、Python 2.7 はシステムデフォルトのままです。いずれかのブートストラップアクションを使用してシステムデフォルトとして Python 3.4 を設定できます。PySpark で使用される Python のバージョンに影響を与えるため、設定 API を使用して /usr/bin/python3.4 分類で PYSPARK_PYTHON のエクスポート先を spark-env に設定できます。

Java 8

Presto を除き、OpenJDK 1.7 はすべてのアプリケーションに使用されるデフォルトの JDK です。ただし、OpenJDK 1.7 と 1.8 の両方がインストールされています。は設定する方法についての情報を参照JAVA_HOMEアプリケーションについては、を参照してください。Java 8 を使用するようにアプリケーションを構成する

以前のリリースで解決された既知の問題

  • アプリケーションのプロビジョニングが、生成されたパスワードが原因でランダムに失敗する問題を修正しました。

  • 以前は、mysqld がすべてのノードにインストールされました。現在では、選択されたアプリケーションにコンポーネントとして mysql-server が含まれている場合のみ、マスターインスタンスのみにインストールされます。現在、以下の用途としては、mysql-serverコンポーネント: HCatalog、Hive、Presto-Sandbox、および Sqoop-Sandbox。

  • yarn.scheduler.maximum-allocation-vcores をデフォルトの 32 から 80 に変更しました。これにより、コアインスタンスタイプが、YARN vcores が 32 より高く設定されているいくつかのラージインスタンスタイプのいずれかであるクラスターで、maximizeResourceAllocation オプションを使用中に Spark で主に発生する、emr-4.4.0 での問題が修正されました。この問題の影響を受けていたのは、c4.8xlarge、cc2.8xlarge、hs1.8xlarge、i2.8xlarge、m2.4xlarge、r3.8xlarge、d2.8xlarge、または m4.10xlarge です。

  • s3-dist-cp は、すべての Amazon S3 ノミネートに EMRFS を使用するようになり、一時 HDFS ディレクトリへのステージングはなくなりました。

  • クライアント側の暗号化のマルチパートアップロードの例外処理に関する問題を修正しました。

  • ユーザーが Amazon S3 ストレージクラスを変更できるようにするオプションを追加しました。デフォルトでは、この設定は STANDARD です。emrfs-site 設定の分類設定は fs.s3.storageClass で、指定できる値は STANDARDSTANDARD_IAREDUCED_REDUNDANCY です。ストレージクラスの詳細については、「」を参照してください。ストレージクラス「Amazon Simple Storage Service ユーザーガイド」を参照してください。

リリース 4.5.0

リリース日: 2016 年 4 月 4 日

Features

このリリースでは、次の機能を使用できます。

  • Spark 1.6.1 にアップグレードしました

  • Hadoop 2.7.2 にアップグレードしました

  • Presto 0.140 にアップグレードしました

  • 「」を追加AWS KMSAmazon S3 サーバー側暗号化のサポート。

以前のリリースで解決された既知の問題

  • ノードが再起動された後に MySQL および Apache サーバーが起動しない問題を修正しました。

  • Amazon S3 に保存されているパーティション分割されていないテーブルで IMPORT が正しく機能しない問題を修正しました。

  • Hive テーブルに書き込むときに、ステージングディレクトリが /mnt/tmp ではなく /tmp であることが要求される Presto の問題を修正しました。

リリース 4.4.0

リリース日: 2016 年 3 月 14 日

Features

このリリースでは、次の機能を使用できます。

  • HCatalog 1.0.0 を追加しました

  • Sqoop-Sandbox 1.4.6 を追加しました

  • Presto 0.136 にアップグレードしました

  • Zeppelin 0.5.6 にアップグレードしました

  • Mahout 0.11.1 にアップグレードしました

  • デフォルトで dynamicResourceAllocation を有効にしました。

  • リリースのすべての設定分類の表を追加しました。詳細については、『』の「設定の分類」の表を参照してください。アプリケーションの設定

以前のリリースで解決された既知の問題

  • maximizeResourceAllocation 設定で YARN ApplicationMaster デーモンに十分なメモリが予約されない問題を修正しました。

  • カスタム DNS で発生した問題を修正しました。resolve.conf のエントリが、提供されたカスタムエントリよりも前に指定されている場合、そのカスタムエントリは解決されません。この動作は、デフォルトの VPC ネームサーバーが resolve.conf のトップエントリとして挿入された VPC のクラスターによって影響を受けました。

  • デフォルトの Python がバージョン 2.7 に移行した場合に、そのバージョンに対して boto がインストールされなかった問題を修正しました。

  • YARN コンテナと Spark アプリケーションが独自の Ganglia ラウンドロビンデータベース (rrd) ファイルを生成し、それによりインスタンスにアタッチされた最初のディスクがいっぱいになる問題を修正しました。この修正によって、YARN コンテナレベルのメトリクスが無効になり、Spark アプリケーションレベルのメトリクスが無効になりました。

  • ログプッシャーですべての空のログフォルダーが削除される問題を修正しました。この問題により、ログプッシャーは user の空の /var/log/hive フォルダを削除したため、Hive CLI はログを記録できませんでした。

  • パーティション分割に影響し、インポート中にエラーを発生させた、Hive のインポートに影響を与える問題を修正しました。

  • EMRFS と s3-dist-cp が、ピリオドを含むバケット名を適切に処理しなかった問題を修正しました。

  • EMRFS の動作を変更し、バージョニングが有効なバケットで、_$folder$ マーカーファイルが連続して作成されないようにしました。これにより、バージョニングが有効なバケットでパフォーマンスが向上する可能性があります。

  • クライアント側の暗号化が有効になっている場合を除き、インストラクションファイルを使用しないよう EMRFS の動作を変更しました。クライアント側の暗号化を使用中にインストラクションファイルを削除する場合は、emrfs-site.xml プロパティの fs.s3.cse.cryptoStorageMode.deleteInstructionFiles.enabled を true に設定できます。

  • YARN ログの集計を変更し、集計先でログを 2 日間保持するようにしました。デフォルトの送信先はクラスターの HDFS ストレージです。この期間を変更する場合は、クラスターの作成時に yarn.log-aggregation.retain-seconds 設定分類を使用して yarn-site の値を変更します。いつものように、アプリケーションログを Amazon S3 に保存するには、log-uriパラメータはクラスターの作成時に行います。

適用されたパッチ

オープンソースのプロジェクトから、次のパッチがこのリリースで追加されました。

リリース 4.3.0

リリース日: 2016 年 1 月 19 日

Features

このリリースでは、次の機能を使用できます。

  • Hadoop 2.7.1 にアップグレードしました

  • Spark 1.6.0 にアップグレードしました

  • Ganglia を 3.7.2 にアップグレードしました

  • Presto を 0.130 にアップグレードしました

Amazon EMR はにいくつかの変更を加えましたspark.dynamicAllocation.enabledtrue に設定した場合、デフォルトで false になります。true に設定すると、maximizeResourceAllocation 設定で定義されているデフォルト設定に影響を与えます。

  • spark.dynamicAllocation.enabled を true に設定した場合、spark.executor.instancesmaximizeResourceAllocation によって設定されません。

  • spark.driver.memory 設定は、spark.executors.memory 設定と同様に、クラスター内のインスタンスタイプに基づいて定義されます。ただし、Spark ドライバーアプリケーションは、マスターインスタンスまたはいずれかのコアインスタンスで(たとえば、YARN クライアントモードとクラスターモードのそれぞれで)実行されるため、spark.driver.memory 設定は、これらの 2 つのインスタンスグループ間で、小さい方のインスタンスのインスタンスタイプに基づいて定義されます。

  • spark.default.parallelism 設定は、YARN コンテナに使用可能な CPU コアの数の 2 倍に定義されます。以前のリリースでは、半分の値に定義されていました。

  • Spark YARN プロセス用に予約されるメモリオーバーヘッドの計算精度が上がったため、Spark に使用可能なメモリの合計量(spark.executor.memory)がわずかに増えました。

以前のリリースで解決された既知の問題

  • 現在、YARN ログの集計はデフォルトで有効になります。

  • YARN ログの集計が有効な場合に、クラスターの Amazon S3 ログバケットにログがプッシュされない問題を修正しました。

  • YARN コンテナサイズは、すべてのノードタイプで新たに最低 32 になりました。

  • 大規模なクラスターのマスターノードで過剰なディスク I/O を発生させる Ganglia の問題を修正しました。

  • クラスターのシャットダウン時に、アプリケーションログが Amazon S3 にプッシュされない問題を修正しました。

  • 特定のコマンドを失敗させる EMRFS CLI の問題を修正しました。

  • 基盤となる SparkContext に依存関係がロードされなくなる Zeppelin の問題を修正しました。

  • インスタンスの追加を試みるサイズ変更の発行によって発生する問題を修正しました。

  • CREATE TABLE AS SELECT が Amazon S3 への過剰なリスト呼び出しを行う Hive の問題を修正しました。

  • Hue、Oozie、および Ganglia がインストールされていると、大規模なクラスターが適切にプロビジョニングされない問題を修正しました。

  • エラーで失敗した場合でもゼロ終了コードを返す s3-dist-cp の問題を修正しました。

適用されたパッチ

オープンソースのプロジェクトから、次のパッチがこのリリースで追加されました。

リリース 4.2.0

リリース日: 2015 年 18 月 11 日

Features

このリリースでは、次の機能を使用できます。

  • Ganglia のサポートを追加しました

  • Spark 1.5.2 にアップグレードしました

  • Presto 0.125 にアップグレードしました

  • Oozie を 4.2.0 にアップグレードしました

  • Zeppelin を 0.5.5 にアップグレードしました

  • AWS SDK for Java が 1.10.27 にアップグレード

以前のリリースで解決された既知の問題

  • デフォルトのメタデータテーブル名を使用しない EMRFS CLI の問題を修正しました。

  • Amazon S3 で ORC-backed テーブルを使用するときに発生した問題を修正しました。

  • Spark 設定で Python バージョンが一致しない問題を修正しました。

  • VPC のクラスターでの DNS の問題により、YARN ノードのステータスが報告されない問題を修正しました。

  • YARN がノードを廃棄することが原因でアプリケーションがハングしたり、新しいアプリケーションを予定できなくなったりする問題を修正しました。

  • クラスターが TIMED_OUT_STARTING というステータスで終了するときに発生する問題を修正しました。

  • EMRFS Scala 依存関係を他のビルドに含める場合に発生する問題を修正しました。Scala 依存関係が削除されました。