Amazon EMR
Amazon EMR リリースガイド

Amazon EMR の最新情報履歴

すべての Amazon EMR リリースバージョンのリリースノートは以下から入手できます。各リリースの包括的なリリース情報については、「Amazon EMR 5.x リリースバージョン」および「Amazon EMR 4.x リリースバージョン」を参照してください。

新しい Amazon EMR リリースバージョンが入手可能になったときに更新情報を受け取るには、https://docs.aws.amazon.com/emr/latest/ReleaseGuide/amazon-emr-release-notes.rss で Amazon EMR リリースノートの RSS フィードを購読してください。

リリース 5.26.0

次のリリースノートには、Amazon EMR リリースバージョン 5.26.0 に関する情報が含まれています。変更は 5.25.0 に関連するものです。

初回リリース日: 2019 年 8 月 8 日

最終更新日: 2019 年 8 月 19 日

アップグレード

  • AWS SDK for Java 1.11.595

  • HBase 1.4.10

  • Phoenix 4.14.2

  • コネクタおよびドライバ:

    • DynamoDB コネクタ 4.11.0

    • MariaDB コネクタ 2.4.2

    • Amazon Redshift JDBC ドライバー 1.2.32.1056

新機能

  • (ベータ) Amazon EMR 5.26.0 以降では、Lake Formation と統合するクラスターを起動できます。この統合により、AWS Glue データカタログ内のデータベースとテーブルへのきめ細かな列レベルのアクセスが提供されます。また、企業の ID システムから EMR ノートブックまたは Apache Zeppelin へのフェデレーションシングルサインオンが可能になります。詳細については、「Amazon EMR の AWS Lake Formation との統合 (ベータ)」を参照してください。

  • (2019 年 8 月 19 日) Amazon EMR のブロックパブリックアクセスが、セキュリティグループをサポートするすべての Amazon EMR リリースで使用可能になりました。ブロックパブリックアクセスは、各 AWS リージョンに適用されるアカウント全体の設定です。ブロックパブリックアクセスにより、クラスターに関連付けられたセキュリティグループに、ポートで IPv4 0.0.0.0/0 または IPv6 ::/0 (パブリックアクセス) からのインバウンドトラフィックを許可するルールがある場合に、クラスターの起動が防止されます (ポートが例外として指定されている場合を除く)。ポート 22 は、デフォルトで例外になります。詳細については、Amazon EMR 管理ガイドの「Amazon EMR ブロックパブリックアクセスの使用」を参照してください。

変更、拡張、解決した問題

  • EMR ノートブック

    • EMR 5.26.0 以降では、EMR ノートブック はデフォルトの Python ライブラリに加えて、ノートブックを範囲とする Python ライブラリがサポートします。ノートブックを範囲とするライブラリは、クラスターを再作成したり、クラスターにノートブックを再アタッチしたりすることなく、ノートブックエディタ内からインストールできます。ノートブックを範囲とするライブラリは、Python 仮想環境内で作成されるため、現在のノートブックセッションにのみ適用されます。これにより、ノートブックの依存関係を分離できます。詳細については、Amazon EMR 管理ガイドの「Using Notebook Scoped Libraries」を参照してください。

  • EMRFS

    • fs.s3.consistent.metadata.etag.verification.enabledtrue に設定して、ETag 検証機能 (ベータ) を有効にできます。この機能では、EMRFS は Amazon S3 ETag を使用して、読み取られているオブジェクトが利用可能な最新バージョンであることを確認します。この機能は、Amazon S3 上のファイルが同じ名前を維持しながら上書きされる、更新後の読み取りのユースケースに役立ちます。この ETag 検証機能は、現在 S3 Select では使用できません。詳細については、「一貫性のあるビューを構成する」を参照してください。

  • Spark

    • 次の最適化は、デフォルトで有効になりました: 動的なパーティションプルーニング、INTERSECT の前の DISTINCT、JOIN に続く DISTINCT クエリの SQL プラン統計推論の改善、スカラーサブクエリのフラット化、最適化された結合の順序変更、Bloom フィルターの結合。詳細については、「Spark パフォーマンスの最適化」を参照してください。

    • ソートマージ結合のステージコードの生成が全体的に改善されました。

    • クエリフラグメントとサブクエリの再利用が改善されました。

    • Spark 起動時のエグゼキューターの事前割り当ての改善。

    • 結合の小さい側にブロードキャストヒントが含まれている場合に、Bloom フィルター結合は適用されなくなりました。

  • Tez

    • Tez に関する問題を解決しました。Tez は 複数のマスターノードを持つ EMR クラスター で動作するようになりました。

既知の問題

  • ソートマージ結合のステージコード生成の全体的な改善により、有効時のメモリへの負荷が高まる可能性があります。この最適化によりパフォーマンスが向上しますが、十分なメモリを提供するよう spark.yarn.executor.memoryOverheadFactor がチューニングされていない場合、ジョブの再試行または失敗につながる可能性があります。この機能を無効にするには、spark.sql.sortMergeJoinExec.extendedCodegen.enabled を false に設定します。

リリース 5.25.0

次のリリースノートには、Amazon EMR リリースバージョン 5.25.0 に関する情報が含まれています。変更は 5.24.1 に関連するものです。

初回リリース日: 2019 年 7 月 17 日

最終更新日: 2019 年 10 月 30 日

Amazon EMR 5.25.0

アップグレード

  • AWS SDK for Java 1.11.566

  • Hive 2.3.5

  • Presto 0.220

  • Spark 2.4.3

  • TensorFlow 1.13.1

  • Tez 0.9.2

  • Zookeeper 3.4.14

新機能

  • (2019 年 10 月 30 日) Amazon EMR バージョン 5.25.0 から、コンソールでクラスターの [Summary (概要)] ページまたは [Application history (アプリケーション履歴)] タブから Spark 履歴サーバー UI に接続できます。SSH 接続を通じてウェブプロキシをセットアップする代わりに、Spark 履歴サーバー UI にすばやくアクセスしてアプリケーションメトリクスを表示し、アクティブなクラスターや終了したクラスターの該当するログファイルにアクセスできます。詳細については、Amazon EMR 管理ガイドの「コンソールから Spark 履歴サーバー UI にアクセスする」を参照してください。

変更、拡張、解決した問題

  • Spark

    • Bloom フィルタを使用して入力を事前フィルタリングすることにより、一部の結合のパフォーマンスが改善されました。最適化はデフォルトで無効になり、Spark 設定パラメータ spark.sql.bloomFilterJoin.enabledtrue に設定することにより有効にできます。

    • 文字列型の列によるグループ分けのパフォーマンスが改善されました。

    • HBase がインストールされていないクラスターで、R4 インスタンスタイプのデフォルトの Spark エグゼキュターメモリとコア設定が改善されました。

    • プルーニングされたテーブルが結合の左側になければならない場合に、ダイナミックパーティションプルーニング機能で以前に発生していた問題が解決されました。

    • エイリアスが関連する追加のケースに適用する INTERSECT 最適化の前の DISTINCT が改善されました。

    • 後に DISTINCT クエリが続く JOIN の、SQL 計画の統計的推論が改善されました。この改善はデフォルトで無効になり、Spark 設定パラメータ spark.sql.statsImprovements.enabledtrue に設定することにより有効にできます。この最適化は、Intersect 機能の前の Distinct で必要になり、spark.sql.optimizer.distinctBeforeIntersect.enabledtrue に設定されたときに自動的に有効になります。

    • テーブルサイズとフィルタに基いて、結合順序が最適化されました。この最適化はデフォルトで無効になり、Spark 設定パラメータ spark.sql.optimizer.sizeBasedJoinReorder.enabledtrue に設定することにより有効にできます。

    詳細については、「Spark パフォーマンスの最適化」を参照してください。

  • EMRFS

    • EMRFS 設定 fs.s3.buckets.create.enabled は、デフォルトで無効になりました。テストにより、この設定を無効にするとパフォーマンスが改善され、S3 バケットの予期しない作成を防止できることがわかりました。アプリケーションがこの機能に依存している場合は、emrfs-site 設定分類でプロパティ fs.s3.buckets.create.enabledtrue に設定することにより、機能を有効にできます。詳細については、「クラスターの作成時に設定を指定する」を参照してください。

  • セキュリティ設定におけるローカルディスクの暗号化と S3 暗号化の改善 (2019 年 8 月 5 日)

    • セキュリティ設定のセットアップで、ローカルディスク暗号化設定から Amazon S3 暗号化設定を分離しました。

    • リリース 5.24.0 以降で、EBS 暗号化を有効にするオプションを追加しました。このオプションを選択すると、ストレージボリュームに加えてルートデバイスボリュームが暗号化されます。以前のバージョンでは、カスタム AMI を使用してルートデバイスボリュームを暗号化する必要がありました。

    • 詳細については、Amazon EMR 管理ガイドの「暗号化オプション」を参照してください。

リリース 5.24.1

次のリリースノートには、Amazon EMR リリースバージョン 5.24.1 に関する情報が含まれています。変更は 5.24.0 に関連するものです。

初回リリース日: 2019 年 6 月 26 日

変更、拡張、解決した問題

  • Updated the default Amazon Linux AMI for EMR to include important Linux kernel security updates, including the TCP SACK Denial of Service Issue (AWS-2019-005).

リリース 5.24.0

次のリリースノートには、Amazon EMR リリースバージョン 5.24.0 に関する情報が含まれています。変更は 5.23.0 に関連するものです。

初回リリース日: 2019 年 6 月 11 日

最終更新日: 2019 年 8 月 5 日

アップグレード

  • Flink 1.8.0

  • Hue 4.4.0

  • JupyterHub 0.9.6

  • Livy 0.6.0

  • MxNet 1.4.0

  • Presto 0.219

  • Spark 2.4.2

  • AWS SDK for Java 1.11.546

  • コネクタおよびドライバ:

    • DynamoDB コネクタ 4.9.0

    • MariaDB コネクタ 2.4.1

    • Amazon Redshift JDBC ドライバ 1.2.27.1051

変更、拡張、解決した問題

  • Spark

    • 動的にパーティションを整理できるように最適化が追加されました。この最適化はデフォルトで無効になっています。この設定を有効にするには、Spark 設定パラメータ spark.sql.dynamicPartitionPruning.enabledtrue に設定します。

    • INTERSECT のクエリのパフォーマンスが改善されました。この最適化はデフォルトで無効になっています。この設定を有効にするには、Spark 設定パラメータ spark.sql.optimizer.distinctBeforeIntersect.enabledtrue に設定します。

    • 同じ関係を使用する集計を使用してスカラーサブクエリを平坦化するための最適化が追加されました。この最適化はデフォルトで無効になっています。この設定を有効にするには、Spark 設定パラメータ spark.sql.optimizer.flattenScalarSubqueriesWithAggregates.enabledtrue に設定します。

    • ステージコードの生成が全体的に改善されました。

    詳細については、「Spark パフォーマンスの最適化」を参照してください。

  • セキュリティ設定におけるローカルディスクの暗号化と S3 暗号化の改善 (2019 年 8 月 5 日)

    • セキュリティ設定のセットアップで、ローカルディスク暗号化設定から Amazon S3 暗号化設定を分離しました。

    • EBS 暗号化を有効にするオプションを追加しました。このオプションを選択すると、ストレージボリュームに加えてルートデバイスボリュームが暗号化されます。以前のバージョンでは、カスタム AMI を使用してルートデバイスボリュームを暗号化する必要がありました。

    • 詳細については、Amazon EMR 管理ガイドの「暗号化オプション」を参照してください。

リリース 5.23.0

次のリリースノートには、Amazon EMR リリースバージョン 5.23.0 に関する情報が含まれています。変更は 5.22.0 に関連するものです。

初回リリース日: 2019 年 4 月 1 日

最終更新日: 2019 年 4 月 30 日

アップグレード

  • AWS SDK for Java 1.11.519

新機能

  • (2019 年 4 月 30 日) Amazon EMR 5.23.0 以降では、YARN リソースマネージャー、HDFS 名前ノード、Spark、Hive、Ganglia といったアプリケーションの高可用性をサポートできるように、3 つのマスターノードでクラスターを起動できます。マスターノードは、現在この機能による潜在的な単一障害点ではありません。マスターノードのいずれかに障害が発生した場合、Amazon EMR は、自動的にスタンバイマスターノードにフェイルオーバーされ、障害が発生したマスターノードを同じ構成およびブートストラップアクションを持つ新しいマスターノードに置き換えられます。詳細については、「マスターノードの計画と構成」を参照してください。

既知の問題

  • Tez UI (Amazon EMR リリースバージョン 5.26.0 で修正)

    Tez UI は、複数のマスターノードを含む EMR クラスターでは動作しません。

  • Hue (Amazon EMR リリースバージョン 5.24.0 で修正)

    • Amazon EMR で実行されている Hue は、Solr をサポートしていません。Amazon EMR リリースバージョン 5.20.0 以降、設定に問題があると、Solr が有効になり、無害なエラーメッセージが次のように表示されます。

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr エラーメッセージが表示されないようにするには:

      1. SSH を使用してマスターノードに接続します。

      2. テキストエディタを使用して、hue.ini ファイルを開きます。次に例を示します。

        sudo vim /etc/hue/conf/hue.ini

      3. 「appblacklist」という用語を検索して、該当の行を次のように変更します。

        appblacklist = search
      4. 変更を保存し、以下の例に示されているように Hue を再起動します。

        sudo stop hue; sudo start hue

リリース 5.22.0

次のリリースノートには、Amazon EMR リリースバージョン 5.22.0 に関する情報が含まれています。変更は 5.21.0 に関連するものです。

重要

Amazon EMR リリースバージョン 5.22.0 以降では、Amazon EMR は、AWS 署名バージョン 4 を排他的に使用して、Amazon S3 へのリクエストを認証します。それ以前の Amazon EMR リリースバージョンでは、AWS 署名バージョン 2 を使用する場合があります。ただし、署名バージョン 4 が排他的に使用されていることがリリースノートで示されている場合を除きます。詳細については、『Amazon Simple Storage Service 開発者ガイド』の「リクエストの認証 (AWS 署名バージョン 4)」および「リクエストの認証 (AWS 署名バージョン 2)」を参照してください。

初回リリース日: 2019 年 3 月 20 日

アップグレード

  • Flink 1.7.1

  • HBase 1.4.9

  • Oozie 5.1.0

  • Phoenix 4.14.1

  • Zeppelin 0.8.1

  • コネクタおよびドライバ:

    • DynamoDB コネクタ 4.8.0

    • MariaDB コネクタ 2.2.6

    • Amazon Redshift JDBC ドライバ 1.2.20.1043

新機能

  • EBS 専用ストレージを使用する EC2 インスタンスタイプの EBS のデフォルト設定を変更しました。Amazon EMR リリースバージョン 5.22.0 以降を使用してクラスターを作成する場合、デフォルトの EBS ストレージサイズは、インスタンスのサイズに基づいて増加します。さらに、増加したストレージは複数のボリュームに分割されます。これにより、IOPS のパフォーマンスが向上しました。別の EBS インスタンスストレージ設定を使用する場合は、EMR クラスターを作成する際、または既存のクラスターをノードに追加する際に指定することができます。各インスタンスタイプにデフォルトで割り当てられているストレージ容量とボリューム数の詳細については、Amazon EMR 管理ガイド の「インスタンスのデフォルト EBS ストレージ」を参照してください。

変更、拡張、解決した問題

  • Spark

    • YARN の Spark に新しい設定プロパティ spark.yarn.executor.memoryOverheadFactor を追加しました。このプロパティの値は、メモリのオーバーヘッドの値をエグゼキュターのメモリの割合 (%) に設定するスケールファクタで、最小 384 MBです。spark.yarn.executor.memoryOverhead を使用してメモリのオーバーヘッドが明示的に設定されている場合、このプロパティの影響はありません。デフォルト値は 0.1875 であり、18.75% を表します。この Amazon EMR のデフォルト値によって、Spark によって内部的に設定された 10% のデフォルトよりも多くのスペースが、エグゼキュターのメモリのオーバーヘッド用に YARN コンテナに残ります。Amazon EMR のデフォルトの 18.75% は、経験的に TPC-DS ベンチマークでメモリ関連の失敗が少ないことを示していました。

    • SPARK-26316 をバックポートし、パフォーマンスが向上しました。

  • Amazon EMR バージョン 5.19.0、5.20.0、および 5.21.0 では、YARN ノードラベルは HDFS ディレクトリに保存されます。状況によっては、これがコアノード起動の遅延に続いて、クラスターのタイムアウトと起動失敗の原因になります。Amazon EMR 5.22.0 以降では、この問題は解決されています。YARN ノードラベルは各クラスターノードのローカルディスクに保存され、HDFS への依存関係が回避されます。

既知の問題

  • Hue (Amazon EMR リリースバージョン 5.24.0 で修正)

    • Amazon EMR で実行されている Hue は、Solr をサポートしていません。Amazon EMR リリースバージョン 5.20.0 以降、設定に問題があると、Solr が有効になり、無害なエラーメッセージが次のように表示されます。

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr エラーメッセージが表示されないようにするには:

      1. SSH を使用してマスターノードに接続します。

      2. テキストエディタを使用して、hue.ini ファイルを開きます。次に例を示します。

        sudo vim /etc/hue/conf/hue.ini

      3. 「appblacklist」という用語を検索して、該当の行を次のように変更します。

        appblacklist = search
      4. 変更を保存し、以下の例に示されているように Hue を再起動します。

        sudo stop hue; sudo start hue

リリース 5.21.1

次のリリースノートには、Amazon EMR リリースバージョン 5.21.1 に関する情報が含まれています。変更は 5.21.0 に関連するものです。

初回リリース日: 2019 年 7 月 18 日

変更、拡張、解決した問題

  • Updated the default Amazon Linux AMI for EMR to include important Linux kernel security updates, including the TCP SACK Denial of Service Issue (AWS-2019-005).

リリース 5.21.0

次のリリースノートには、Amazon EMR リリースバージョン 5.21.0 に関する情報が含まれています。変更は 5.20.0 に関連するものです。

リリース日: 2019 年 2 月 18 日

最終更新日: 2019 年 4 月 3 日

アップグレード

  • Flink 1.7.0

  • Presto 0.215

  • AWS SDK for Java 1.11.479

新機能

  • (2019 年 4 月 3 日) Amazon EMR バージョン 5.21.0 以降では、実行中のクラスター内のインスタンスグループごとに、クラスタ設定を上書きして追加の設定分類を指定できます。これを行うには、Amazon EMR コンソール、AWS Command Line Interface (AWS CLI)、または AWS SDK を使用します。詳細については、「実行中のクラスター内のインスタンスグループの設定を指定する」を参照してください。

変更、拡張、解決した問題

既知の問題

  • Hue (Amazon EMR リリースバージョン 5.24.0 で修正)

    • Amazon EMR で実行されている Hue は、Solr をサポートしていません。Amazon EMR リリースバージョン 5.20.0 以降、設定に問題があると、Solr が有効になり、無害なエラーメッセージが次のように表示されます。

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr エラーメッセージが表示されないようにするには:

      1. SSH を使用してマスターノードに接続します。

      2. テキストエディタを使用して、hue.ini ファイルを開きます。次に例を示します。

        sudo vim /etc/hue/conf/hue.ini

      3. 「appblacklist」という用語を検索して、該当の行を次のように変更します。

        appblacklist = search
      4. 変更を保存し、以下の例に示されているように Hue を再起動します。

        sudo stop hue; sudo start hue
  • Tez

    • この問題は、Amazon EMR 5.22.0 で修正されました。

      クラスターマスターノードに SSH 接続して Tez UI (MasterDNS:8080/tez-ui) に接続すると、エラー「Adapter operation failed - Timeline server (ATS) is out of reach.Either it is down, or CORS is not enabled」が表示されるか、意図せずにタスクに N/A と表示されます。

      これは、Tez UI がマスターノードのホスト名ではなく localhost を使用して YARN タイムラインサーバーにリクエストが送信されたことが原因です。回避策として、スクリプトをブートストラップアクションまたはステップとして実行することができます。このスクリプトによって、Tez の configs.env ファイルのホスト名がアップデートされます。スクリプトの詳細や場所については、「ブートストラップの手順」を参照してください。

  • Amazon EMR バージョン 5.19.0、5.20.0、および 5.21.0 では、YARN ノードラベルは HDFS ディレクトリに保存されます。状況によっては、これがコアノード起動の遅延に続いて、クラスターのタイムアウトと起動失敗の原因になります。Amazon EMR 5.22.0 以降では、この問題は解決されています。YARN ノードラベルは各クラスターノードのローカルディスクに保存され、HDFS への依存関係が回避されます。

リリース 5.20.0

次のリリースノートには、Amazon EMR リリースバージョン 5.20.0 に関する情報が含まれています。変更は 5.19.0 に関連するものです。

初回リリース日: 2018 年 12 月 18 日

最終更新日: 2019 年 1 月 22 日

アップグレード

  • Flink 1.6.2

  • HBase 1.4.8

  • Hive 2.3.4

  • Hue 4.3.0

  • MXNet 1.3.1

  • Presto 0.214

  • Spark 2.4.0

  • TensorFlow 1.12.0

  • Tez 0.9.1

  • AWS SDK for Java 1.11.461

新機能

  • (2019 年 1 月 22 日) Amazon EMR の Kerberos は、外部 KDC からのプリンシパルの認証をサポートするように改良されました。これにより、複数のクラスターが単一の外部 KDC を共有できるため、プリンシパル管理が集中化されます。さらに、外部 KDC は Active Directory ドメインとのクロス領域信頼を得られます。これにより、すべてのクラスターが Active Directory からプリンシパルを認証できます。詳細については、Amazon EMR 管理ガイド の「Kerberos 認証を使用する」を参照してください。

変更、拡張、解決した問題

  • Amazon EMR のデフォルト Amazon Linux AMI

    • Python3 パッケージは Python 3.4 から 3.6 にアップグレードされました。

  • EMRFS S3 向けに最適化されたコミッター

  • Hive

  • Spark および Hive での Glue

    • EMR 5.20.0 以降で AWS Glue Data Catalog がメタストアとして使用されている場合、Spark と Hive に対して並列パーティションの削除が自動的に有効になります。この変更により、パーティションを取得するために複数のリクエストを並行して実行することで、クエリの計画時間は大幅に短縮されます。同時に実行できるセグメントの合計数は、1~10 の範囲です。デフォルト値は 5 です。この設定が推奨されています。この設定を変更するには、hive-site 設定分類のプロパティ aws.glue.partition.num.segments を指定します。スロットリングが発生した場合は、値を 1 に変更して機能を無効にすることができます。詳細については、「AWS Glue セグメント構造」を参照してください。

既知の問題

  • Hue (Amazon EMR リリースバージョン 5.24.0 で修正)

    • Amazon EMR で実行されている Hue は、Solr をサポートしていません。Amazon EMR リリースバージョン 5.20.0 以降、設定に問題があると、Solr が有効になり、無害なエラーメッセージが次のように表示されます。

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr エラーメッセージが表示されないようにするには:

      1. SSH を使用してマスターノードに接続します。

      2. テキストエディタを使用して、hue.ini ファイルを開きます。次に例を示します。

        sudo vim /etc/hue/conf/hue.ini

      3. 「appblacklist」という用語を検索して、該当の行を次のように変更します。

        appblacklist = search
      4. 変更を保存し、以下の例に示されているように Hue を再起動します。

        sudo stop hue; sudo start hue
  • Tez

    • この問題は、Amazon EMR 5.22.0 で修正されました。

      クラスターマスターノードに SSH 接続して Tez UI (MasterDNS:8080/tez-ui) に接続すると、エラー「Adapter operation failed - Timeline server (ATS) is out of reach.Either it is down, or CORS is not enabled」が表示されるか、意図せずにタスクに N/A と表示されます。

      これは、Tez UI がマスターノードのホスト名ではなく localhost を使用して YARN タイムラインサーバーにリクエストが送信されたことが原因です。回避策として、スクリプトをブートストラップアクションまたはステップとして実行することができます。このスクリプトによって、Tez の configs.env ファイルのホスト名がアップデートされます。スクリプトの詳細や場所については、「ブートストラップの手順」を参照してください。

  • Amazon EMR バージョン 5.19.0、5.20.0、および 5.21.0 では、YARN ノードラベルは HDFS ディレクトリに保存されます。状況によっては、これがコアノード起動の遅延に続いて、クラスターのタイムアウトと起動失敗の原因になります。Amazon EMR 5.22.0 以降では、この問題は解決されています。YARN ノードラベルは各クラスターノードのローカルディスクに保存され、HDFS への依存関係が回避されます。

リリース 5.19.0

次のリリースノートには、Amazon EMR リリースバージョン 5.19.0 に関する情報が含まれています。変更は 5.18.0 に関連するものです。

初回リリース日: 2018 年 11 月 7 日

最終更新日: 2018 年 11 月 19 日

アップグレード

  • Hadoop 2.8.5

  • Flink 1.6.1

  • JupyterHub 0.9.4

  • MXNet 1.3.0

  • Presto 0.212

  • TensorFlow 1.11.0

  • Zookeeper 3.4.13

  • AWS SDK for Java 1.11.433

新機能

  • (2018 年 11 月 19 日) EMR ノートブック は Jupyter Notebook に基づくマネージド環境です。PySpark、Spark SQL、Spark R、および Scala の Spark マジックカーネルをサポートします。EMR ノートブック は、Amazon EMR リリースバージョン 5.18.0 以降を使用して作成されたクラスターで使用できます。詳細については、Amazon EMR 管理ガイド の「EMR ノートブックの使用」を参照してください。

  • EMRFS S3 で最適化されたコミッターは、Spark および EMRFS を使用して Parquet ファイルを記述するときに利用できます。このコミッターにより、書き込みパフォーマンスが向上します。詳細については、「EMRFS S3 向けに最適化されたコミッターの使用」を参照してください。

変更、拡張、解決した問題

  • YARN

  • Amazon EMR のデフォルト Amazon Linux AMI

    • ruby18php56、および gcc48 はデフォルトでインストールされなくなりました。これらが必要な場合は、yum を使用してインストールできます。

    • aws-java-sdk ruby gem はデフォルトでインストールされなくなりました。必要な場合は、gem install aws-java-sdk を使用してインストールできます。特定のコンポーネントをインストールすることもできます。たとえば、gem install aws-java-sdk-s3 と指定します。

既知の問題

  • EMR ノートブック — 特定の状況で、複数のノートブックエディタが開いている場合、ノートブックエディタからクラスターに接続できないように表示されることがあります。このような場合は、ブラウザのクッキーを消去してノートブックエディタを再度開いてください。

  • CloudWatch ContainerPending メトリクスと Automatic Scaling (5.20.0 で修正) では、ContainerPending に対して負の値が出力される場合があります。ContainerPending が自動スケーリングルールで使用されている場合、自動スケーリングは正常に機能しません。ContainerPending を自動スケーリングで使用することは避けてください。

  • Amazon EMR バージョン 5.19.0、5.20.0、および 5.21.0 では、YARN ノードラベルは HDFS ディレクトリに保存されます。状況によっては、これがコアノード起動の遅延に続いて、クラスターのタイムアウトと起動失敗の原因になります。Amazon EMR 5.22.0 以降では、この問題は解決されています。YARN ノードラベルは各クラスターノードのローカルディスクに保存され、HDFS への依存関係が回避されます。

リリース 5.18.0

次のリリースノートには、Amazon EMR リリースバージョン 5.18.0 に関する情報が含まれています。変更は 5.17.0 に関連するものです。

初回リリース日: 2018 年 10 月 24 日

アップグレード

  • Flink 1.6.0

  • HBase 1.4.7

  • Presto 0.210

  • Spark 2.3.2

  • Zeppelin 0.8.0

新機能

変更、拡張、解決した問題

リリース 5.17.1

次のリリースノートには、Amazon EMR リリースバージョン 5.17.1 に関する情報が含まれています。変更は 5.17.0 に関連するものです。

初回リリース日: 2019 年 7 月 18 日

変更、拡張、解決した問題

  • Updated the default Amazon Linux AMI for EMR to include important Linux kernel security updates, including the TCP SACK Denial of Service Issue (AWS-2019-005).

リリース 5.17.0

次のリリースノートには、Amazon EMR リリースバージョン 5.17.0 に関する情報が含まれています。変更は 5.16.0 に関連するものです。

初回リリース日: 2018 年 8 月 30 日

アップグレード

  • Flink 1.5.2

  • HBase 1.4.6

  • Presto 0.206

新機能

  • Tensorflow のサポートを追加しました。詳細については、「TensorFlow」を参照してください。

変更、拡張、解決した問題

既知の問題

  • Livy がインストールされた Kerberos クラスターを作成すると、Livy はシンプルな認証が有効になっていないというエラーで失敗します。この問題は、Livy サーバーを再起動することで解決できます。回避策として、クラスター作成時にマスターノードで sudo restart livy-server を実行するステップを追加します。

  • 作成日が 2018 年 8 月 11 日の Amazon Linux AMI に基づくカスタムの Amazon Linux AMI を使用している場合、Oozie サーバーは起動できません。Oozie を使用する場合は、Amazon Linux AMI ID に基づくカスタム AMI を別の作成日で作成します。次の AWS CLI コマンドを使用して、2018.03 バージョンのすべての HVM Amazon Linux AMI のイメージ ID のリストをリリース日とともに返すことができるため、適切な Amazon Linux AMI をベースとして選択することができます。MyRegion を、リージョン ID (us-west-2 など) と置き換えます。

    aws ec2 --region MyRegion describe-images --owner amazon --query 'Images[?Name!=`null`]|[?starts_with(Name, `amzn-ami-hvm-2018.03`) == `true`].[CreationDate,ImageId,Name]' --output text | sort -rk1

リリース 5.16.0

次のリリースノートには、Amazon EMR リリースバージョン 5.16.0 に関する情報が含まれています。変更は 5.15.0 に関連するものです。

初回リリース日: 2018 年 7 月 19 日

アップグレード

  • Hadoop 2.8.4

  • Flink 1.5.0

  • Livy 0.5.0

  • MXNet 1.2.0

  • Phoenix 4.14.0

  • Presto 0.203

  • Spark 2.3.1

  • AWS SDK for Java 1.11.336

  • CUDA 9.2

  • Redshift JDBC ドライバー 1.2.15.1025

変更、拡張、解決した問題

  • HBase

  • Presto

  • Spark

    • Apache Spark バージョン 2.3.1 は、Amazon EMR リリース 5.16.0 以降から、CVE-2018-8024CVE-2018-1334 に対応しています。以前のバージョンの Spark をバージョン 2.3.1 以降に移行することをお勧めします。

既知の問題

  • このリリースバージョンは c1.medium または m1.small インスタンスタイプをサポートしていません。これらのインスタンスタイプのいずれかを使用しているクラスターは起動に失敗します。回避策として、別のインスタンスタイプを指定するか、別のリリースバージョンを使用してください。

  • Livy がインストールされた Kerberos クラスターを作成すると、Livy はシンプルな認証が有効になっていないというエラーで失敗します。この問題は、Livy サーバーを再起動することで解決できます。回避策として、クラスター作成時にマスターノードで sudo restart livy-server を実行するステップを追加します。

リリース 5.15.0

次のリリースノートには、Amazon EMR リリースバージョン 5.15.0 に関する情報が含まれています。変更は 5.14.0 に対するものです。

初回リリース日: 2018 年 6 月 21 日

アップグレード

  • HBase が 1.4.4 にアップグレードしました

  • Hive を 2.3.3 にアップグレードしました

  • Hue を 4.2.0 にアップグレードしました

  • Oozie を 5.0.0 にアップグレードしました

  • Zookeeper を 3.4.12 にアップグレードしました

  • AWS SDK を 1.11.333 にアップグレードしました

変更、拡張、解決した問題

  • Hive

  • Hue

    • Kerberos が有効になっているときに Livy で正しく認証されるように Hue を更新しました。Kerberos を Amazon EMR で使用するときに Livy がサポートされるようになりました。

  • JupyterHub

    • Amazon EMR がデフォルトで LDAP クライアントライブラリをインストールするように JupyterHub を更新しました。

    • 自己署名証明書を生成するスクリプトでのエラーを修正しました。この問題の詳細については、「リリースノート」を参照してください。

既知の問題

  • このリリースバージョンは c1.medium または m1.small インスタンスタイプをサポートしていません。これらのインスタンスタイプのいずれかを使用しているクラスターは起動に失敗します。回避策として、別のインスタンスタイプを指定するか、別のリリースバージョンを使用してください。

リリース 5.14.1

次のリリースノートには、Amazon EMR リリースバージョン 5.14.1 に関する情報が含まれています。変更は 5.14.0 に関連するものです。

初回リリース日: 2018 年 10 月 17 日

Amazon EMR のデフォルト AMI を更新し、セキュリティ脆弱性の原因に対処しました。

リリース 5.14.0

次のリリースノートには、Amazon EMR リリースバージョン 5.14.0 に関する情報が含まれています。変更は 5.13.0 に関連するものです。

初回リリース日: 2018 年 6 月 4 日

アップグレード

  • Apache Flink を 1.4.2 にアップグレード

  • Apache MXnet を 1.1.0 にアップグレード

  • Apache Sqoop を 1.4.7 にアップグレード

新機能

  • JupyterHub のサポートを追加しました。詳細については、「JupyterHub」を参照してください。

変更、拡張、解決した問題

  • EMRFS

    • Amazon S3 へのリクエスト内の userAgent 文字列を、呼び出し元のプリンシパルのユーザーおよびグループ情報を含むように更新しました。この文字列は、より包括的なリクエストの追跡のために AWS CloudTrail ログで使用できます。

  • HBase

    • HBASE-20447 を含めました。これは、特に分割リージョンでキャッシュの問題を発生させる可能性がある問題に対応します。

  • MXnet

    • OpenCV ライブラリを追加しました。

  • Spark

    • Spark が EMRFS を使用して Parquet ファイルを Amazon S3 の場所に書き込むときに、FileOutputCommitter のバージョン 1 ではなくバージョン 2 を使用するように、そのアルゴリズムを更新しました。これにより、名前変更の回数が減り、アプリケーションのパフォーマンスが向上します。この変更は以下のアプリケーションには影響を与えません。

      • Spark 以外のアプリケーション。

      • HDFS などの他のファイルシステムに書き込むアプリケーション (FileOutputCommitter のバージョン 1 を使用)。

      • EMRFS の直接書き込みを採用済みの他の出力形式 (text や csv など) を使用するアプリケーション。

既知の問題

  • JupyterHub

    • クラスターの作成時に設定分類を使用して JupyterHub と個々の Jupyter ノートブックを設定することはサポートされていません。各ユーザーの jupyterhub_config.py ファイルと jupyter_notebook_config.py ファイルを手動で編集してください。詳細については、「JupyterHub の設定」を参照してください。

    • JupyterHub はプライベートサブネット内のクラスターで開始できず、メッセージ Error: ENOENT: no such file or directory, open '/etc/jupyter/conf/server.crt' を表示して失敗します。これは自己署名証明書を生成するスクリプトでのエラーが原因です。次の回避策を使用して、自己署名証明書を生成します。マスターノードに接続中はすべてのコマンドが実行されます。

      1. コンテナからマスターノードに証明書生成スクリプトをコピーします。

        sudo docker cp jupyterhub:/tmp/gen_self_signed_cert.sh ./
      2. 次に示すように、テキストエディタを使用して行 23 を変更し、パブリックホスト名をローカルホスト名に変更します。

        local hostname=$(curl -s $EC2_METADATA_SERVICE_URI/local-hostname)
      3. 自己署名証明書を生成するスクリプトを実行します。

        sudo bash ./gen_self_signed_cert.sh
      4. スクリプトで生成される証明書ファイルを、/etc/jupyter/conf/ ディレクトリに移動します。

        sudo mv /tmp/server.crt /tmp/server.key /etc/jupyter/conf/

      tail ファイルに対して jupyter.log を実行して、JupyterHub が再起動し、200 レスポンスコードを返すことを確認します。次に例を示します。

      tail -f /var/log/jupyter/jupyter.log

      次のようなレスポンスが返されるはずです。

      # [I 2018-06-14 18:56:51.356 JupyterHub app:1581] JupyterHub is now running at https://:9443/ # 19:01:51.359 - info: [ConfigProxy] 200 GET /api/routes

リリース 5.13.0

次のリリースノートには、Amazon EMR リリースバージョン 5.13.0 に関する情報が含まれています。変更は 5.12.0 に対するものです。

アップグレード

  • Spark が 2.3.0 にアップグレードしました

  • HBase が 1.4.2 にアップグレードしました

  • Presto を 0.194 にアップグレードしました

  • AWS Java SDK が 1.11.297 にアップグレードしました

変更、拡張、解決した問題

  • Hive

    • HIVE-15436 を移植しました。Hive API が拡張され、ビューのみを返すようになりました。

既知の問題

  • MXNet には現在 OpenCV ライブラリは含まれていません。

リリース 5.12.2

次のリリースノートには、Amazon EMR リリースバージョン 5.12.2 に関する情報が含まれています。変更は 5.12.1 に関連するものです。

初回リリース日: 2018 年 8 月 29 日

変更、拡張、解決した問題

  • このリリースでは、潜在的なセキュリティの脆弱性の問題が解決されています。

リリース 5.12.1

次のリリースノートには、Amazon EMR リリースバージョン 5.12.1 に関する情報が含まれています。変更は 5.12.0 に対するものです。

初回リリース日: 2018 年 3 月 29 日

変更、拡張、解決した問題

  • 潜在的な脆弱性に対処するために Amazon EMR のデフォルトの Amazon Linux AMI の Amazon Linux カーネルを更新しました。

リリース 5.12.0

次のリリースノートには、Amazon EMR リリースバージョン 5.12.0 に関する情報が含まれています。変更は 5.11.1 に対するものです。

アップグレード

変更、拡張、解決した問題

  • Hadoop

    • yarn.resourcemanager.decommissioning.timeout プロパティは yarn.resourcemanager.nodemanager-graceful-decommission-timeout-secs に変更されました。このプロパティを使用して、クラスターのスケールダウンをカスタマイズできます。詳細については、Amazon EMR 管理ガイド の「クラスターのスケールダウン」を参照してください。

    • Hadoop CLI で、直接のコピーを指定する cp (コピー) コマンドに -d オプションが追加されました。これを使用して、Amazon S3 との間のデータのコピーを高速化する中間の .COPYING ファイルを作成することを回避できます。詳細については、「HADOOP-12384」を参照してください。

  • Pig

    • Pig 環境プロパティの設定を簡素化する、pig-env 設定分類を追加しました。詳細については、「アプリケーションの設定」を参照してください。

  • Presto

    • Presto の redshift.properties 設定ファイルで値を設定するために使用できる、presto-connector-redshift 設定分類を追加しました。詳細については、Presto のドキュメントの Redshift コネクタについて、および「アプリケーションの設定」を参照してください。

    • EMRFS に対する Presto のサポートが追加され、これがデフォルト設定となりました。以前の Amazon EMR リリースバージョンでは、PrestoS3FileSystem が使用され、これが唯一のオプションでした。詳細については、「EMRFS と PrestoS3FileSystem の設定」を参照してください。

      注記

      Amazon EMR リリースバージョン 5.12.0 を使用して Amazon S3 にある基盤となるデータをクエリする際に、設定の問題で Presto のエラーが発生することがあります。これは、Presto が emrfs-site.xml からの設定分類値の取得に失敗するためです。回避策として、usr/lib/presto/plugin/hive-hadoop2/ の下に emrfs サブディレクトリを作成し、usr/lib/presto/plugin/hive-hadoop2/emrfs に既存の /usr/share/aws/emr/emrfs/conf/emrfs-site.xml ファイルへのシンボリックリンクを作成してから、presto-server プロセス (sudo presto-server stop の次に sudo presto-server start) を再起動します。

  • Spark

既知の問題

  • MXNet には OpenCV ライブラリは含まれていません。

  • R はクラスターノードではデフォルトでインストールされないため、SparkR はカスタム AMI を使用して作成されるクラスターでは利用できません。

リリース 5.11.3

次のリリースノートには、Amazon EMR リリースバージョン 5.11.3 に関する情報が含まれています。変更は 5.11.2 に関連するものです。

初回リリース日: 2019 年 7 月 18 日

変更、拡張、解決した問題

  • Updated the default Amazon Linux AMI for EMR to include important Linux kernel security updates, including the TCP SACK Denial of Service Issue (AWS-2019-005).

リリース 5.11.2

次のリリースノートには、Amazon EMR リリースバージョン 5.11.2 に関する情報が含まれています。変更は 5.11.1 に関連するものです。

初回リリース日: 2018 年 8 月 29 日

変更、拡張、解決した問題

  • このリリースでは、潜在的なセキュリティの脆弱性の問題が解決されています。

リリース 5.11.1

次のリリースノートには、Amazon EMR バージョン 5.11.1 に関する情報が含まれています。変更点は、Amazon EMR 5.11.0 リリースに関連するものです。

初回リリース日: 2018 年 1 月 22 日

変更、拡張、解決した問題

  • Amazon EMR 用のデフォルトの Amazon Linux AMI の Amazon Linux カーネルを更新して、投機的実行に関連する脆弱性に対処します (CVE-2017-5715、CVE-2017-5753、および CVE-2017-5754)。詳細については、「https://aws.amazon.com/security/security-bulletins/AWS-2018-013/」を参照してください。

既知の問題

  • MXNet には OpenCV ライブラリは含まれていません。

  • Hive 2.3.2 では hive.compute.query.using.stats=true がデフォルト設定になっています。これにより、クエリではデータが直接ではなく既存の統計から取得されるため、混乱が生じる場合があります。たとえば、hive.compute.query.using.stats=true が設定されたテーブルの LOCATION に新しいファイルをアップロードした場合、テーブルに対して SELECT COUNT(*) クエリを実行すると、追加された行がカウントされずに、統計からカウントが返されます。

    回避策として、ANALYZE TABLE コマンドを使用して新しい統計を収集するか、hive.compute.query.using.stats=false を設定します。詳細については、Apache Hive ドキュメントの「Statistics in Hive」を参照してください。

リリース 5.11.0

次のリリースノートには、Amazon EMR バージョン 5.11.0 に関する情報が含まれています。変更点は、Amazon EMR 5.10.0 リリースに関連するものです。

アップグレード

このリリースでは、以下のアプリケーションおよびコンポーネントがアップグレードされ、以下のバージョンが含められています。

  • Hive 2.3.2

  • Spark 2.2.1

  • SDK for Java 1.11.238

新機能

  • Spark

    • spark.decommissioning.timeout.threshold 設定が追加されました。スポットインスタンス使用時の Spark 廃棄の動作が向上します。詳細については、「ノード停止の動作設定」を参照してください。

    • aws-sagemaker-spark-sdk コンポーネントが Spark に追加されました。Amazon SageMaker Spark および Spark の Amazon SageMaker との統合用の関連依存関係をインストールします。Amazon SageMaker Spark を使用して、Amazon SageMaker のステージを使用した Spark 機械学習 (ML) パイプラインを作成できます。詳細については、GitHub の SageMaker Spark Readme および Amazon SageMaker 開発者ガイドUsing Apache Spark with Amazon SageMaker を参照してください。

既知の問題

  • MXNet には OpenCV ライブラリは含まれていません。

  • Hive 2.3.2 では hive.compute.query.using.stats=true がデフォルト設定になっています。これにより、クエリではデータが直接ではなく既存の統計から取得されるため、混乱が生じる場合があります。たとえば、hive.compute.query.using.stats=true が設定されたテーブルの LOCATION に新しいファイルをアップロードした場合、テーブルに対して SELECT COUNT(*) クエリを実行すると、追加された行がカウントされずに、統計からカウントが返されます。

    回避策として、ANALYZE TABLE コマンドを使用して新しい統計を収集するか、hive.compute.query.using.stats=false を設定します。詳細については、Apache Hive ドキュメントの「Statistics in Hive」を参照してください。

リリース 5.10.0

次のリリースノートには、Amazon EMR バージョン 5.10.0 に関する情報が含まれています。変更点は、Amazon EMR 5.9.0 リリースに関連するものです。

アップグレード

このリリースでは、以下のアプリケーションおよびコンポーネントがアップグレードされ、以下のバージョンが含められています。

  • AWS SDK for Java 1.11.221

  • Hive 2.3.1

  • Presto 0.187

新機能

  • Kerberos 認証のサポートが追加されました。詳細については、Amazon EMR 管理ガイドの「Kerberos 認証を使用する」を参照してください。

  • Amazon S3 への EMRFS リクエストの IAM ロールのサポートが追加されました。詳細については、Amazon EMR 管理ガイドの「Amazon S3 への EMRFS リクエストの IAM ロールを設定する」を参照してください。

  • GPU ベースの P2 および P3 のインスタンスタイプのサポートが追加されました。詳細については、「Amazon EC2 P2 インスタンス」および「Amazon EC2 P3 インスタンス」を参照してください。これらのインスタンスタイプには、デフォルトで NVIDIA ドライバ 384.81 および CUDA ドライバ 9.0.176 がインストールされています。

  • Apache MXNet のサポートが追加されました。

変更、拡張、解決した問題

  • Presto

  • Spark

    • SPARK-20640」をバックポートしました。これにより、spark.shuffle.registration.timeout プロパティおよび spark.shuffle.registration.maxAttempts プロパティを使用して、rpc タイムアウトや、シャッフル登録値の再試行回数が設定可能になりました。

    • SPARK-21549」をバックポートしました。これにより、カスタムの OutputFormat を HDFS 以外の場所に書き出す際に発生するエラーが修正されます。

  • Hadoop-13270」をバックポートしました。

  • Numpy、Scipy、Matplotlib ライブラリは、Amazon EMR の基本 AMI より削除されています。アプリケーションでこれらのライブラリが必要な場合、アプリケーションリポジトリで使用できるため、ブートストラップアクションで yum install を使用してすべてのノードにインストールすることができます。

  • Amazon EMR の基本 AMI からアプリケーションの RPM パッケージがなくなったため、その RPM パッケージはクラスターノードに存在しません。カスタム AMI と Amazon EMR の基本 AMI で、Amazon S3 の RPM パッケージリポジトリを参照できるようになりました。

  • Amazon EC2 で秒単位の請求が導入されたため、デフォルトの [Scale down behavior (スケールダウン動作)] は [Terminate at instance hour (インスタンス時間で終了)] ではなく [Terminate at task completion (タスク完了時に終了)] になっています。詳細については、「クラスターのスケールダウンを設定する」を参照してください。

既知の問題

  • MXNet には OpenCV ライブラリは含まれていません。

  • Hive 2.3.1 では hive.compute.query.using.stats=true がデフォルト設定になっています。これにより、クエリではデータが直接ではなく既存の統計から取得されるため、混乱が生じる場合があります。たとえば、hive.compute.query.using.stats=true が設定されたテーブルの LOCATION に新しいファイルをアップロードした場合、テーブルに対して SELECT COUNT(*) クエリを実行すると、追加された行がカウントされずに、統計からカウントが返されます。

    回避策として、ANALYZE TABLE コマンドを使用して新しい統計を収集するか、hive.compute.query.using.stats=false を設定します。詳細については、Apache Hive ドキュメントの「Statistics in Hive」を参照してください。

リリース 5.9.0

次のリリースノートには、Amazon EMR バージョン 5.9.0 に関する情報が含まれています。変更点は、Amazon EMR 5.8.0 リリースに関連するものです。

リリース日: 2017 年 10 月 5 日

最新機能更新日: 2017 年 10 月 12 日

アップグレード

このリリースでは、以下のアプリケーションおよびコンポーネントがアップグレードされ、以下のバージョンが含められています。

  • AWS SDK for Java バージョン 1.11.183

  • Flink 1.3.2

  • Hue 4.0.1

  • Pig 0.17.0

  • Presto 0.184

新機能

  • Livy サポート (バージョン 0.4.0-incubating) を追加しました。詳細については、「Apache Livy」を参照してください。

  • Spark の Hue ノートブックのサポートを追加しました。

  • i3-シリーズ Amazon EC2 インスタンスのサポートを追加しました (2017 年 10 月 12 日)。

変更、拡張、解決した問題

  • Spark

    • 手動のサイズ変更または自動のスケーリングポリシーのリクエストによるノードの終了処理を、Spark がより適切に行う、新しい機能のセットを追加しました。詳細については、「ノード停止の動作設定」を参照してください。

    • ブロック転送サービスの転送時の暗号化には 3DES に代わり SSL を使用します。これにより AES-NI での Amazon EC2 インスタンスタイプの使用時にパフォーマンスが向上します。

    • SPARK-21494 を移植しました。

  • Zeppelin

  • HBase

    • パッチ HBASE-18533 を追加しました。これにより、hbase-site 設定分類を使用して、HBase BucketCache 設定の値を追加できます。

  • Hue

    • Hue の Hive クエリエディタの AWS Glue Data Catalog サポートを追加しました。

    • デフォルトでは、Hue のスーパーユーザーは、Amazon EMR の IAM ロールがアクセス可能なすべてのファイルにアクセスできます。新しく作成されたユーザーには、Amazon S3 ファイルブラウザへのアクセス許可は自動的には付与されません。グループに対して filebrowser.s3_access アクセス許可を有効にする必要があります。

  • AWS Glue Data Catalog を使って作成された、基盤となる JSON データがアクセスできなくなる問題を解決しました。

既知の問題

  • すべてのアプリケーションがインストールされ、デフォルトの Amazon EBS ルートボリュームサイズが変更されていない場合、クラスターの起動は失敗します。回避策として、AWS CLI から aws emr create-cluster コマンドを使用し、より大きな --ebs-root-volume-size パラメータを指定します。

  • Hive 2.3.0 では hive.compute.query.using.stats=true がデフォルト設定になっています。これにより、クエリではデータが直接ではなく既存の統計から取得されるため、混乱が生じる場合があります。たとえば、hive.compute.query.using.stats=true が設定されたテーブルの LOCATION に新しいファイルをアップロードした場合、テーブルに対して SELECT COUNT(*) クエリを実行すると、追加された行がカウントされずに、統計からカウントが返されます。

    回避策として、ANALYZE TABLE コマンドを使用して新しい統計を収集するか、hive.compute.query.using.stats=false を設定します。詳細については、Apache Hive ドキュメントの「Statistics in Hive」を参照してください。

リリース 5.8.2

次のリリースノートには、Amazon EMR リリースバージョン 5.8.2 に関する情報が含まれています。変更は 5.8.1 に対するものです。

初回リリース日: 2018 年 3 月 29 日

変更、拡張、解決した問題

  • 潜在的な脆弱性に対処するために Amazon EMR のデフォルトの Amazon Linux AMI の Amazon Linux カーネルを更新しました。

リリース 5.8.1

次のリリースノートには、Amazon EMR バージョン 5.8.1 に関する情報が含まれています。変更点は、Amazon EMR 5.8.0 リリースに関連するものです。

初回リリース日: 2018 年 1 月 22 日

変更、拡張、解決した問題

  • Amazon EMR 用のデフォルトの Amazon Linux AMI の Amazon Linux カーネルを更新して、投機的実行に関連する脆弱性に対処します (CVE-2017-5715、CVE-2017-5753、および CVE-2017-5754)。詳細については、「https://aws.amazon.com/security/security-bulletins/AWS-2018-013/」を参照してください。

リリース 5.8.0

次のリリースノートには、Amazon EMR バージョン 5.8.0 に関する情報が含まれています。変更点は、Amazon EMR 5.7.0 リリースに関連するものです。

初回リリース日: 2017 年 8 月 10 日

最新機能更新日: 2017 年 9 月 25 日

アップグレード

このリリースでは、以下のアプリケーションおよびコンポーネントがアップグレードされ、以下のバージョンが含められています。

  • AWS SDK 1.11.160

  • Flink 1.3.1

  • Hive 2.3.0。詳細については、Apache Hive サイトの「リリースノート」を参照してください。

  • Spark 2.2.0。詳細については、Apache Spark サイトの「リリースノート」を参照してください。

新機能

  • アプリケーション履歴の表示のサポートを追加しました (2017 年 9 月 25 日)。詳細については、Amazon EMR 管理ガイドの「アプリケーション履歴の表示」を参照してください。

変更、拡張、解決した問題

  • AWS Glue Data Catalog との統合

  • クラスター詳細の [Application history] を追加しました。これにより、YARN アプリケーションの履歴データや、Spark アプリケーションの追加の詳細を表示できます。詳細については、Amazon EMR 管理ガイドの「アプリケーション履歴の表示」を参照してください。

  • Oozie

  • Hue

    • HUE-5859 をバックポートしました。

  • HBase

    • getMasterInitializedTime を使用して Java Management Extensions (JMX) 経由で HBase マスターサーバーの開始時間を公開するパッチを追加しました。

    • クラスターの開始時間を改善するパッチを追加しました。

既知の問題

  • すべてのアプリケーションがインストールされ、デフォルトの Amazon EBS ルートボリュームサイズが変更されていない場合、クラスターの起動は失敗します。回避策として、AWS CLI から aws emr create-cluster コマンドを使用し、より大きな --ebs-root-volume-size パラメータを指定します。

  • Hive 2.3.0 では hive.compute.query.using.stats=true がデフォルト設定になっています。これにより、クエリではデータが直接ではなく既存の統計から取得されるため、混乱が生じる場合があります。たとえば、hive.compute.query.using.stats=true が設定されたテーブルの LOCATION に新しいファイルをアップロードした場合、テーブルに対して SELECT COUNT(*) クエリを実行すると、追加された行がカウントされずに、統計からカウントが返されます。

    回避策として、ANALYZE TABLE コマンドを使用して新しい統計を収集するか、hive.compute.query.using.stats=false を設定します。詳細については、Apache Hive ドキュメントの「Statistics in Hive」を参照してください。

  • Spark—Spark を使用する場合、apppusher デーモンには、長時間実行されている Spark ジョブで数時間または数日後に発生する可能性があるファイルハンドラのリークの問題があります。この問題を修正するには、マスターノードに接続し、「sudo /etc/init.d/apppusher stop」と入力します。これにより、その apppusher デーモンが停止し、Amazon EMR は自動的に再起動します。

  • アプリケーションの履歴

    • Spark のデッドエグゼキュータの履歴データは利用できません。

    • アプリケーション履歴は、セキュリティ設定を使用してインフライト暗号化を有効にするクラスターでは利用できません。

リリース 5.7.0

次のリリースノートには、Amazon EMR 5.7.0 に関する情報が含まれています。変更点は、Amazon EMR 5.6.0 リリースに関連するものです。

リリース日: 2017 年 7 月 13 日

アップグレード

  • Flink 1.3.0

  • Phoenix 4.11.0

  • Zeppelin 0.7.2

新機能

  • クラスターの作成時に、カスタム Amazon Linux AMI を指定する機能を追加しました。詳細については、「Using a Custom AMI」を参照してください。

変更、拡張、解決した問題

  • HBase

    • HBase のリードレプリカクラスターを設定する機能を追加しました。詳細については、「リードレプリカクラスターの使用」を参照してください。

    • 複数のバグ修正と機能強化

  • Prestonode.properties を設定する機能を追加しました。

  • YARNcontainer-log4j.properties を設定する機能を追加しました。

  • SqoopSQOOP-2880 をバックポートしました。Sqoop 一時ディレクトリを設定できる引数が導入されています。

リリース 5.6.0

次のリリースノートには、Amazon EMR 5.6.0 に関する情報が含まれています。変更点は、Amazon EMR 5.5.0 リリースに関連するものです。

リリース日: 2017 年 6 月 5 日

アップグレード

  • Flink 1.2.1

  • HBase 1.3.1

  • Mahout 0.13.0。Amazon EMR バージョン 5.0 以降の Spark 2.x をサポートする最初のバージョンの Mahout です。

  • Spark 2.1.1

変更、拡張、解決した問題

  • Presto

    • セキュリティ設定を使って転送時の暗号化を有効にして、Presto ノード間で SSL/TLS を使った安全な通信を有効にする機能が追加されました。詳細については、「伝送時のデータ暗号化」を参照してください。

    • Presto 7661 を移植しました。これにより VERBOSE オプションを EXPLAIN ANALYZE ステートメントに追加し、クエリプランについての、より詳細なレポートと低レベルの統計を作成できます。

リリース 5.5.3

次のリリースノートには、Amazon EMR リリースバージョン 5.5.3 に関する情報が含まれています。変更は 5.5.2 に関連するものです。

初回リリース日: 2018 年 8 月 29 日

変更、拡張、解決した問題

  • このリリースでは、潜在的なセキュリティの脆弱性の問題が解決されています。

リリース 5.5.2

次のリリースノートには、Amazon EMR リリースバージョン 5.5.2 に関する情報が含まれています。変更は 5.5.1 に対するものです。

初回リリース日: 2018 年 3 月 29 日

変更、拡張、解決した問題

  • 潜在的な脆弱性に対処するために Amazon EMR のデフォルトの Amazon Linux AMI の Amazon Linux カーネルを更新しました。

リリース 5.5.1

次のリリースノートには、Amazon EMR 5.5.1 に関する情報が含まれています。変更点は、Amazon EMR 5.5.0 リリースに関連するものです。

初回リリース日: 2018 年 1 月 22 日

変更、拡張、解決した問題

  • Amazon EMR 用のデフォルトの Amazon Linux AMI の Amazon Linux カーネルを更新して、投機的実行に関連する脆弱性に対処します (CVE-2017-5715、CVE-2017-5753、および CVE-2017-5754)。詳細については、「https://aws.amazon.com/security/security-bulletins/AWS-2018-013/」を参照してください。

リリース 5.5.0

次のリリースノートには、Amazon EMR 5.5.0 に関する情報が含まれています。変更点は、Amazon EMR 5.4.0 リリースに関連するものです。

リリース日: 2017 年 4 月 26 日

アップグレード

  • Hue 3.12

  • Presto 0.170

  • Zeppelin 0.7.1

  • ZooKeeper 3.4.10

変更、拡張、解決した問題

  • Spark

  • Flink

    • Flink は Scala 2.11 で作成されるようになりました。プロジェクトで Scala API とライブラリを使用する場合は、Scala 2.11 を使用することをお勧めします。

    • HADOOP_CONF_DIRYARN_CONF_DIR のデフォルトが適切に設定されないため start-scala-shell.sh が機能しない問題に対応しました。さらに env.hadoop.conf.dir または env.yarn.conf.dir 設定分類の /etc/flink/conf/flink-conf.yamlflink-conf を使って、これらの値を設定する機能を追加しました。

    • EMR 固有の新しいコマンドで、flink-scala-shell のラッパーとなる start-scala-shell.sh を追加しました。start-scala-shell に代えて、このコマンドを使用することをお勧めします。新しいコマンドにより実行が簡素化されます。たとえば、flink-scala-shell -n 2 は、タスクの並行度 2 で、Flink Scala シェルを開始します。

    • EMR 固有の新しいコマンドで、flink-yarn-session のラッパーとなる yarn-session.sh を追加しました。yarn-session に代えて、このコマンドを使用することをお勧めします。新しいコマンドにより実行が簡素化されます。たとえば、flink-yarn-session -n 2 -d は長時間稼働の Flink セッションを、デタッチ状態で、2 つのタスクマネージャを使って開始します。

    • (FLINK-6125) Commons httpclient が Flink 1.2 でシェードされない」の問題に対応しました。

  • Presto

    • LDAP 認証のサポートが追加されました。Amazon EMR の Presto で LDAP を使用する場合は、Presto コーディネーターの HTTPS アクセスを有効にする必要があります (config.propertieshttp-server.https.enabled=true)。設定の詳細については、Presto ドキュメントの「LDAP Authentication」を参照してください。

    • SHOW GRANTS のサポートが追加されました。

  • Amazon EMR ベース Linux AMI

    • Amazon EMR リリースは、Amazon Linux 2017.03 ベースになりました。詳細については、「Amazon Linux AMI 2017.03 リリースノート」を参照してください。

    • Python 2.6 は Amazon EMR ベース Linux イメージから削除されました。Python 2.7 と 3.4 がデフォルトでインストールされます。必要な場合には Python 2.6 を手動でインストールできます。

リリース 5.4.0

次のリリースノートには、Amazon EMR 5.4.0 に関する情報が含まれています。変更点は、Amazon EMR 5.3.0 リリースに関連するものです。

リリース日: 2017 年 3 月 8 日

アップグレード

このリリースでは、次のアップグレードを使用できます。

  • Flink 1.2.0 にアップグレードしました

  • Hbase 1.3.0 にアップグレード済み

  • Phoenix 4.9.0 にアップグレード済み

    注記

    古いバージョンの Amazon EMR から Amazon EMR バージョン 5.4.0 以降にアップグレードしてセカンダリインデックスを使用する場合は、Apache Phoenix のドキュメントで説明されているようにローカルインデックスをアップグレードします。Amazon EMR は、hbase-site 分類から必要な構成を削除しますが、インデックスには値を再設定する必要があります。インデックスはオンラインとオフラインでアップグレードできます。オンラインのアップグレードがデフォルトです。これはバージョン4.8.0以降のPhoenixクライアントで初期する間にインデックスの値が再設定されることを意味します。オフラインアップグレードを指定するには、 phoenix.client.localIndexUpgrade 構成を phoenix-site 分類で False に設定してから、SSH をマスターノードに設定して psql [zookeeper] -1を実行します。

  • Presto 0.166 にアップグレードしました

  • Zeppelin 0.7.0 にアップグレードしました

変更と機能強化

以下は、リリースラベル emr-5.4.0 の Amazon EMR リリースでの変更点です。

リリース 5.3.1

次のリリースノートには、Amazon EMR 5.3.1 に関する情報が含まれています。変更点は、Amazon EMR 5.3.0 リリースに関連するものです。

リリース日: 2017 年 2 月 7 日

Zeppelin パッチをバックポートし、Amazon EMR のデフォルトの AMI を更新するためのマイナーチェンジを行いました。

リリース 5.3.0

次のリリースノートには、Amazon EMR 5.3.0 に関する情報が含まれています。変更点は、Amazon EMR 5.2.1 リリースに関連するものです。

リリース日: 2017 年 1 月 26 日

アップグレード

このリリースでは、次のアップグレードを使用できます。

  • Hive 2.1.1 にアップグレードしました

  • Hue 3.11.0 にアップグレードしました

  • Spark 2.1.0 にアップグレードしました

  • Oozie 4.3.0 にアップグレードしました

  • Flink 1.1.4 にアップグレードしました

変更と機能強化

以下は、リリースラベル emr-5.3.0 の Amazon EMR リリースでの変更点です。

  • interpreters_shown_on_wheel ファイルでの順序にかかわらず、ノートブックの選択ホイールで最初に表示するインタプリタを指定する hue.ini 設定を使用できるようにするパッチを Hue に追加しました。

  • Hive の hive-parquet-logging ファイルで値を設定するために使用できる、parquet-logging.properties 設定分類を追加しました。

リリース 5.2.2

次のリリースノートには、Amazon EMR 5.2.2 に関する情報が含まれています。変更点は、Amazon EMR 5.2.1 リリースに関連するものです。

リリース日: 2017 年 5 月 2 日

以前のリリースから解決された既知の問題

  • SPARK-194459 をしました。char/varchar の列を持つ ORC テーブルからの読み取りが失敗する問題に対応しました。

リリース 5.2.1

次のリリースノートには、Amazon EMR 5.2.1 に関する情報が含まれています。変更点は、Amazon EMR 5.2.0 リリースに関連するものです。

リリース日: 2016 年 12 月 29 日

アップグレード

このリリースでは、次のアップグレードを使用できます。

  • Presto を 0.157.1 にアップグレードしました。詳細については、Presto ドキュメントの「Presto リリースノート」を参照してください。

  • ZooKeeper を 3.4.9 にアップグレードしました。詳細については、Apache ZooKeeper ドキュメントの「ZooKeeper リリースノート」を参照してください。

変更と機能強化

以下は、リリースラベル emr-5.2.1 の Amazon EMR リリースでの変更点です。

  • 5.0.0、5.0.3、5.2.0 を除く Amazon EMR バージョン 4.8.3 以降の Amazon EC2 の m4.16xlarge インスタンスタイプのサポートが追加されました。

  • Amazon EMR リリースは、Amazon Linux 2016.09 ベースになりました。詳細については、「https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/」を参照してください。

  • これで、Flink および YARN 設定パスの場所はデフォルトで /etc/default/flink に設定されましたので、Flink のジョブを起動するために FLINK_CONF_DIR または HADOOP_CONF_DIR ドライバースクリプトを実行するときに、環境変数 flink および yarn-session.sh を設定する必要はありません。

  • FlinkKinesisConsumer クラスのサポートを追加しました。

以前のリリースから解決された既知の問題

  • ReplicationMonitor のスレッドが大きなクラスターで同じファイルのレプリケーションと削除間の競合のために長時間スタックが生じる Hadoop の問題を修正しました。

  • ジョブのステータスが正常に更新されていないときに ControlledJob#toString が null ポインタ例外 (NPE) で失敗していた問題を修正しました。

リリース 5.2.0

次のリリースノートには、Amazon EMR 5.2.0 に関する情報が含まれています。変更点は、Amazon EMR 5.1.0 リリースに関連するものです。

リリース日: 2016 年 11 月 21 日

変更と機能強化

このリリースでは、次の変更と機能強化を使用できます。

  • HBase の Amazon S3 ストレージモードの追加。

  • HBase ルートディレクトリの Amazon S3 ロケーションを指定可能。詳細については、「Amazon S3 の HBase」を参照してください。

アップグレード

このリリースでは、次のアップグレードを使用できます。

  • Spark 2.0.2 にアップグレードしました

以前のリリースから解決された既知の問題

  • EBS のみのインスタンスタイプで 2 TB に制約されていた /mnt に関する問題を修正。

  • 通常の log4j-configured .log ファイルではなく、対応する .out ファイルに出力され、1 時間ごとにローテーションされていた、インスタンスコントローラーおよび logpusher ログに関する問題を修正。.out ファイルはローテーションしないため、最終的には /emr パーティションがいっぱいになります。この問題は、ハードウェア仮想マシン (HVM) のインスタンスタイプにのみ影響します。

リリース 5.1.0

次のリリースノートには、Amazon EMR 5.1.0 に関する情報が含まれています。変更点は、Amazon EMR 5.0.0 リリースに関連するものです。

リリース日: 2016 年 11 月 3 日

変更と機能強化

このリリースでは、次の変更と機能強化を使用できます。

  • Flink 1.1.3 のサポートを追加。

  • Presto が、Hue のノートブックセクションでオプションとして追加。

アップグレード

このリリースでは、次のアップグレードを使用できます。

  • HBase 1.2.3 にアップグレードしました

  • Zeppelin 0.6.2 にアップグレードしました

以前のリリースから解決された既知の問題

  • 以前の Amazon EMR 4.x バージョンと同じく、ORC ファイルがある Amazon S3 の Tez クエリが実行されない問題を修正しました。

リリース 5.0.3

次のリリースノートには、Amazon EMR 5.0.3 に関する情報が含まれています。変更点は、Amazon EMR 5.0.0 リリースに関連するものです。

リリース日: 2016 年 10 月 24 日

アップグレード

このリリースでは、次のアップグレードを使用できます。

  • Hadoop 2.7.3 にアップグレードしました

  • Presto 0.152.3 にアップグレードします。このアップグレードには Presto ウェブインターフェイスのサポートが含まれています。Presto コーディネーターの Presto ウェブインターフェイスには、ポート 8889 を使用してアクセスできます。Presto ウェブインターフェイスの詳細については、Presto ドキュメントの「ウェブインターフェイス」を参照してください。

  • Spark 2.0.1 にアップグレードしました

  • Amazon EMR リリースは、Amazon Linux 2016.09 ベースになりました。詳細については、「https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/」を参照してください。

リリース 5.0.0

リリース日: 2016 年 7 月 27 日

アップグレード

このリリースでは、次のアップグレードを使用できます。

  • Hive 2.1 にアップグレードしました

  • Presto 0.150 にアップグレードしました

  • Spark 2.0 にアップグレードしました

  • Hue 3.10.0 にアップグレードしました

  • Pig 0.16.0 にアップグレードしました

  • Tez 0.8.4 にアップグレードしました

  • Zeppelin 0.6.1 にアップグレードしました

変更と機能強化

リリースラベル emr-5.0.0 以降の Amazon EMR リリースに加えられた変更を以下に示します。

  • Amazon EMR は Hive (バージョン 2.1)、Pig (バージョン 0.16.0) の最新のオープンソースバージョンをサポートします。以前に Amazon EMR で Hive または Pig を使用したことがあるなら、このことはいくつかのユースケースに影響を与える可能性があります。詳細については、「Hive」および「Pig」を参照してください。

  • 現在の Hive および Pig のデフォルト実行エンジンは Tez です。これを変更するには、hive-site および pig-properties のそれぞれの設定分類の適切な値を編集します。

  • サービスが原因を識別できる場合にステップ障害の根本原因を表示できるようにするステップ、デバッグ機能が追加されました。詳細については、Amazon EMR 管理ガイドの「ステップ、デバッグの向上」を参照してください。

  • アプリケーションは以前「-Sandbox」で終了しましたが、そのサフィックスはもうありません。たとえば、これらのアプリケーションを使ってクラスターを起動するスクリプトを使用している場合、これによってオートメーションが中断する可能性があります。次の表は、Amazon EMR 4.7.2 と Amazon EMR 5.0.0 のアプリケーション名を示しています。

    アプリケーション名変更

    Amazon EMR 4.7.2 Amazon EMR 5.0.0
    Oozie-Sandbox Oozie
    Presto-Sandbox Presto
    Sqoop-Sandbox Sqoop
    Zeppelin-Sandbox Zeppelin
    ZooKeeper-Sandbox ZooKeeper
  • Spark は現在 Scala 2.11 向けにコンパイルされています。

  • 現在のデフォルト JVM は Java 8 です。すべてのアプリケーションは Java 8 ランタイムを使用して動作します。アプリケーションのバイトコードターゲットには変更はありません。ほとんどのアプリケーションは、引き続き Java 7 を対象としています。

  • Zeppelin には、認証機能が組み込まれています。詳細については、「Zeppelin」を参照してください。

  • セキュリティ設定のサポートを追加しました。これにより、暗号化オプションをより簡単に作成、適用できます。詳細については、「Data Encryption」を参照してください。

リリース 4.9.5

次のリリースノートには、Amazon EMR リリースバージョン 4.9.5 に関する情報が含まれています。変更は 4.9.4 に関連するものです。

初回リリース日: 2018 年 8 月 29 日

変更、拡張、解決した問題

  • HBase

    • このリリースでは、潜在的なセキュリティの脆弱性の問題が解決されています。

リリース 4.9.4

次のリリースノートには、Amazon EMR リリースバージョン 4.9.4 に関する情報が含まれています。変更は 4.9.3 に対するものです。

初回リリース日: 2018 年 3 月 29 日

変更、拡張、解決した問題

  • 潜在的な脆弱性に対処するために Amazon EMR のデフォルトの Amazon Linux AMI の Amazon Linux カーネルを更新しました。

リリース 4.9.3

次のリリースノートには、Amazon EMR 4.9.3 に関する情報が含まれています。変更点は、Amazon EMR 4.9.2 リリースに関連するものです。

初回リリース日: 2018 年 1 月 22 日

変更、拡張、解決した問題

  • Amazon EMR 用のデフォルトの Amazon Linux AMI の Amazon Linux カーネルを更新して、投機的実行に関連する脆弱性に対処します (CVE-2017-5715、CVE-2017-5753、および CVE-2017-5754)。詳細については、「https://aws.amazon.com/security/security-bulletins/AWS-2018-013/」を参照してください。

リリース 4.9.2

次のリリースノートには、Amazon EMR 4.9.2 に関する情報が含まれています。変更点は、Amazon EMR 4.9.1 リリースに関連するものです。

リリース日: 2017 年 7 月 13 日

このリリースでは小さな変更、バグ修正、および機能強化が行われました。

リリース 4.9.1

次のリリースノートには、Amazon EMR 4.9.1 に関する情報が含まれています。変更点は、Amazon EMR 4.8.4 リリースに関連するものです。

リリース日: 2017 年 4 月 10 日

以前のリリースから解決された既知の問題

  • HIVE-9976 および HIVE-10106 を移植しました。

  • 多数のノード (2,000 以上) やコンテナ (5,000 以上) によって、"Exception in thread 'main' java.lang.OutOfMemoryError" などのメモリエラーが発生することがある、YARN の問題を修正しました。

変更と機能強化

以下は、リリースラベル emr-4.9.1 の Amazon EMR リリースでの変更点です。

  • Amazon EMR リリースは、Amazon Linux 2017.03 ベースになりました。詳細については、「https://aws.amazon.com/amazon-linux-ami/2017.03-release-notes/」を参照してください。

  • Python 2.6 は Amazon EMR ベース Linux イメージから削除されました。必要な場合には Python 2.6 を手動でインストールできます。

リリース 4.8.4

次のリリースノートには、Amazon EMR 4.8.4 に関する情報が含まれています。変更点は、Amazon EMR 4.8.3 リリースに関連するものです。

リリース日: 2017 年 2 月 7 日

このリリースでは小さな変更、バグ修正、および機能強化が行われました。

リリース 4.8.3

次のリリースノートには、Amazon EMR 4.8.3 に関する情報が含まれています。変更点は、Amazon EMR 4.8.2 リリースに関連するものです。

リリース日: 2016 年 12 月 29 日

アップグレード

このリリースでは、次のアップグレードを使用できます。

  • Presto を 0.157.1 にアップグレードしました。詳細については、Presto ドキュメントの「Presto リリースノート」を参照してください。

  • Spark を 1.6.3 にアップグレードしました。詳細については、Apache Spark ドキュメントの「Spark リリースノート」を参照してください。

  • ZooKeeper を 3.4.9 にアップグレードしました。詳細については、Apache ZooKeeper ドキュメントの「ZooKeeper リリースノート」を参照してください。

変更と機能強化

以下は、リリースラベル emr-4.8.3 の Amazon EMR リリースでの変更点です。

  • 5.0.0、5.0.3、5.2.0 を除く Amazon EMR バージョン 4.8.3 以降の Amazon EC2 の m4.16xlarge インスタンスタイプのサポートが追加されました。

  • Amazon EMR リリースは、Amazon Linux 2016.09 ベースになりました。詳細については、「https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/」を参照してください。

以前のリリースから解決された既知の問題

  • ReplicationMonitor のスレッドが大きなクラスターで同じファイルのレプリケーションと削除間の競合のために長時間スタックが生じる Hadoop の問題を修正しました。

  • ジョブのステータスが正常に更新されていないときに ControlledJob#toString が null ポインタ例外 (NPE) で失敗していた問題を修正しました。

リリース 4.8.2

次のリリースノートには、Amazon EMR 4.8.2 に関する情報が含まれています。変更点は、Amazon EMR 4.8.0 リリースに対するものです。

リリース日: 2016 年 10 月 24 日

アップグレード

このリリースでは、次のアップグレードを使用できます。

  • Hadoop 2.7.3 にアップグレードしました

  • Presto 0.152.3 にアップグレードします。このアップグレードには Presto ウェブインターフェイスのサポートが含まれています。Presto コーディネーターの Presto ウェブインターフェイスには、ポート 8889 を使用してアクセスできます。Presto ウェブインターフェイスの詳細については、Presto ドキュメントの「ウェブインターフェイス」を参照してください。

  • Amazon EMR リリースは、Amazon Linux 2016.09 ベースになりました。詳細については、「https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/」を参照してください。

リリース 4.8.0

リリース日: 2016 年 9 月 7 日

アップグレード

このリリースでは、次のアップグレードを使用できます。

  • HBase 1.2.2 にアップグレードしました

  • Presto-Sandbox 0.151 にアップグレードしました

  • Tez 0.8.4 にアップグレードしました

  • Zeppelin-Sandbox 0.6.1 にアップグレードしました

変更と機能強化

以下は、リリースラベル emr-4.8.0 の Amazon EMR リリースでの変更点です。

  • インスタンスが削除されたため、存在していないコンテナを ApplicationMaster がクリーンアップしようとする YARN の問題を修正しました。

  • Oozie の例の Hive2 アクションの hive-server2 URL を修正しました。

  • さらに多くの Presto カタログのサポートを追加しました。

  • 次のパッチを移植しました: HIVE-8948HIVE-12679HIVE-13405PHOENIX-3116HADOOP-12689

  • セキュリティ設定のサポートを追加しました。これにより、暗号化オプションをより簡単に作成、適用できます。詳細については、「Data Encryption」を参照してください。

リリース 4.7.2

以下のリリースノートには、Amazon EMR 4.7.2 に関する情報が含まれています。

リリース日: 2016 年 7 月 15 日

機能

このリリースでは、次の機能を使用できます。

  • Mahout 0.12.2 にアップグレードしました

  • Presto 0.148 にアップグレードしました

  • Spark 1.6.2 にアップグレードしました

  • パラメータとして URI を使用して EMRFS で使用する AWSCredentialsProvider を作成できるようになりました。詳細については、「EMRFS 用に AWSCredentialsProvider を作成する」を参照してください。

  • EMRFS では、ユーザーが emrfs-site.xmlfs.s3.consistent.dynamodb.endpoint プロパティを使用して、整合性のあるビューのメタデータのカスタム DynamoDB エンドポイントを設定できるようになりました。

  • /usr/binspark-example というスクリプトを追加しました。これにより /usr/lib/spark/spark/bin/run-example をラップし、例を直接実行できます。たとえば、Spark ディストリビューションに付属する SparkPi の例を実行するには、API のステップとしてコマンドラインから spark-example SparkPi 100 を実行するか、command-runner.jar を使用できます。

以前のリリースから解決された既知の問題

  • Oozie で、Spark もインストールされたときに spark-assembly.jar が正しい場所にないために、Oozie で Spark アプリケーションを起動できなくなる問題を解決しました。

  • YARN コンテナで Spark Log4j ベースのログインに関する問題を修正しました。

リリース 4.7.1

リリース日: 2016 年 6 月 10 日

以前のリリースから解決された既知の問題

  • プライベートサブネットを持つ VPC で起動されたクラスターの起動時間が長くなる問題を修正しました。このバグの影響があったのは、Amazon EMR 4.7.0 リリースで起動されたクラスターのみです。

  • Amazon EMR 4.7.0 リリースで起動されたクラスターに対する Amazon EMR でのファイルのリスト処理が不適切であった問題を修正しました。

リリース 4.7.0

重要

Amazon EMR 4.7.0 は廃止されました。代わりに Amazon EMR 4.7.1 以降を使用してください。

リリース日: 2016 年 6 月 2 日

機能

このリリースでは、次の機能を使用できます。

  • Apache Phoenix 4.7.0 を追加しました

  • Apache Tez 0.8.3 を追加しました

  • HBase 1.2.1 にアップグレードしました

  • Mahout 0.12.0 にアップグレードしました

  • Presto 0.147 にアップグレードしました

  • AWS SDK for Java が 1.10.75 にアップグレード

  • ユーザーがローカルモードで Pig を実行できるようにするため、最終的なフラグが mapreduce.cluster.local.dirmapred-site.xml プロパティから削除されました。

クラスターで利用できる Amazon Redshift JDBC ドライバー

Amazon Redshift JDBC ドライバーが /usr/share/aws/redshift/jdbc に含まれました。/usr/share/aws/redshift/jdbc/RedshiftJDBC41.jar は JDBC 4.1 互換の Amazon Redshift ドライバー、/usr/share/aws/redshift/jdbc/RedshiftJDBC4.jar は JDBC 4.0 互換の Amazon Redshift ドライバーです。詳細については、Amazon Redshift Cluster Management Guideの「JDBC 接続を設定する」を参照してください。

Java 8

Presto を除き、OpenJDK 1.7 はすべてのアプリケーションに使用されるデフォルトの JDK です。ただし、OpenJDK 1.7 と 1.8 の両方がインストールされています。アプリケーションの JAVA_HOME を設定する方法については、「Java 8 を使用したアプリケーションの設定」を参照してください。

以前のリリースから解決された既知の問題

  • emr-4.6.0 で Amazon EMR 用のスループット最適化 HDD (st1) EBS ボリュームで著しくパフォーマンスに影響を与えていたカーネルの問題を修正しました。

  • アプリケーションとして Hadoop を選択せずに HDFS 暗号化ゾーンを指定した場合にクラスターが失敗する問題を修正しました。

  • デフォルトの HDFS 書き込みポリシーを RoundRobin から AvailableSpaceVolumeChoosingPolicy に変更しました。一部のボリュームは RoundRobin 設定で正しく利用されず、それによってコアノードが失敗し、HDFS の信頼性が低くなりました。

  • 整合性のあるビューのため、デフォルトの DynamoDB メタデータテーブルを作成するときに例外を発生させた EMRFS CLI に関する問題を修正しました。

  • マルチパートの名前の変更およびコピーオペレーション中に発生する可能性のあった、EMRFS のデッドロックの問題を修正しました。

  • CopyPart のサイズがデフォルトで 5 MB になる EMRFS の問題を修正しました。現在では、デフォルト値は 128 MB で適切に設定されます。

  • サービスを停止できなくなる可能性のある、Zeppelin upstart 設定の問題を修正しました。

  • s3a:// がそれぞれのクラスパスで適切にロードされていないために、/usr/lib/hadoop/hadoop-aws.jar URI スキームを使用できなくなる Spark および Zeppelin の問題を修正しました。

  • HUE-2484 を移植しました。

  • HBase ブラウザサンプルでの問題を修正するため、Hue 3.9.0 (JIRA が存在しない) から commit を移植しました。

  • HIVE-9073 を移植しました。

リリース 4.6.0

リリース日: 2016 年 4 月 21 日

機能

このリリースでは、次の機能を使用できます。

  • HBase 1.2.0 を追加しました

  • Zookeeper-Sandbox 3.4.8 を追加しました

  • Presto-Sandbox 0.143 にアップグレードしました

  • Amazon EMR リリースは、Amazon Linux 2016.03.0 ベースになりました。詳細については、「https://aws.amazon.com/amazon-linux-ami/2016.03-release-notes/」を参照してください。

スループット最適化 HDD (st1) EBS ボリュームタイプに影響を及ぼす問題

Linux カーネルバージョン 4.2 以降の問題は、EMR 用のスループット最適化 HDD (st1) EBS ボリュームのパフォーマンスに大きな影響を及ぼします。このリリース (emr-4.6.0) ではカーネルバージョン 4.4.5 を使用するため、影響を受けます。したがって、st1 EBS ボリュームを使用する場合、emr-4.6.0 を使用しないことをお勧めします。emr-4.5.0 以前の Amazon EMR リリースと st1 であれば、影響を受けずに使用できます。これに加えて、将来のリリースで修正が提供されます。

Python のデフォルト値

現在、Python 3.4 がデフォルトでインストールされますが、Python 2.7 はシステムデフォルトのままです。いずれかのブートストラップアクションを使用してシステムデフォルトとして Python 3.4 を設定できます。PySpark で使用される Python のバージョンに影響を与えるため、設定 API を使用して /usr/bin/python3.4 分類で PYSPARK_PYTHON のエクスポート先を spark-env に設定できます。

Java 8

Presto を除き、OpenJDK 1.7 はすべてのアプリケーションに使用されるデフォルトの JDK です。ただし、OpenJDK 1.7 と 1.8 の両方がインストールされています。アプリケーションの JAVA_HOME を設定する方法については、「Java 8 を使用したアプリケーションの設定」を参照してください。

以前のリリースから解決された既知の問題

  • アプリケーションのプロビジョニングが、生成されたパスワードが原因でランダムに失敗する問題を修正しました。

  • 以前は、mysqld がすべてのノードにインストールされました。現在では、選択されたアプリケーションにコンポーネントとして mysql-server が含まれている場合のみ、マスターインスタンスのみにインストールされます。現在、HCatalog、Hive、Hue、Presto-Sandbox、および Sqoop-Sandbox の各アプリケーションに、mysql-server コンポーネントが含まれています。

  • yarn.scheduler.maximum-allocation-vcores をデフォルトの 32 から 80 に変更しました。これにより、コアインスタンスタイプが、YARN vcores が 32 より高く設定されているいくつかのラージインスタンスタイプのいずれかであるクラスターで、maximizeResourceAllocation オプションを使用中に Spark で主に発生する、emr-4.4.0 での問題が修正されました。この問題の影響を受けていたのは、c4.8xlarge、cc2.8xlarge、hs1.8xlarge、i2.8xlarge、m2.4xlarge、r3.8xlarge、d2.8xlarge、または m4.10xlarge です。

  • 現在では s3-dist-cp はすべての Amazon S3 候補に EMRFS を使用し、一時 HDFS ディレクトリは使用しません。

  • クライアント側の暗号化のマルチパートアップロードの例外処理に関する問題を修正しました。

  • ユーザーが Amazon S3 ストレージクラスを変更できるようにするオプションを追加しました。デフォルトでは、この設定は STANDARD です。emrfs-site 設定の分類設定は fs.s3.storageClass で、指定できる値は STANDARDSTANDARD_IAREDUCED_REDUNDANCY です。ストレージクラスの詳細については、Amazon Simple Storage Service 開発者ガイド の「ストレージクラス」を参照してください。

リリース 4.5.0

リリース日: 2016 年 4 月 4 日

機能

このリリースでは、次の機能を使用できます。

  • Spark 1.6.1 にアップグレードしました

  • Hadoop 2.7.2 にアップグレードしました

  • Presto 0.140 にアップグレードしました

  • Amazon S3 サーバー側の暗号化のための AWS KMS のサポートを追加しました。

以前のリリースから解決された既知の問題

  • ノードが再起動された後に MySQL および Apache サーバーが起動しない問題を修正しました。

  • Amazon S3 に保存されているパーティション分割されていないテーブルで IMPORT が正しく機能しない問題を修正しました。

  • Hive テーブルに書き込むときに、ステージングディレクトリが /mnt/tmp ではなく /tmp であることが要求される Presto の問題を修正しました。

リリース 4.4.0

リリース日: 2016 年 3 月 14 日

機能

このリリースでは、次の機能を使用できます。

  • HCatalog 1.0.0 を追加しました

  • Sqoop-Sandbox 1.4.6 を追加しました

  • Presto 0.136 にアップグレードしました

  • Zeppelin 0.5.6 にアップグレードしました

  • Mahout 0.11.1 にアップグレードしました

  • デフォルトで dynamicResourceAllocation を有効にしました。

  • リリースのすべての設定分類の表を追加しました。詳細については、「アプリケーションの設定」の設定分類の表を参照してください。

以前のリリースから解決された既知の問題

  • maximizeResourceAllocation 設定で YARN ApplicationMaster デーモンに十分なメモリが予約されない問題を修正しました。

  • カスタム DNS で発生した問題を修正しました。resolve.conf のエントリが、提供されたカスタムエントリよりも前に指定されている場合、そのカスタムエントリは解決されません。この動作は、デフォルトの VPC ネームサーバーが resolve.conf のトップエントリとして挿入された VPC のクラスターによって影響を受けました。

  • デフォルトの Python がバージョン 2.7 に移行した場合に、そのバージョンに対して boto がインストールされなかった問題を修正しました。

  • YARN コンテナと Spark アプリケーションが独自の Ganglia ラウンドロビンデータベース (rrd) ファイルを生成し、それによりインスタンスにアタッチされた最初のディスクがいっぱいになる問題を修正しました。この修正によって、YARN コンテナレベルのメトリクスが無効になり、Spark アプリケーションレベルのメトリクスが無効になりました。

  • ログプッシャーですべての空のログフォルダーが削除される問題を修正しました。この問題により、ログプッシャーは user の空の /var/log/hive フォルダを削除したため、Hive CLI はログを記録できませんでした。

  • パーティション分割に影響し、インポート中にエラーを発生させた、Hive のインポートに影響を与える問題を修正しました。

  • EMRFS と s3-dist-cp が、ピリオドを含むバケット名を適切に処理しなかった問題を修正しました。

  • EMRFS の動作を変更し、バージョニングが有効なバケットで、_$folder$ マーカーファイルが連続して作成されないようにしました。これにより、バージョニングが有効なバケットでパフォーマンスが向上する可能性があります。

  • クライアント側の暗号化が有効になっている場合を除き、インストラクションファイルを使用しないよう EMRFS の動作を変更しました。クライアント側の暗号化を使用中にインストラクションファイルを削除する場合は、emrfs-site.xml プロパティの fs.s3.cse.cryptoStorageMode.deleteInstructionFiles.enabled を true に設定できます。

  • YARN ログの集計を変更し、集計先でログを 2 日間保持するようにしました。デフォルトの送信先はクラスターの HDFS ストレージです。この期間を変更する場合は、クラスターの作成時に yarn.log-aggregation.retain-seconds 設定分類を使用して yarn-site の値を変更します。ただし、クラスターの作成時は、log-uri パラメータを使用して、いつでも Amazon S3 にアプリケーションログを保存できます。

適用されたパッチ

オープンソースのプロジェクトから、次のパッチがこのリリースで追加されました。

リリース 4.3.0

リリース日: 2016 年 1 月 19 日

機能

このリリースでは、次の機能を使用できます。

  • Hadoop 2.7.1 にアップグレードしました

  • Spark 1.6.0 にアップグレードしました

  • Ganglia を 3.7.2 にアップグレードしました

  • Presto を 0.130 にアップグレードしました

Amazon EMR は、true に設定すると spark.dynamicAllocation.enabled にいくつかの変更を加えましたが、デフォルトでは false になります。true に設定すると、maximizeResourceAllocation 設定で定義されているデフォルト設定に影響を与えます。

  • spark.dynamicAllocation.enabled を true に設定した場合、spark.executor.instancesmaximizeResourceAllocation によって設定されません。

  • spark.driver.memory 設定は、spark.executors.memory 設定と同様に、クラスター内のインスタンスタイプに基づいて定義されます。ただし、Spark ドライバアプリケーションは、マスターインスタンスまたはいずれかのコアインスタンスで(たとえば、YARN クライアントモードとクラスターモードのそれぞれで)実行されるため、spark.driver.memory 設定は、これらの 2 つのインスタンスグループ間で、小さい方のインスタンスのインスタンスタイプに基づいて定義されます。

  • spark.default.parallelism 設定は、YARN コンテナに使用可能な CPU コアの数の 2 倍に定義されます。以前のリリースでは、半分の値に定義されていました。

  • Spark YARN プロセス用に予約されるメモリオーバーヘッドの計算精度が上がったため、Spark に使用可能なメモリの合計量(spark.executor.memory)がわずかに増えました。

以前のリリースから解決された既知の問題

  • 現在、YARN ログの集計はデフォルトで有効になります。

  • YARN ログの集計が有効な場合に、クラスターの Amazon S3 ログバケットにログがプッシュされる問題を修正しました。

  • YARN コンテナサイズは、すべてのノードタイプで新たに最低 32 になりました。

  • 大規模なクラスターのマスターノードで過剰なディスク I/O を発生させる Ganglia の問題を修正しました。

  • クラスターのシャットダウン時にアプリケーションログが Amazon S3 にプッシュされない問題を修正しました。

  • 特定のコマンドを失敗させる EMRFS CLI の問題を修正しました。

  • 基盤となる SparkContext に依存関係がロードされなくなる Zeppelin の問題を修正しました。

  • インスタンスの追加を試みるサイズ変更の発行によって発生する問題を修正しました。

  • CREATE TABLE AS SELECT が Amazon S3 への過剰なリスト呼び出しを行う Hive の問題を修正しました。

  • Hue、Oozie、および Ganglia がインストールされていると、大規模なクラスターが適切にプロビジョニングされない問題を修正しました。

  • エラーで失敗した場合でもゼロ終了コードを返す s3-dist-cp の問題を修正しました。

適用されたパッチ

オープンソースのプロジェクトから、次のパッチがこのリリースで追加されました。

リリース 4.2.0

リリース日: 2015 年 11 月 18 日

機能

このリリースでは、次の機能を使用できます。

  • Ganglia のサポートを追加しました

  • Spark 1.5.2 にアップグレードしました

  • Presto 0.125 にアップグレードしました

  • Oozie を 4.2.0 にアップグレードしました

  • Zeppelin を 0.5.5 にアップグレードしました

  • AWS SDK for Java が 1.10.27 にアップグレード

以前のリリースから解決された既知の問題

  • デフォルトのメタデータテーブル名を使用しない EMRFS CLI の問題を修正しました。

  • Amazon S3 で ORC-backed テーブルを使用するときに発生した問題を修正しました。

  • Spark 設定で Python バージョンが一致しない問題を修正しました。

  • VPC のクラスターでの DNS の問題により、YARN ノードのステータスが報告されない問題を修正しました。

  • YARN がノードを廃棄することが原因でアプリケーションがハングしたり、新しいアプリケーションを予定できなくなったりする問題を修正しました。

  • クラスターが TIMED_OUT_STARTING というステータスで終了するときに発生する問題を修正しました。

  • EMRFS Scala 依存関係を他のビルドに含める場合に発生する問題を修正しました。Scala 依存関係が削除されました。