Amazon EMR の最新情報履歴 - Amazon EMR

「翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。」

Amazon EMR の最新情報履歴

すべての Amazon EMR リリースバージョンのリリースノートは以下から入手できます。各リリースの包括的なリリース情報については、「Amazon EMR 5.x リリースバージョン」および「Amazon EMR 4.x リリースバージョン」を参照してください。

新しい Amazon EMR リリースバージョンが入手可能になったときに更新情報を受け取るには、https://docs.aws.amazon.com/emr/latest/ReleaseGuide/amazon-emr-release-notes.rss で Amazon EMR リリースノートの RSS フィードを購読してください。

リリース 5.32.0

次のリリースノートは、Amazon EMR リリースバージョン 5.32.0 に関する情報を記載しています。5.31.0 からの変更が含まれています。

初回リリース日: 2021 年 1 月 8 日

アップグレード

  • Amazon Glue コネクタをバージョン 1.14.0 にアップグレードしました

  • Amazon SageMaker Spark SDK をバージョン 1.4.1 にアップグレードしました

  • AWS Java SDK をバージョン 1.11.890 にアップグレードしました

  • EMR DynamoDB Connector をバージョン 4.16.0 にアップグレードしました

  • EMRFS をバージョン 2.45.0 にアップグレードしました

  • EMR Log Analytics Metrics をバージョン 1.18.0 にアップグレードしました

  • EMR MetricsAndEventsApiGateway クライアントをバージョン 1.5.0 にアップグレードしました

  • EMR Record Server をバージョン 1.8.0 にアップグレードしました

  • EMR S3 Dist CP をバージョン 2.17.0 にアップグレードしました

  • EMR Secret Agent をバージョン 1.7.0 にアップグレードしました

  • Flink をバージョン 1.11.2 にアップグレードしました

  • Hadoop をバージョン 2.10.1-amzn-0 にアップグレードしました

  • Hive をバージョン 2.3.7-amzn-3 にアップグレードしました

  • Hue をバージョン 4.8.0 にアップグレードしました

  • Mxnet をバージョン 1.7.0 にアップグレードしました

  • OpenCV をバージョン 4.4.0 にアップグレードしました

  • Presto をバージョン 0.240.1-amzn-0 にアップグレードしました

  • Spark をバージョン 2.4.7-amzn-0 にアップグレードしました

  • TensorFlow をバージョン 2.3.1 にアップグレードしました

変更、拡張、解決した問題

  • コンポーネントのバージョンをアップグレードしました。

  • コンポーネントバージョンのリストについては、このガイドの「Amazon EMR リリースについて」を参照してください。

新機能

  • インスタンスメタデータサービス (IMDS) V2 のサポートステータス: Amazon EMR 5.23.1、5.27.1、5.32 以降のコンポーネントは、すべての IMDS 呼び出しで IMDSv2 を使用します。アプリケーションコードでの IMDS 呼び出しの場合、IMDSv1 と IMDSv2 の両方を使用するか、セキュリティを強化するために IMDSv2 のみを使用するように IMDS を設定できます。その他の 5.x EMR リリースでは、IMDSv1 を無効にすると、クラスターの起動に失敗します。

  • Amazon EMR 5.32.0 以降では、Apache Ranger とネイティブに統合するクラスターを起動できます。Apache Ranger は、Hadoop プラットフォーム全体の包括的なデータセキュリティを有効化、モニタリング、管理するオープンソースフレームワークです。詳細については、「Apache Ranger」を参照してください。ネイティブ統合により、独自の Apache Ranger を使用して Amazon EMR に対してきめ細かなデータアクセスコントロールを適用できます。Amazon EMR リリース ガイド の「Amazon EMR と Apache Ranger の統合」を参照してください。

  • Amazon EMR リリース 5.32.0 は、Amazon EMR on EKS をサポートしています。EMR on EKS の開始方法の詳細については、「Amazon EMR on EKS とは」を参照してください。

  • Amazon EMR リリース 5.32.0 は、Amazon EMR Studio (プレビュー) をサポートしています。EMR Studio の開始方法の詳細については、「Amazon EMR Studio (プレビュー)」を参照してください。

  • スコープが設定されたマネージドポリシー: AWS のベストプラクティスに従うために、Amazon EMR は、非推奨となるポリシーの代わりとして、v2 EMR をスコープとするデフォルトのマネージドポリシーを導入しています。「Amazon EMR マネージドポリシー」を参照してください。

既知の問題

  • Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.

    The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.

    Explicitly set a ulimit from the command line

    1. Edit /etc/systemd/system/instance-controller.service to add the following parameters to Service section.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Set a ulimit using bootstrap action (BA)

    You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • 重要

    Amazon Linux または Amazon Linux 2 AMI (Amazon Linux マシンイメージ) を実行している Amazon EMR クラスターは、デフォルトの Amazon Linux 動作を使用します。再起動を必要とする重要かつ不可欠なカーネル更新プログラムを自動的にダウンロードしてインストールすることはありません。これは、デフォルトの Amazon Linux AMI を実行している他の Amazon EC2 インスタンスと同じ動作です。EMR バージョンのリリース後に、再起動を必要とする新しい Amazon Linux ソフトウェア更新プログラム (カーネル、NVIDIA、CUDA 更新プログラムなど) が使用可能になった場合、デフォルト AMI を実行している EMR クラスターインスタンスは、それらの更新プログラムを自動的にダウンロードしてインストールすることはありません。カーネル更新プログラムを取得するには、最新の Amazon Linux AMI を使用するようにAmazon EMR AMI をカスタマイズすることができます。

  • AWS Ranger 統合オプションを指定するセキュリティ設定を作成するコンソールサポートは、現在 GovCloud リージョンではサポートされていません。セキュリティ設定を行うには、CLI を使用できます。Amazon EMR 管理ガイド の「EMR セキュリティ設定の作成」を参照してください。

リリース 6.2.0

次のリリースノートは、Amazon EMR リリースバージョン 6.2.0 に関する情報を記載しています。6.1.0 からの変更が含まれています。

初回リリース日: 2020 年 12 月 9 日

最終更新日: 2021 年 3 月 24 日

サポートされるアプリケーション

  • AWS SDK for Java バージョン 1.11.828

  • emr-record-server バージョン 1.7.0

  • Flink バージョン 1.11.2

  • Ganglia バージョン 3.7.2

  • Hadoop バージョン 3.2.1-amzn-1

  • HBase バージョン 2.2.6-amzn-0

  • HBase-operator-tools 1.0.0

  • HCatalog バージョン 3.1.2-amzn-0

  • Hive バージョン 3.1.2-amzn-3

  • Hudi バージョン 0.6.0-amzn-1

  • Hue バージョン 4.8.0

  • JupyterHub バージョン 1.1.0

  • Livy バージョン 0.7.0

  • MXNet バージョン 1.7.0

  • Oozie バージョン 5.2.0

  • Phoenix バージョン 5.0.0

  • Pig バージョン 0.17.0

  • Presto バージョン 0.238.3-amzn-1

  • PrestoSQL バージョン 343

  • Spark バージョン 3.0.1-amzn-0

  • spark-rapids 0.2.0

  • TensorFlow バージョン 2.3.1

  • Zeppelin バージョン 0.9.0-preview1

  • Zookeeper バージョン 3.4.14

  • コネクタおよびドライバー: DynamoDB Connector 4.16.0

新機能

  • HBase: コミットフェーズの名前変更を削除し、永続的な HFile の追跡を追加しました。Amazon EMR リリース ガイドの「永続的な HFile の追跡」を参照してください。

  • HBase: 「圧縮時にブロックのキャッシュを強制する設定を作成する」をバックポートしました。

  • PrestoDB: 動的パーティションプルーニングの改善。ルールベースの結合順序の最適化は、パーティション化されていないデータに対して機能します。

  • スコープが設定されたマネージドポリシー: AWS のベストプラクティスに従うために、Amazon EMR は、非推奨となるポリシーの代わりとして、v2 EMR をスコープとするデフォルトのマネージドポリシーを導入しています。「Amazon EMR マネージドポリシー」を参照してください。

  • インスタンスメタデータサービス (IMDS) V2 のサポートステータス: Amazon EMR 6.2 以降の場合、Amazon EMR コンポーネントはすべての IMDS 呼び出しで IMDSv2 を使用します。アプリケーションコードでの IMDS 呼び出しの場合、IMDSv1 と IMDSv2 の両方を使用するか、セキュリティを強化するために IMDSv2 のみを使用するように IMDS を設定できます。以前の Amazon EMR 6.x リリースで IMDSv1 を無効にすると、クラスターの起動に失敗します。

変更、拡張、解決した問題

  • Spark: Spark ランタイムのパフォーマンスが向上しました。

既知の問題

  • Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.

    The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.

    Explicitly set a ulimit from the command line

    1. Edit /etc/systemd/system/instance-controller.service to add the following parameters to Service section.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Set a ulimit using bootstrap action (BA)

    You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • 重要

    Amazon EMR 6.1.0 および 6.2.0 には、Hudi の挿入、アップサート、および削除オペレーションにすべて重大な影響を与える可能性があるパフォーマンスの問題が含まれています。Amazon EMR 6.1.0 または 6.2.0 で Hudi を使用する予定の場合は、AWS サポートに連絡して、パッチが適用された Hudi RPM を入手してください。

  • 重要

    Amazon Linux または Amazon Linux 2 AMI (Amazon Linux マシンイメージ) を実行している Amazon EMR クラスターは、デフォルトの Amazon Linux 動作を使用します。再起動を必要とする重要かつ不可欠なカーネル更新プログラムを自動的にダウンロードしてインストールすることはありません。これは、デフォルトの Amazon Linux AMI を実行している他の Amazon EC2 インスタンスと同じ動作です。EMR バージョンのリリース後に、再起動を必要とする新しい Amazon Linux ソフトウェア更新プログラム (カーネル、NVIDIA、CUDA 更新プログラムなど) が使用可能になった場合、デフォルト AMI を実行している EMR クラスターインスタンスは、それらの更新プログラムを自動的にダウンロードしてインストールすることはありません。カーネル更新プログラムを取得するには、最新の Amazon Linux AMI を使用するようにAmazon EMR AMI をカスタマイズすることができます。

  • Amazon EMR 6.2.0 Maven アーティファクトは発行されません。これらは Amazon EMR の今後のリリースで発行される予定です。

  • HBase ストアファイルシステムテーブルを使用した永続的な HFile の追跡は、HBase リージョンのレプリケーション機能をサポートしません。HBase リージョンのレプリケーションの詳細については、「Timeline-consistent High Available Reads」を参照してください。

  • Amazon EMR 6.x と EMR 5.x Hive のバケットバージョンの違い

    EMR 5.x は OOS Apache Hive 2 を使用し、EMR 6.x は OOS Apache Hive 3 を使用しています。オープンソースの Hive2 は Bucketing バージョン 1 を使用し、オープンソースの Hive3 は Bucketing バージョン 2 を使用しています。Hive 2 (EMR 5.x) と Hive 3 (EMR 6.x) のこのバケットバージョンの違いは、Hive のバケットハッシュ機能が異なることを意味します。以下の例を参照してください。

    次の表は、それぞれ EMR 6.x と EMR 5.x で作成された例です。

    -- Using following LOCATION in EMR 6.x CREATE TABLE test_bucketing (id INT, desc STRING) PARTITIONED BY (day STRING) CLUSTERED BY(id) INTO 128 BUCKETS LOCATION 's3://your-own-s3-bucket/emr-6-bucketing/'; -- Using following LOCATION in EMR 5.x LOCATION 's3://your-own-s3-bucket/emr-5-bucketing/';

    EMR 6.x と EMR 5.x の両方に同じデータを挿入します。

    INSERT INTO test_bucketing PARTITION (day='01') VALUES(66, 'some_data'); INSERT INTO test_bucketing PARTITION (day='01') VALUES(200, 'some_data');

    S3 の場所を確認すると、ハッシュ関数が EMR 6.x (Hive 3) と EMR 5.x (Hive 2) で異なるため、バケットファイル名が異なることがわかります。

    [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-6-bucketing/day=01/ 2020-10-21 20:35:16 13 000025_0 2020-10-21 20:35:22 14 000121_0 [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-5-bucketing/day=01/ 2020-10-21 20:32:07 13 000066_0 2020-10-21 20:32:51 14 000072_0

    EMR 6.x の Hive CLI で次のコマンドを実行することでも、バージョンの違いを確認できます。これにより、バケットバージョン 2 が返されることに注意してください。

    hive> DESCRIBE FORMATTED test_bucketing; ... Table Parameters: bucketing_version 2 ...

リリース 5.31.0

次のリリースノートは、Amazon EMR リリースバージョン 5.31.0 に関する情報を記載しています。5.30.1 からの変更が含まれています。

初回リリース日: 2020 年 10 月 9 日

最終更新日: 2020 年 10 月 15 日

アップグレード

  • Amazon Glue コネクタをバージョン 1.13.0 にアップグレードしました

  • Amazon SageMaker Spark SDK をバージョン 1.4.0 にアップグレードしました

  • Amazon Kinesis コネクタをバージョン 3.5.9 にアップグレードしました

  • AWS Java SDK をバージョン 1.11.852 にアップグレードしました

  • Bigtop-tomcat をバージョン 8.5.56 にアップグレードしました

  • EMR FS をバージョン 2.43.0 にアップグレードしました

  • EMR MetricsAndEventsApiGateway クライアントをバージョン 1.4.0 にアップグレードしました

  • EMR S3 Dist CP をバージョン 2.15.0 にアップグレードしました

  • EMR S3 Select をバージョン 1.6.0 にアップグレードしました

  • Flink をバージョン 1.11.0 にアップグレードしました

  • Hadoop をバージョン 2.10.0 にアップグレードしました

  • Hive をバージョン 2.3.7 にアップグレードしました

  • Hudi をバージョン 0.6.0 にアップグレードしました

  • Hue をバージョン 4.7.1 にアップグレードしました

  • JupyterHub をバージョン 1.1.0 にアップグレードしました

  • Mxnet をバージョン 1.6.0 にアップグレードしました

  • OpenCV をバージョン 4.3.0 にアップグレードしました

  • Presto をバージョン 0.238.3 にアップグレードしました

  • TensorFlow をバージョン 2.1.0 にアップグレードしました

変更、拡張、解決した問題

  • Hive 列統計は、Amazon EMR バージョン 5.31.0 以降でサポートされています。

  • コンポーネントのバージョンをアップグレードしました。

  • Amazon EMR 5.31.0 で EMRFS S3EC V2 をサポートしました。S3 Java SDK リリース 1.11.837 以降では、さまざまなセキュリティの機能強化を含む暗号化クライアントバージョン 2 (S3EC V2) が導入されています。詳細については、以下を参照してください。

    下位互換性のために、暗号化クライアント V1 は SDK で引き続き使用できます。

新機能

  • Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.

    The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.

    Explicitly set a ulimit from the command line

    1. Edit /etc/systemd/system/instance-controller.service to add the following parameters to Service section.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Set a ulimit using bootstrap action (BA)

    You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Amazon EMR 5.31.0 では、Lake Formation と統合するクラスターを起動できます。この統合により、AWS Glue データカタログ内のデータベースとテーブルへのきめ細かな列レベルのデータフィルタリングが提供されます。また、企業の ID システムから EMR ノートブックまたは Apache Zeppelin へのフェデレーションシングルサインオンが可能になります。詳細については、Amazon EMR 管理ガイドの「Amazon EMR と AWS Lake Formation の統合」を参照してください。

    Amazon EMR と Lake Formation は、現在、米国東部 (オハイオとバージニア北部)、米国西部 (北カリフォルニアとオレゴン)、アジアパシフィック (ムンバイ、ソウル、シンガポール、シドニー、東京)、カナダ (中部)、ヨーロッパ (フランクフルト、アイルランド、ロンドン、パリ、ストックホルム)、南米 (サンパウロ) の 16 の AWS リージョンで利用できます。

既知の問題

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

リリース 6.1.0

次のリリースノートは、Amazon EMR リリースバージョン 6.1.0 に関する情報を記載しています。6.0.0 からの変更が含まれています。

初回リリース日: 2020 年 9 月 4 日

最終更新日: 2020 年 10 月 15 日

サポートされるアプリケーション

  • AWS SDK for Java バージョン 1.11.828

  • Flink バージョン 1.11.0

  • Ganglia バージョン 3.7.2

  • Hadoop バージョン 3.2.1-amzn-1

  • HBase バージョン 2.2.5

  • HBase-operator-tools 1.0.0

  • HCatalog バージョン 3.1.2-amzn-0

  • Hive バージョン 3.1.2-amzn-1

  • Hudi バージョン 0.5.2-incubating

  • Hue バージョン 4.7.1

  • JupyterHub バージョン 1.1.0

  • Livy バージョン 0.7.0

  • MXNet バージョン 1.6.0

  • Oozie バージョン 5.2.0

  • Phoenix バージョン 5.0.0

  • Presto バージョン 0.232

  • PrestoSQL バージョン 338

  • Spark バージョン 3.0.0-amzn-0

  • TensorFlow バージョン 2.1.0

  • Zeppelin バージョン 0.9.0-preview1

  • Zookeeper バージョン 3.4.14

  • コネクタおよびドライバー: DynamoDB Connector 4.14.0

新機能

  • ARM インスタンスタイプは、Amazon EMR バージョン 5.30.0 および Amazon EMR バージョン 6.1.0 以降でサポートされています。

  • M6g 汎用インスタンスタイプは、Amazon EMR バージョン 6.1.0 および 5.31.0 以降でサポートされています。詳細については、Amazon EMR 管理ガイドの「サポートされるインスタンスタイプ」を参照してください。

  • EC2 プレイスメントグループ機能は、Amazon EMR バージョン 5.23.0 以降、複数のマスターノードクラスターのオプションとしてサポートされます。現在、プレイスメントグループ機能でサポートされるのはマスターノードタイプのみで、SPREAD ストラテジーはそれらのマスターノードに適用されます。SPREAD ストラテジーでは、ハードウェア障害が発生した場合に複数のマスターノードが失われることを防ぐために、インスタンスの小さなグループを基盤となる別々のハードウェアに配置します。詳細については、Amazon EMR 管理ガイド の「EMR と EC2 プレイスメントグループとの統合」を参照してください。

  • マネージドスケーリング – Amazon EMR バージョン 6.1.0 では、EMR マネージドスケーリングを有効にすることで、ワークロードに応じてクラスター内のインスタンスやユニットの数を自動的に増減できます。EMR はクラスターのメトリクスを継続的に評価し、クラスターのコストと速度を最適化するためのスケーリングを決定します。マネージドスケーリングは、Amazon EMR バージョン 5.30.0 以降でも使用できます (6.0.0 を除く)。詳細については、Amazon EMR 管理ガイドの「クラスターリソースのスケーリング」を参照してください。

  • PrestoSQL バージョン 338 は、EMR 6.1.0 でサポートされています。詳細については、「Presto」を参照してください。

    • PrestoSQL は EMR 6.1.0 以降のバージョンでのみサポートされ、EMR 6.0.0 または EMR 5.x ではサポートされません。

    • アプリケーション名 Presto は、クラスターに PrestoDB をインストールするために引き続き使用されます。クラスターに PrestoSQL をインストールするには、アプリケーション名 PrestoSQL を使用します。

    • PrestoDB または PrestoSQL のいずれかをインストールできますが、両方を 1 つのクラスターにインストールすることはできません。クラスターの作成時に PrestoDB と PrestoSQL の両方を指定すると、検証エラーが発生し、クラスターの作成リクエストは失敗します。

    • PrestoSQL は、シングルマスタークラスターとマルチマスタークラスターの両方でサポートされています。マルチマスタークラスターでは、PrestoSQL または PrestoDB を実行するには、外部 Hive メタストアが必要です。「複数のマスターノードを持つ EMR クラスターでサポートされているアプリケーション」を参照してください。

  • Docker での Apache Hadoop と Apache Spark に対する ECR 自動認証サポート: Spark ユーザーは、Docker Hub と Amazon Elastic Container Registry (Amazon ECR) の Docker イメージを使用して、環境とライブラリの依存関係を定義できます。

    Docker を設定し、Amazon EMR 6.x を使用してDocker で Spark アプリケーションを実行します。

  • EMR は Apache Hive ACID トランザクションをサポートします。Amazon EMR 6.1.0 では、Hive ACID トランザクションのサポートが追加され、データベースの ACID プロパティに準拠します。この機能を使用すると、Amazon Simple Storage Service (Amazon S3) のデータを含む Hive の管理されたテーブルで、INSERT、UPDATE、DELETE、および MERGE オペレーションを実行できます。これは、ストリーミング取り込み、データ再設定、MERGE を使用した一括更新、緩やかに変化するディメンションなどのユースケースにとって重要な機能です。設定例やユースケースなどの詳細については、「Amazon EMR が Apache Hive ACID トランザクションをサポート」を参照してください。

変更、拡張、解決した問題

  • Apache Flink は EMR 6.0.0 ではサポートされていませんが、EMR 6.1.0 では Flink1.11.0 がサポートされています。これは、正式に Hadoop 3 をサポートする Flink の最初のバージョンです。「Apache Flink 1.11.0 リリースの発表」を参照してください。

  • Ganglia はデフォルトの EMR 6.1.0 パッケージバンドルから削除されました。

既知の問題

  • Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.

    The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.

    Explicitly set a ulimit from the command line

    1. Edit /etc/systemd/system/instance-controller.service to add the following parameters to Service section.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Set a ulimit using bootstrap action (BA)

    You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • 重要

    Amazon EMR 6.1.0 および 6.2.0 には、Hudi の挿入、アップサート、および削除オペレーションにすべて重大な影響を与える可能性があるパフォーマンスの問題が含まれています。Amazon EMR 6.1.0 または 6.2.0 で Hudi を使用する予定の場合は、AWS サポートに連絡して、パッチが適用された Hudi RPM を入手してください。

  • spark.driver.extraJavaOptionsspark.executor.extraJavaOptions を使用してカスタムガベージコレクション設定を指定すると、ガベージコレクション設定の競合により、EMR 6.1 でドライバー/エグゼキュータの起動に失敗します。EMR リリース 6.1.0 では、ドライバーとエグゼキュータのカスタム Spark ガベージコレクション設定を、代わりにプロパティ spark.driver.defaultJavaOptionsspark.executor.defaultJavaOptions で指定する必要があります。詳細については、「Apache Spark ランタイム環境」および「Amazon EMR 6.1.0 での Spark ガベージコレクションの設定」を参照してください。

  • Oozie で Pig を使用すると、ネイティブ lzo ライブラリをロードできないというエラーが生成されます (Hue 内でも同様です。Hue は Oozie アクションを使用して Pig スクリプトを実行するためです)。このエラーメッセージは情報提供を目的としたもので、Pig の実行はブロックされません。

  • Hudi 同時実行のサポート: 現時点で、Hudi は単一の Hudi テーブルへの同時書き込みをサポートしていません。さらに、Hudi は、新しいライターの開始を許可する前に、進行中のライターの変更をすべてロールバックします。同時書き込みはこのメカニズムに干渉するため、競合状態を発生させ、データの破損につながる可能性があります。データ処理ワークフローの一部として、Hudi テーブルに対して操作を実行する Hudi ライターは常に 1 つのみであることを確認してください。Hudi は、同じ Hudi テーブルに対して動作する複数の同時リーダーをサポートします。

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

  • Amazon EMR 6.1.0 には、Presto を実行しているクラスターに影響する問題があります。長い時間 (日数) が経過した後で、クラスターは「su: /bin/bash の実行に失敗しました: リソースは一時的に使用できません」または「チャネル 0 でシェル要求が失敗しました」などのエラーがスローされることがあります。この問題は、内部の Amazon EMR プロセス (instanceController) で発生している軽量プロセス (LWP) が多すぎる場合に発生します。その結果、Hadoop ユーザーは nproc の制限を超過します。これにより、ユーザーは追加のプロセスを開くことができなくなります。この問題の解決策は、EMR 6.2.0 にアップグレードすることです。

リリース 6.0.0

次のリリースノートには、Amazon EMR リリースバージョン 6.0.0 に関する情報が含まれています。

初回リリース日: 2020 年 3 月 10 日

サポートされるアプリケーション

  • AWS SDK for Java バージョン 1.11.711

  • Ganglia バージョン 3.7.2

  • Hadoop バージョン 3.2.1

  • HBase バージョン 2.2.3

  • HCatalog バージョン 3.1.2

  • Hive バージョン 3.1.2

  • Hudi バージョン 0.5.0-incubating

  • Hue バージョン 4.4.0

  • JupyterHub バージョン 1.0.0

  • Livy バージョン 0.6.0

  • MXNet バージョン 1.5.1

  • Oozie バージョン 5.1.0

  • Phoenix バージョン 5.0.0

  • Presto バージョン 0.230

  • Spark バージョン 2.4.4

  • TensorFlow バージョン 1.14.0

  • Zeppelin バージョン 0.9.0-SNAPSHOT

  • Zookeeper バージョン 3.4.14

  • コネクタおよびドライバー: DynamoDB Connector 4.14.0

注記

Flink、Sqoop、Pig、および Mahout は、Amazon EMR バージョン 6.0.0 では使用できません。

新機能

  • YARN Docker ランタイムのサポート - Spark ジョブなどの YARN アプリケーションは、Docker コンテナのコンテキストで実行できるようになりました。これにより、Amazon EMR クラスターにカスタムライブラリをインストールすることなく、Docker イメージの依存関係を簡単に定義できます。詳細については、「Configure Docker Integration」および「Run Spark applications with Docker using Amazon EMR 6.0.0」を参照してください。

  • Hive LLAP のサポート - クエリのパフォーマンス向上のため、Hive が LLAP 実行モードをサポートしました。詳細については、「Hive LLAP の使用」を参照してください。

変更、拡張、解決した問題

  • Amazon Linux

    • Amazon Linux 2 は EMR 6.x リリースシリーズのオペレーティングシステムです。

    • systemd は、Amazon Linux 1 で使用される upstart ではなく、サービス管理に使用されます。

  • Java Development Kit (JDK)

    • Coretto JDK 8 は、EMR 6.x リリースシリーズのデフォルトの JDK です。

  • Scala

    • Scala 2.12 は、Apache Spark および Apache Livy で使用されます。

  • Python 3

    • Python 3 が EMR の Python のデフォルトバージョンになりました。

  • YARN ノードラベル

    • Amazon EMR 6.x リリースシリーズ以降では、YARN ノードラベル機能はデフォルトで無効になっています。アプリケーションマスタープロセスは、デフォルトでコアノードとタスクノードの両方で実行できます。次のプロパティを設定することで、YARN ノードラベル機能を有効にできます: yarn.node-labels.enabled および yarn.node-labels.am.default-node-label-expression。詳細については、「Understanding Master, Core, and Task Nodes」を参照してください。

既知の問題

  • Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.

    The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.

    Explicitly set a ulimit from the command line

    1. Edit /etc/systemd/system/instance-controller.service to add the following parameters to Service section.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Set a ulimit using bootstrap action (BA)

    You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • PySpark、SparkR、spark-shell を含む Spark インタラクティブシェルは、追加のライブラリでの Docker の使用をサポートしていません。

  • Amazon EMR バージョン 6.0.0 で Python 3 を使用するには、PATHyarn.nodemanager.env-whitelist に追加する必要があります。

  • AWS Glue データカタログを Hive のメタストアとして使用する場合、Live Long and Process (LLAP) 機能はサポートされません。

  • Spark と Docker の統合で Amazon EMR 6.0.0 を使用する場合、Docker ランタイムで Spark ジョブを送信する際の失敗を避けるために、クラスター内のインスタンスを同じインスタンスタイプと同じ量の EBS ボリュームで設定する必要があります。

  • Amazon EMR 6.0.0 では、Amazon S3 ストレージモード上の HBase は HBASE-24286 の問題の影響を受けます。既存の S3 データを使用してクラスターが作成されると、HBase マスターは初期化できません。

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

リリース 5.30.1

次のリリースノートは、Amazon EMR リリースバージョン 5.30.1 に関する情報を記載しています。5.30.0 からの変更が含まれています。

初回リリース日: 2020 年 6 月 30 日

最終更新日: 2020 年 8 月 24 日

変更、拡張、解決した問題

  • インスタンスコントローラプロセスが無限にプロセスをスポーンする問題を修正しました。

  • Hue が Hive クエリを実行できず、「データベースがロックされています」というメッセージが表示されてクエリを実行できない問題を修正しました。

  • Spark の問題を修正し、EMR クラスターでより多くのタスクを同時に実行できるようにしました。

  • Jupyter サーバーで「開いているファイルが多すぎます」というエラーが発生する Jupyter ノートブックの問題を修正しました。

  • クラスターの開始時刻に関する問題を修正しました。

新機能

  • Tez UI および YARN タイムラインサーバー永続アプリケーションインターフェイスは、Amazon EMR バージョン 6.x および EMR バージョン 5.30.1 以降で使用できます。永続的なアプリケーション履歴へのワンクリックリンクアクセスにより、SSH 接続を介してウェブプロキシを設定することなく、ジョブ履歴にすばやくアクセスできます。アクティブなクラスターと終了したクラスターのログは、アプリケーションの終了から 30 日間使用できます。詳細については、Amazon EMR 管理ガイドの「永続アプリケーションユーザーインターフェイスの表示」を参照してください。

  • EMR Notebook 実行 API は、スクリプトまたはコマンドラインで EMR Notebooks を実行するために使用できます。AWS コンソールを使用せずに EMR ノートブックの実行を開始、停止、一覧表示、記述する機能により、EMR ノートブックをプログラムで制御できます。パラメータ化されたノートブックセルを使用すると、新しいパラメータ値のセットごとにノートブックのコピーを作成しなくても、ノートブックに異なるパラメータ値を渡すことができます。「EMR API アクション」を参照してください。 サンプルコードについては、「EMR Notebooks をプログラムで実行するためのサンプルコマンド」を参照してください。

既知の問題

  • Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.

    The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.

    Explicitly set a ulimit from the command line

    1. Edit /etc/systemd/system/instance-controller.service to add the following parameters to Service section.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Set a ulimit using bootstrap action (BA)

    You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • EMR ノートブック

    クラスターのマスターノードにカーネルと追加の Python ライブラリをインストールできる機能は、EMR バージョン 5.30.1 ではデフォルトで無効になっています。この機能の詳細については、「クラスターマスターノードへのカーネルと Python ライブラリのインストール」を参照してください。

    この機能を有効にするには、次の手順を実行します。

    1. EMR Notebooks のサービスロールにアタッチされているアクセス許可ポリシーで、次の操作が許可されていることを確認します。

      elasticmapreduce:ListSteps

      詳細については、「EMR Notebooks のサービスロール」を参照してください。

    2. AWS CLI を使用して、次の例に示すように、EMR ノートブック をセットアップするクラスターでステップを実行します。us-east-1 を、クラスターが存在するリージョンに置き換えます。詳細については、「AWS CLI を使用したクラスターへのステップの追加」を参照してください。

      aws emr add-steps --cluster-id MyClusterID --steps Type=CUSTOM_JAR,Name=EMRNotebooksSetup,ActionOnFailure=CONTINUE,Jar=s3://us-east-1.elasticmapreduce/libs/script-runner/script-runner.jar,Args=["s3://awssupportdatasvcs.com/bootstrap-actions/EMRNotebooksSetup/emr-notebooks-setup.sh"]
  • マネージドスケーリング

    Presto をインストールせずに 5.30.0 および 5.30.1 クラスターで管理されたスケーリング操作を行うと、アプリケーションの障害を引き起こしたり、均一なインスタンスグループまたはインスタンスフリートが ARRESTED 状態のままになることがあります。特に、スケールダウン操作の後、すぐにスケールアップ操作が実行される場合です。

    回避策として、ジョブの実行に Presto を必要としない場合でも、クラスターの作成時にインストールするアプリケーションとして Presto を選択します。

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

リリース 5.30.0

次のリリースノートは、Amazon EMR リリースバージョン 5.30.0 に関する情報を記載しています。5.29.0 からの変更が含まれています。

初回リリース日: 2020 年 5 月 13 日

最終更新日: 2020 年 6 月 25 日

アップグレード

  • AWS SDK for Java をバージョン 1.11.759 にアップグレードしました

  • Amazon SageMaker Spark SDK をバージョン 1.3.0 にアップグレードしました

  • EMR Record Server をバージョン 1.6.0 にアップグレードしました

  • Flink をバージョン 1.10.0 にアップグレードしました

  • Ganglia をバージョン 3.7.2 にアップグレードしました

  • HBase をバージョン 1.4.13 にアップグレードしました

  • Hudi をバージョン 0.5.2 (incubating) にアップグレードしました

  • Hue をバージョン 4.6.0 にアップグレードしました

  • JupyterHub をバージョン 1.1.0 にアップグレードしました

  • Livy をバージョン 0.7.0 (incubating) にアップグレードしました

  • Oozie をバージョン 5.2.0 にアップグレードしました

  • Presto をバージョン 0.232 にアップグレードしました

  • Spark をバージョン 2.4.5 にアップグレードしました

  • コネクタとドライバーをアップグレードしました: Amazon Glue Connector 1.12.0、Amazon Kinesis Connector 3.5.0、EMR DynamoDB Connector 4.14.0

新機能

  • EMR Notebooks – 5.30.0 を使用して作成された EMR クラスターで使用すると、EMR ノートブック カーネルはクラスター上で実行されます。これにより、ノートブックのパフォーマンスが向上し、カーネルをインストールおよびカスタマイズすることができます。また、クラスターのマスターノードに Python ライブラリをインストールすることもできます。詳細については、EMR 管理ガイドの「カーネルとライブラリのインストールと使用」を参照してください。

  • マネージドスケーリング – Amazon EMR バージョン 5.30.0 以降では、EMR マネージドスケーリングを有効にすることで、ワークロードに応じてクラスター内のインスタンスやユニットの数を自動的に増減できます。EMR は引き続きクラスターのメトリクスを評価し、クラスターのコストと速度を最適化するためのスケーリングを決定します。詳細については、Amazon EMR 管理ガイドの「クラスターリソースのスケーリング」を参照してください。

  • Amazon S3 に保存されているログファイルの暗号化 – Amazon EMR バージョン 5.30.0 以降では、AWS KMS カスタマー管理キーを使用して Amazon S3 に格納されたログファイルを暗号化することができます。詳細については、Amazon EMR 管理ガイド の「Amazon S3 に保存されているログファイルを暗号化する」を参照してください。

  • Amazon Linux 2 のサポート –EMR バージョン 5.30.0 以降では、Amazon Linux 2 OS を使用します。新しいカスタム AMI (Amazon マシンイメージ) は、Amazon Linux 2 AMI に基づいている必要があります。詳細については、「カスタム AMI の使用」を参照してください。

  • Presto Graceful Auto Scale – 5.30.0 を使用する EMR クラスターでは、Auto Scaling タイムアウト期間を設定することで、Presto タスクの実行が終了するまで待ってからノードの使用を停止できます。詳細については、「グレースフルな廃止による Presto Auto Scaling の使用」を参照してください。

  • 新しい割り当て戦略オプションを使用したフリートインスタンスの作成 – 新しい割り当て戦略オプションは、EMR バージョン 5.12.1 以降で使用できます。これにより、より高速なクラスターのプロビジョニング、より正確なスポット割り当て、より少ないスポットインスタンスの中断を実現できます。デフォルト以外の EMR サービスロールの更新が必要です。「インスタンスフリートを設定する」を参照してください。

  • sudo systemctl stop および sudo systemctl start コマンド– Amazon Linux 2 OS を使用する EMR バージョン 5.30.0 以降では、EMR は sudo systemctl stop および sudo systemctl start コマンドを使用してサービスを再起動します。詳細については、「Amazon EMR のサービスを再起動するにはどうすればよいですか?」を参照してください。

変更、拡張、解決した問題

  • EMR バージョン 5.30.0 では、デフォルトで Ganglia がインストールされません。クラスターの作成時に、Ganglia を明示的に選択してインストールできます。

  • Spark パフォーマンスの最適化。

  • Presto パフォーマンスの最適化。

  • Amazon EMR バージョン 5.30.0 以降では、Python 3 がデフォルトです。

  • プライベートサブネット内のサービスアクセス用のデフォルトのマネージドセキュリティグループが更新され、複数の新しいルールが追加されました。サービスアクセスにカスタムセキュリティグループを使用している場合は、同じルールをデフォルトのマネージドセキュリティグループとして含める必要があります。詳細については、「サービスアクセスの Amazon EMR マネージドセキュリティグループ (プライベートサブネット)」を参照してください。Amazon EMR でカスタムサービスロールを使用している場合は、ec2:describeSecurityGroups にアクセス許可を付与して、セキュリティグループが正常に作成されたかどうかを EMR で検証できるようにする必要があります。EMR_DefaultRole を使用する場合、このアクセス許可はデフォルトのマネージドポリシーに既に含まれています。

既知の問題

  • Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.

    The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.

    Explicitly set a ulimit from the command line

    1. Edit /etc/systemd/system/instance-controller.service to add the following parameters to Service section.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Set a ulimit using bootstrap action (BA)

    You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • マネージドスケーリング

    Presto をインストールせずに 5.30.0 および 5.30.1 クラスターで管理されたスケーリング操作を行うと、アプリケーションの障害を引き起こしたり、均一なインスタンスグループまたはインスタンスフリートが ARRESTED 状態のままになることがあります。特に、スケールダウン操作の後、すぐにスケールアップ操作が実行される場合です。

    回避策として、ジョブの実行に Presto を必要としない場合でも、クラスターの作成時にインストールするアプリケーションとして Presto を選択します。

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

リリース 5.29.0

次のリリースノートには、Amazon EMR リリースバージョン 5.29.0 に関する情報が含まれています。変更は 5.28.1 に関連するものです。

初回リリース日: 2020 年 1 月 17 日

アップグレード

  • AWS Java SDK を 1.11.682 にアップグレードしました

  • Hive をバージョン 2.3.6 にアップグレードしました

  • Flink をバージョン 1.9.1 にアップグレードしました

  • EmrFS をバージョン 2.38.0 にアップグレードしました

  • EMR DynamoDB Connector をバージョン 4.13.0 にアップグレードしました

変更、拡張、解決した問題

  • Spark

    • Spark パフォーマンスの最適化。

  • EMRFS

    • 整合性のあるビューが得られるように管理ガイドを emrfs-site.xml デフォルト設定に更新します。

既知の問題

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

リリース 5.28.1

次のリリースノートには、Amazon EMR リリースバージョン 5.28.1 に関する情報が含まれています。変更は 5.28.0 に関連するものです。

初回リリース日: 2020 年 1 月 10 日

変更、拡張、解決した問題

  • Spark

    • Spark の互換性の問題が修正されました。

  • CloudWatch Metrics

    • 複数のマスターノードを持つ EMR クラスターでの Amazon CloudWatch メトリクスの発行が修正されました。

  • 無効にされたログメッセージ

    • 無効にされたログメッセージ、「...Apache http クライアントの古いバージョン (4.5.8 より前) を使用。」

既知の問題

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

リリース 5.28.0

次のリリースノートには、Amazon EMR リリースバージョン 5.28.0 に関する情報が含まれています。変更は 5.27.0 に関連するものです。

初回リリース日: 2019 年 11 月 12 日

アップグレード

  • Flink をバージョン 1.9.0 にアップグレードしました

  • Hive をバージョン 2.3.6 にアップグレードしました

  • MXNet をバージョン 1.5.1 にアップグレードしました

  • Phoenix をバージョン 4.14.3 にアップグレードしました

  • Presto をバージョン 0.227 にアップグレードしました

  • Zeppelin をバージョン 0.8.2 にアップグレードしました

新機能

  • クラスターを作成するときに、Apache Hudi を利用して Amazon EMR をインストールできるようになりました。詳細については、「Hudi」を参照してください。

  • (2019 年 11 月 25 日) 複数のステップを並行して選択して、クラスター使用率を改善し、コストを削減できるようになりました。また、保留中および実行中のステップの両方をキャンセルできるようになりました。詳細については、「AWS CLI およびコンソールを使用した手順の作業」を参照してください。

  • (2019 年 12 月 3 日) AWS Outposts で EMR クラスターを作成し、実行できるようになりました。AWS Outposts は、ネイティブの AWS のサービス、インフラストラクチャ、運用モデルをオンプレミス施設で実現します。AWS Outposts 環境では、AWS クラウドで使用するのと同じ AWS API、ツール、インフラストラクチャを使用できます。詳細については、「AWS Outposts 上の EMR クラスター」を参照してください。

  • (2020 年 3 月 11 日) Amazon EMR バージョン 5.28.0 以降では、ローカルゾーン をサポートする AWS リージョンの論理的延長として、AWS Local Zones サブネットで Amazon EMR クラスターを作成および実行できます。ローカルゾーン を使用すると、Amazon EMR 機能と AWS のサービスのサブセット (コンピューティングサービスやストレージサービスなど) をユーザーの近くに配置して、ローカルで実行されるアプリケーションに非常に低いレイテンシーでアクセスできます。使用可能な ローカルゾーン のリストについては、「AWS Local Zones」を参照してください。使用可能な AWS Local Zones へのアクセスの詳細については、「リージョン、アベイラビリティーゾーン、およびローカルゾーン」を参照してください。

    ローカルゾーン は、現在、Amazon EMR Notebooks をサポートしていません。また、インターフェイス VPC エンドポイント (AWS PrivateLink) を使用した Amazon EMR への直接接続もサポートしていません。

変更、拡張、解決した問題

既知の問題

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

リリース 5.27.0

次のリリースノートには、Amazon EMR リリースバージョン 5.27.0 に関する情報が含まれています。変更は 5.26.0 に関連するものです。

初回リリース日: 2019 年 9 月 23 日

アップグレード

  • AWS SDK for Java 1.11.615

  • Flink 1.8.1

  • JupyterHub 1.0.0

  • Spark 2.4.4

  • Tensorflow 1.14.0

  • コネクタおよびドライバ:

    • DynamoDB コネクタ 4.12.0

新機能

  • (2019 年 10 月 24 日) EMR ノートブックの次の新機能が、すべての Amazon EMR リリースで利用可能になりました。

    • インスタンスメタデータサービス (IMDS) V2 のサポートステータス: Amazon EMR 5.23.1、5.27.1、5.32 以降のコンポーネントは、すべての IMDS 呼び出しで IMDSv2 を使用します。アプリケーションコードでの IMDS 呼び出しの場合、IMDSv1 と IMDSv2 の両方を使用するか、セキュリティを強化するために IMDSv2 のみを使用するように IMDS を設定できます。その他の 5.x EMR リリースでは、IMDSv1 を無効にすると、クラスターの起動に失敗します。

    • これにより、Git リポジトリを EMR ノートブックに関連付けて、バージョン管理された環境でノートブックを保存できます。リモート Git レポジトリを通じてコードを同僚と共有し、既存の Jupyter ノートブックを再利用できます。詳細については、Amazon EMR 管理ガイドの「Git リポジトリを Amazon EMR ノートブックインスタンスに関連付ける」を参照してください。

    • nbdime utility を EMR Notebooks で利用して、ノートブックの比較とマージを簡略化できるようになりました。Â

    • EMR ノートブックが JupyterLab をサポートしました。JupyterLab は、Jupyter ノートブックと完全に互換性があるウェブベースのインターラクティブ開発環境です。JupyterLab または Jupyter ノートブックエディタのいずれかでノートブックを開くことを選択できるようになりました。

  • (2019 年 10 月 30 日) Amazon EMR バージョン 5.25.0 以降では、コンソールでクラスターの [Summary (概要)] ページまたは [Application history (アプリケーション履歴)] タブから Spark 履歴サーバー UI に接続できます。SSH 接続を通じてウェブプロキシをセットアップする代わりに、Spark 履歴サーバー UI にすばやくアクセスしてアプリケーションメトリクスを表示し、アクティブなクラスターや終了したクラスターの該当するログファイルにアクセスできます。詳細については、Amazon EMR 管理ガイドの「永続アプリケーションユーザインターフェイスへのクラスター外アクセス」を参照してください。

変更、拡張、解決した問題

既知の問題

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

リリース 5.26.0

次のリリースノートには、Amazon EMR リリースバージョン 5.26.0 に関する情報が含まれています。変更は 5.25.0 に関連するものです。

初回リリース日: 2019 年 8 月 8 日

最終更新日: 2019 年 8 月 19 日

アップグレード

  • AWS SDK for Java 1.11.595

  • HBase 1.4.10

  • Phoenix 4.14.2

  • コネクタおよびドライバ:

    • DynamoDB コネクタ 4.11.0

    • MariaDB コネクタ 2.4.2

    • Amazon Redshift JDBC ドライバー 1.2.32.1056

新機能

  • (ベータ) Amazon EMR 5.26.0 以降では、Lake Formation と統合するクラスターを起動できます。この統合により、AWS Glue データカタログ内のデータベースとテーブルへのきめ細かな列レベルのアクセスが提供されます。また、企業の ID システムから EMR ノートブックまたは Apache Zeppelin へのフェデレーションシングルサインオンが可能になります。詳細については、「Amazon EMR の AWS Lake Formation との統合 (ベータ)」を参照してください。

  • (2019 年 8 月 19 日) Amazon EMR のブロックパブリックアクセスが、セキュリティグループをサポートするすべての Amazon EMR リリースで使用可能になりました。ブロックパブリックアクセスは、各 AWS リージョンに適用されるアカウント全体の設定です。ブロックパブリックアクセスにより、クラスターに関連付けられたセキュリティグループに、ポートで IPv4 0.0.0.0/0 または IPv6 ::/0 (パブリックアクセス) からのインバウンドトラフィックを許可するルールがある場合に、クラスターの起動が防止されます (ポートが例外として指定されている場合を除く)。ポート 22 は、デフォルトで例外になります。詳細については、Amazon EMR 管理ガイドの「Amazon EMR ブロックパブリックアクセスの使用」を参照してください。

変更、拡張、解決した問題

  • EMR ノートブック

    • EMR 5.26.0 以降では、EMR ノートブック はデフォルトの Python ライブラリに加えて、ノートブックを範囲とする Python ライブラリがサポートします。ノートブックを範囲とするライブラリは、クラスターを再作成したり、クラスターにノートブックを再アタッチしたりすることなく、ノートブックエディタ内からインストールできます。ノートブックを範囲とするライブラリは、Python 仮想環境内で作成されるため、現在のノートブックセッションにのみ適用されます。これにより、ノートブックの依存関係を分離できます。詳細については、Amazon EMR 管理ガイドの「Using Notebook Scoped Libraries」を参照してください。

  • EMRFS

    • fs.s3.consistent.metadata.etag.verification.enabledtrue に設定して、ETag 検証機能 (ベータ) を有効にできます。この機能では、EMRFS は Amazon S3 ETag を使用して、読み取られているオブジェクトが利用可能な最新バージョンであることを確認します。この機能は、Amazon S3 上のファイルが同じ名前を維持しながら上書きされる、更新後の読み取りのユースケースに役立ちます。この ETag 検証機能は、現在 S3 Select では使用できません。詳細については、「一貫性のあるビューを構成する」を参照してください。

  • Spark

    • 次の最適化は、デフォルトで有効になりました: 動的なパーティションプルーニング、INTERSECT の前の DISTINCT、JOIN に続く DISTINCT クエリの SQL プラン統計推論の改善、スカラーサブクエリのフラット化、最適化された結合の順序変更、Bloom フィルターの結合。詳細については、「Spark パフォーマンスの最適化」を参照してください。

    • ソートマージ結合のステージコードの生成が全体的に改善されました。

    • クエリフラグメントとサブクエリの再利用が改善されました。

    • Spark 起動時のエグゼキューターの事前割り当ての改善。

    • 結合の小さい側にブロードキャストヒントが含まれている場合に、Bloom フィルター結合は適用されなくなりました。

  • Tez

    • Tez に関する問題を解決しました。Tez は 複数のマスターノードを持つ EMR クラスター で動作するようになりました。

既知の問題

  • ソートマージ結合のステージコード生成の全体的な改善により、有効時のメモリへの負荷が高まる可能性があります。この最適化によりパフォーマンスが向上しますが、十分なメモリを提供するよう spark.yarn.executor.memoryOverheadFactor がチューニングされていない場合、ジョブの再試行または失敗につながる可能性があります。この機能を無効にするには、spark.sql.sortMergeJoinExec.extendedCodegen.enabled を false に設定します。

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

リリース 5.25.0

次のリリースノートには、Amazon EMR リリースバージョン 5.25.0 に関する情報が含まれています。変更は 5.24.1 に関連するものです。

初回リリース日: 2019 年 7 月 17 日

最終更新日: 2019 年 10 月 30 日

Amazon EMR 5.25.0

アップグレード

  • AWS SDK for Java 1.11.566

  • Hive 2.3.5

  • Presto 0.220

  • Spark 2.4.3

  • TensorFlow 1.13.1

  • Tez 0.9.2

  • Zookeeper 3.4.14

新機能

  • (2019 年 10 月 30 日) Amazon EMR バージョン 5.25.0 から、コンソールでクラスターの [Summary (概要)] ページまたは [Application history (アプリケーション履歴)] タブから Spark 履歴サーバー UI に接続できます。SSH 接続を通じてウェブプロキシをセットアップする代わりに、Spark 履歴サーバー UI にすばやくアクセスしてアプリケーションメトリクスを表示し、アクティブなクラスターや終了したクラスターの該当するログファイルにアクセスできます。詳細については、Amazon EMR 管理ガイドの「永続アプリケーションユーザインターフェイスへのクラスター外アクセス」を参照してください。

変更、拡張、解決した問題

  • Spark

    • Bloom フィルタを使用して入力を事前フィルタリングすることにより、一部の結合のパフォーマンスが改善されました。最適化はデフォルトで無効になり、Spark 設定パラメータ spark.sql.bloomFilterJoin.enabledtrue に設定することにより有効にできます。

    • 文字列型の列によるグループ分けのパフォーマンスが改善されました。

    • HBase がインストールされていないクラスターで、R4 インスタンスタイプのデフォルトの Spark エグゼキュターメモリとコア設定が改善されました。

    • プルーニングされたテーブルが結合の左側になければならない場合に、ダイナミックパーティションプルーニング機能で以前に発生していた問題が解決されました。

    • エイリアスが関連する追加のケースに適用する INTERSECT 最適化の前の DISTINCT が改善されました。

    • 後に DISTINCT クエリが続く JOIN の、SQL 計画の統計的推論が改善されました。この改善はデフォルトで無効になり、Spark 設定パラメータ spark.sql.statsImprovements.enabledtrue に設定することにより有効にできます。この最適化は、Intersect 機能の前の Distinct で必要になり、spark.sql.optimizer.distinctBeforeIntersect.enabledtrue に設定されたときに自動的に有効になります。

    • テーブルサイズとフィルタに基いて、結合順序が最適化されました。この最適化はデフォルトで無効になり、Spark 設定パラメータ spark.sql.optimizer.sizeBasedJoinReorder.enabledtrue に設定することにより有効にできます。

    詳細については、「Spark パフォーマンスの最適化」を参照してください。

  • EMRFS

    • EMRFS 設定 fs.s3.buckets.create.enabled は、デフォルトで無効になりました。テストにより、この設定を無効にするとパフォーマンスが改善され、S3 バケットの予期しない作成を防止できることがわかりました。アプリケーションがこの機能に依存している場合は、emrfs-site 設定分類でプロパティ fs.s3.buckets.create.enabledtrue に設定することにより、機能を有効にできます。詳細については、「クラスターの作成時に設定を指定する」を参照してください。

  • セキュリティ設定におけるローカルディスクの暗号化と S3 暗号化の改善 (2019 年 8 月 5 日)

    • セキュリティ設定のセットアップで、ローカルディスク暗号化設定から Amazon S3 暗号化設定を分離しました。

    • リリース 5.24.0 以降で、EBS 暗号化を有効にするオプションを追加しました。このオプションを選択すると、ストレージボリュームに加えてルートデバイスボリュームが暗号化されます。以前のバージョンでは、カスタム AMI を使用してルートデバイスボリュームを暗号化する必要がありました。

    • 詳細については、Amazon EMR 管理ガイドの「暗号化オプション」を参照してください。

既知の問題

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

リリース 5.24.1

次のリリースノートには、Amazon EMR リリースバージョン 5.24.1 に関する情報が含まれています。変更は 5.24.0 に関連するものです。

初回リリース日: 2019 年 6 月 26 日

変更、拡張、解決した問題

  • Updated the default Amazon Linux AMI for EMR to include important Linux kernel security updates, including the TCP SACK Denial of Service Issue (AWS-2019-005).

既知の問題

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

リリース 5.24.0

次のリリースノートには、Amazon EMR リリースバージョン 5.24.0 に関する情報が含まれています。変更は 5.23.0 に関連するものです。

初回リリース日: 2019 年 6 月 11 日

最終更新日: 2019 年 8 月 5 日

アップグレード

  • Flink 1.8.0

  • Hue 4.4.0

  • JupyterHub 0.9.6

  • Livy 0.6.0

  • MxNet 1.4.0

  • Presto 0.219

  • Spark 2.4.2

  • AWS SDK for Java 1.11.546

  • コネクタおよびドライバ:

    • DynamoDB コネクタ 4.9.0

    • MariaDB コネクタ 2.4.1

    • Amazon Redshift JDBC ドライバ 1.2.27.1051

変更、拡張、解決した問題

  • Spark

    • 動的にパーティションを整理できるように最適化が追加されました。この最適化はデフォルトで無効になっています。この設定を有効にするには、Spark 設定パラメータ spark.sql.dynamicPartitionPruning.enabledtrue に設定します。

    • INTERSECT のクエリのパフォーマンスが改善されました。この最適化はデフォルトで無効になっています。この設定を有効にするには、Spark 設定パラメータ spark.sql.optimizer.distinctBeforeIntersect.enabledtrue に設定します。

    • 同じ関係を使用する集計を使用してスカラーサブクエリを平坦化するための最適化が追加されました。この最適化はデフォルトで無効になっています。この設定を有効にするには、Spark 設定パラメータ spark.sql.optimizer.flattenScalarSubqueriesWithAggregates.enabledtrue に設定します。

    • ステージコードの生成が全体的に改善されました。

    詳細については、「Spark パフォーマンスの最適化」を参照してください。

  • セキュリティ設定におけるローカルディスクの暗号化と S3 暗号化の改善 (2019 年 8 月 5 日)

    • セキュリティ設定のセットアップで、ローカルディスク暗号化設定から Amazon S3 暗号化設定を分離しました。

    • EBS 暗号化を有効にするオプションを追加しました。このオプションを選択すると、ストレージボリュームに加えてルートデバイスボリュームが暗号化されます。以前のバージョンでは、カスタム AMI を使用してルートデバイスボリュームを暗号化する必要がありました。

    • 詳細については、Amazon EMR 管理ガイドの「暗号化オプション」を参照してください。

既知の問題

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

リリース 5.23.0

次のリリースノートには、Amazon EMR リリースバージョン 5.23.0 に関する情報が含まれています。変更は 5.22.0 に関連するものです。

初回リリース日: 2019 年 4 月 1 日

最終更新日: 2019 年 4 月 30 日

アップグレード

  • AWS SDK for Java 1.11.519

新機能

  • (2019 年 4 月 30 日) Amazon EMR 5.23.0 以降では、YARN リソースマネージャー、HDFS 名前ノード、Spark、Hive、Ganglia といったアプリケーションの高可用性をサポートできるように、3 つのマスターノードでクラスターを起動できます。マスターノードは、現在この機能による潜在的な単一障害点ではありません。マスターノードのいずれかに障害が発生した場合、Amazon EMR は、自動的にスタンバイマスターノードにフェイルオーバーされ、障害が発生したマスターノードを同じ構成およびブートストラップアクションを持つ新しいマスターノードに置き換えられます。詳細については、「マスターノードの計画と構成」を参照してください。

  • インスタンスメタデータサービス (IMDS) V2 のサポートステータス: Amazon EMR 5.23.1、5.27.1、5.32 以降のコンポーネントは、すべての IMDS 呼び出しで IMDSv2 を使用します。アプリケーションコードでの IMDS 呼び出しの場合、IMDSv1 と IMDSv2 の両方を使用するか、セキュリティを強化するために IMDSv2 のみを使用するように IMDS を設定できます。その他の 5.x EMR リリースでは、IMDSv1 を無効にすると、クラスターの起動に失敗します。

既知の問題

  • Tez UI (Amazon EMR リリースバージョン 5.26.0 で修正)

    Tez UI は、複数のマスターノードを含む EMR クラスターでは動作しません。

  • Hue (Amazon EMR リリースバージョン 5.24.0 で修正)

    • Amazon EMR で実行されている Hue は、Solr をサポートしていません。Amazon EMR リリースバージョン 5.20.0 以降、設定に問題があると、Solr が有効になり、無害なエラーメッセージが次のように表示されます。

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr エラーメッセージが表示されないようにするには:

      1. SSH を使用してマスターノードに接続します。

      2. テキストエディタを使用して、hue.ini ファイルを開きます。次に例を示します。

        sudo vim /etc/hue/conf/hue.ini

      3. 「appblacklist」という用語を検索して、該当の行を次のように変更します。

        appblacklist = search
      4. 変更を保存し、以下の例に示されているように Hue を再起動します。

        sudo stop hue; sudo start hue
  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

リリース 5.22.0

次のリリースノートには、Amazon EMR リリースバージョン 5.22.0 に関する情報が含まれています。変更は 5.21.0 に関連するものです。

重要

Amazon EMR リリースバージョン 5.22.0 以降では、Amazon EMR は、AWS 署名バージョン 4 を排他的に使用して、Amazon S3 へのリクエストを認証します。それ以前の Amazon EMR リリースバージョンでは、AWS 署名バージョン 2 を使用する場合があります。ただし、署名バージョン 4 が排他的に使用されていることがリリースノートで示されている場合を除きます。詳細については、『Amazon Simple Storage Service 開発者ガイド』の「リクエストの認証 (AWS 署名バージョン 4)」および「リクエストの認証 (AWS 署名バージョン 2)」を参照してください。

初回リリース日: 2019 年 3 月 20 日

アップグレード

  • Flink 1.7.1

  • HBase 1.4.9

  • Oozie 5.1.0

  • Phoenix 4.14.1

  • Zeppelin 0.8.1

  • コネクタおよびドライバ:

    • DynamoDB コネクタ 4.8.0

    • MariaDB コネクタ 2.2.6

    • Amazon Redshift JDBC ドライバ 1.2.20.1043

新機能

  • EBS 専用ストレージを使用する EC2 インスタンスタイプの EBS のデフォルト設定を変更しました。Amazon EMR リリースバージョン 5.22.0 以降を使用してクラスターを作成する場合、デフォルトの EBS ストレージサイズは、インスタンスのサイズに基づいて増加します。さらに、増加したストレージは複数のボリュームに分割されます。これにより、IOPS のパフォーマンスが向上しました。別の EBS インスタンスストレージ設定を使用する場合は、EMR クラスターを作成する際、または既存のクラスターをノードに追加する際に指定することができます。各インスタンスタイプにデフォルトで割り当てられているストレージ容量とボリューム数の詳細については、Amazon EMR 管理ガイド の「インスタンスのデフォルト EBS ストレージ」を参照してください。

変更、拡張、解決した問題

  • Spark

    • YARN の Spark に新しい設定プロパティ spark.yarn.executor.memoryOverheadFactor を追加しました。このプロパティの値は、メモリのオーバーヘッドの値をエグゼキュターのメモリの割合 (%) に設定するスケールファクタで、最小 384 MBです。spark.yarn.executor.memoryOverhead を使用してメモリのオーバーヘッドが明示的に設定されている場合、このプロパティの影響はありません。デフォルト値は 0.1875 であり、18.75% を表します。この Amazon EMR のデフォルト値によって、Spark によって内部的に設定された 10% のデフォルトよりも多くのスペースが、エグゼキュターのメモリのオーバーヘッド用に YARN コンテナに残ります。Amazon EMR のデフォルトの 18.75% は、経験的に TPC-DS ベンチマークでメモリ関連の失敗が少ないことを示していました。

    • SPARK-26316 をバックポートし、パフォーマンスが向上しました。

  • Amazon EMR バージョン 5.19.0、5.20.0、および 5.21.0 では、YARN ノードラベルは HDFS ディレクトリに保存されます。状況によっては、これがコアノード起動の遅延に続いて、クラスターのタイムアウトと起動失敗の原因になります。Amazon EMR 5.22.0 以降では、この問題は解決されています。YARN ノードラベルは各クラスターノードのローカルディスクに保存され、HDFS への依存関係が回避されます。

既知の問題

  • Hue (Amazon EMR リリースバージョン 5.24.0 で修正)

    • Amazon EMR で実行されている Hue は、Solr をサポートしていません。Amazon EMR リリースバージョン 5.20.0 以降、設定に問題があると、Solr が有効になり、無害なエラーメッセージが次のように表示されます。

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr エラーメッセージが表示されないようにするには:

      1. SSH を使用してマスターノードに接続します。

      2. テキストエディタを使用して、hue.ini ファイルを開きます。次に例を示します。

        sudo vim /etc/hue/conf/hue.ini

      3. 「appblacklist」という用語を検索して、該当の行を次のように変更します。

        appblacklist = search
      4. 変更を保存し、以下の例に示されているように Hue を再起動します。

        sudo stop hue; sudo start hue
  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

リリース 5.21.1

次のリリースノートには、Amazon EMR リリースバージョン 5.21.1 に関する情報が含まれています。変更は 5.21.0 に関連するものです。

初回リリース日: 2019 年 7 月 18 日

変更、拡張、解決した問題

  • Updated the default Amazon Linux AMI for EMR to include important Linux kernel security updates, including the TCP SACK Denial of Service Issue (AWS-2019-005).

既知の問題

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

リリース 5.21.0

次のリリースノートには、Amazon EMR リリースバージョン 5.21.0 に関する情報が含まれています。変更は 5.20.0 に関連するものです。

リリース日: 2019 年 2 月 18 日

最終更新日: 2019 年 4 月 3 日

アップグレード

  • Flink 1.7.0

  • Presto 0.215

  • AWS SDK for Java 1.11.479

新機能

  • (2019 年 4 月 3 日) Amazon EMR バージョン 5.21.0 以降では、実行中のクラスター内のインスタンスグループごとに、クラスタ設定を上書きして追加の設定分類を指定できます。これを行うには、Amazon EMR コンソール、AWS Command Line Interface (AWS CLI)、または AWS SDK を使用します。詳細については、「実行中のクラスター内のインスタンスグループの設定を指定する」を参照してください。

変更、拡張、解決した問題

既知の問題

  • Hue (Amazon EMR リリースバージョン 5.24.0 で修正)

    • Amazon EMR で実行されている Hue は、Solr をサポートしていません。Amazon EMR リリースバージョン 5.20.0 以降、設定に問題があると、Solr が有効になり、無害なエラーメッセージが次のように表示されます。

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr エラーメッセージが表示されないようにするには:

      1. SSH を使用してマスターノードに接続します。

      2. テキストエディタを使用して、hue.ini ファイルを開きます。次に例を示します。

        sudo vim /etc/hue/conf/hue.ini

      3. 「appblacklist」という用語を検索して、該当の行を次のように変更します。

        appblacklist = search
      4. 変更を保存し、以下の例に示されているように Hue を再起動します。

        sudo stop hue; sudo start hue
  • Tez

    • この問題は、Amazon EMR 5.22.0 で修正されました。

      クラスターマスターノードに SSH 接続して Tez UI (MasterDNS:8080/tez-ui) に接続すると、エラー「Adapter operation failed - Timeline server (ATS) is out of reach.Either it is down, or CORS is not enabled」が表示されるか、意図せずにタスクに N/A と表示されます。

      これは、Tez UI がマスターノードのホスト名ではなく localhost を使用して YARN タイムラインサーバーにリクエストが送信されたことが原因です。回避策として、スクリプトをブートストラップアクションまたはステップとして実行することができます。このスクリプトによって、Tez の configs.env ファイルのホスト名がアップデートされます。スクリプトの詳細や場所については、「ブートストラップの手順」を参照してください。

  • Amazon EMR バージョン 5.19.0、5.20.0、および 5.21.0 では、YARN ノードラベルは HDFS ディレクトリに保存されます。状況によっては、これがコアノード起動の遅延に続いて、クラスターのタイムアウトと起動失敗の原因になります。Amazon EMR 5.22.0 以降では、この問題は解決されています。YARN ノードラベルは各クラスターノードのローカルディスクに保存され、HDFS への依存関係が回避されます。

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

リリース 5.20.0

次のリリースノートには、Amazon EMR リリースバージョン 5.20.0 に関する情報が含まれています。変更は 5.19.0 に関連するものです。

初回リリース日: 2018 年 12 月 18 日

最終更新日: 2019 年 1 月 22 日

アップグレード

  • Flink 1.6.2

  • HBase 1.4.8

  • Hive 2.3.4

  • Hue 4.3.0

  • MXNet 1.3.1

  • Presto 0.214

  • Spark 2.4.0

  • TensorFlow 1.12.0

  • Tez 0.9.1

  • AWS SDK for Java 1.11.461

新機能

  • (2019 年 1 月 22 日) Amazon EMR の Kerberos は、外部 KDC からのプリンシパルの認証をサポートするように改良されました。これにより、複数のクラスターが単一の外部 KDC を共有できるため、プリンシパル管理が集中化されます。さらに、外部 KDC は Active Directory ドメインとのクロス領域信頼を得られます。これにより、すべてのクラスターが Active Directory からプリンシパルを認証できます。詳細については、Amazon EMR 管理ガイド の「Kerberos 認証を使用する」を参照してください。

変更、拡張、解決した問題

  • Amazon EMR のデフォルト Amazon Linux AMI

    • Python3 パッケージは Python 3.4 から 3.6 にアップグレードされました。

  • EMRFS S3 向けに最適化されたコミッター

  • Hive

  • Spark および Hive での Glue

    • EMR 5.20.0 以降で AWS Glue Data Catalog がメタストアとして使用されている場合、Spark と Hive に対して並列パーティションの削除が自動的に有効になります。この変更により、パーティションを取得するために複数のリクエストを並行して実行することで、クエリの計画時間は大幅に短縮されます。同時に実行できるセグメントの合計数は、1~10 の範囲です。デフォルト値は 5 です。この設定が推奨されています。この設定を変更するには、hive-site 設定分類のプロパティ aws.glue.partition.num.segments を指定します。スロットリングが発生した場合は、値を 1 に変更して機能を無効にすることができます。詳細については、「AWS Glue セグメント構造」を参照してください。

既知の問題

  • Hue (Amazon EMR リリースバージョン 5.24.0 で修正)

    • Amazon EMR で実行されている Hue は、Solr をサポートしていません。Amazon EMR リリースバージョン 5.20.0 以降、設定に問題があると、Solr が有効になり、無害なエラーメッセージが次のように表示されます。

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr エラーメッセージが表示されないようにするには:

      1. SSH を使用してマスターノードに接続します。

      2. テキストエディタを使用して、hue.ini ファイルを開きます。次に例を示します。

        sudo vim /etc/hue/conf/hue.ini

      3. 「appblacklist」という用語を検索して、該当の行を次のように変更します。

        appblacklist = search
      4. 変更を保存し、以下の例に示されているように Hue を再起動します。

        sudo stop hue; sudo start hue
  • Tez

    • この問題は、Amazon EMR 5.22.0 で修正されました。

      クラスターマスターノードに SSH 接続して Tez UI (MasterDNS:8080/tez-ui) に接続すると、エラー「Adapter operation failed - Timeline server (ATS) is out of reach.Either it is down, or CORS is not enabled」が表示されるか、意図せずにタスクに N/A と表示されます。

      これは、Tez UI がマスターノードのホスト名ではなく localhost を使用して YARN タイムラインサーバーにリクエストが送信されたことが原因です。回避策として、スクリプトをブートストラップアクションまたはステップとして実行することができます。このスクリプトによって、Tez の configs.env ファイルのホスト名がアップデートされます。スクリプトの詳細や場所については、「ブートストラップの手順」を参照してください。

  • Amazon EMR バージョン 5.19.0、5.20.0、および 5.21.0 では、YARN ノードラベルは HDFS ディレクトリに保存されます。状況によっては、これがコアノード起動の遅延に続いて、クラスターのタイムアウトと起動失敗の原因になります。Amazon EMR 5.22.0 以降では、この問題は解決されています。YARN ノードラベルは各クラスターノードのローカルディスクに保存され、HDFS への依存関係が回避されます。

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    注記

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

リリース 5.19.0

次のリリースノートには、Amazon EMR リリースバージョン 5.19.0 に関する情報が含まれています。変更は 5.18.0 に関連するものです。

初回リリース日: 2018 年 11 月 7 日

最終更新日: 2018 年 11 月 19 日

アップグレード

  • Hadoop 2.8.5

  • Flink 1.6.1

  • JupyterHub 0.9.4

  • MXNet 1.3.0

  • Presto 0.212

  • TensorFlow 1.11.0

  • Zookeeper 3.4.13

  • AWS SDK for Java 1.11.433

新機能

  • (2018 年 11 月 19 日) EMR ノートブック は Jupyter Notebook に基づくマネージド環境です。PySpark、Spark SQL、Spark R、および Scala の Spark マジックカーネルをサポートします。EMR ノートブック は、Amazon EMR リリースバージョン 5.18.0 以降を使用して作成されたクラスターで使用できます。詳細については、Amazon EMR 管理ガイド の「EMR ノートブックの使用」を参照してください。

  • EMRFS S3 で最適化されたコミッターは、Spark および EMRFS を使用して Parquet ファイルを記述するときに利用できます。このコミッターにより、書き込みパフォーマンスが向上します。詳細については、「EMRFS S3 向けに最適化されたコミッターの使用」を参照してください。

変更、拡張、解決した問題

  • YARN

  • Amazon EMR のデフォルト Amazon Linux AMI

    • ruby18php56、および gcc48 はデフォルトでインストールされなくなりました。これらが必要な場合は、yum を使用してインストールできます。

    • aws-java-sdk ruby gem はデフォルトでインストールされなくなりました。必要な場合は、gem install aws-java-sdk を使用してインストールできます。特定のコンポーネントをインストールすることもできます。たとえば、gem install aws-java-sdk-s3 と指定します。

既知の問題

  • EMR ノートブック — 特定の状況で、複数のノートブックエディタが開いている場合、ノートブックエディタからクラスターに接続できないように表示されることがあります。このような場合は、ブラウザのクッキーを消去してノートブックエディタを再度開いてください。

  • CloudWatch ContainerPending メトリクスと Automatic Scaling (5.20.0 で修正) では、ContainerPending に対して負の値が出力される場合があります。ContainerPending が自動スケーリングルールで使用されている場合、自動スケーリングは正常に機能しません。ContainerPending を自動スケーリングで使用することは避けてください。

  • Amazon EMR バージョン 5.19.0、5.20.0、および 5.21.0 では、YARN ノードラベルは HDFS ディレクトリに保存されます。状況によっては、これがコアノード起動の遅延に続いて、クラスターのタイムアウトと起動失敗の原因になります。Amazon EMR 5.22.0 以降では、この問題は解決されています。YARN ノードラベルは各クラスターノードのローカルディスクに保存され、HDFS への依存関係が回避されます。

リリース 5.18.0

次のリリースノートには、Amazon EMR リリースバージョン 5.18.0 に関する情報が含まれています。変更は 5.17.0 に関連するものです。

初回リリース日: 2018 年 10 月 24 日

アップグレード

  • Flink 1.6.0

  • HBase 1.4.7

  • Presto 0.210

  • Spark 2.3.2

  • Zeppelin 0.8.0

新機能

変更、拡張、解決した問題

リリース 5.17.1

次のリリースノートには、Amazon EMR リリースバージョン 5.17.1 に関する情報が含まれています。変更は 5.17.0 に関連するものです。

初回リリース日: 2019 年 7 月 18 日

変更、拡張、解決した問題

  • Updated the default Amazon Linux AMI for EMR to include important Linux kernel security updates, including the TCP SACK Denial of Service Issue (AWS-2019-005).

リリース 5.17.0

次のリリースノートには、Amazon EMR リリースバージョン 5.17.0 に関する情報が含まれています。変更は 5.16.0 に関連するものです。

初回リリース日: 2018 年 8 月 30 日

アップグレード

  • Flink 1.5.2

  • HBase 1.4.6

  • Presto 0.206

新機能

  • Tensorflow のサポートを追加しました。詳細については、「TensorFlow」を参照してください。

変更、拡張、解決した問題

既知の問題

  • Livy がインストールされた Kerberos クラスターを作成すると、Livy はシンプルな認証が有効になっていないというエラーで失敗します。この問題は、Livy サーバーを再起動することで解決できます。回避策として、クラスター作成時にマスターノードで sudo restart livy-server を実行するステップを追加します。

  • 作成日が 2018 年 8 月 11 日の Amazon Linux AMI に基づくカスタムの Amazon Linux AMI を使用している場合、Oozie サーバーは起動できません。Oozie を使用する場合は、Amazon Linux AMI ID に基づくカスタム AMI を別の作成日で作成します。次の AWS CLI コマンドを使用して、2018.03 バージョンのすべての HVM Amazon Linux AMI のイメージ ID のリストをリリース日とともに返すことができるため、適切な Amazon Linux AMI をベースとして選択することができます。MyRegion を、リージョン ID (us-west-2 など) と置き換えます。

    aws ec2 --region MyRegion describe-images --owner amazon --query 'Images[?Name!=`null`]|[?starts_with(Name, `amzn-ami-hvm-2018.03`) == `true`].[CreationDate,ImageId,Name]' --output text | sort -rk1

リリース 5.16.0

次のリリースノートには、Amazon EMR リリースバージョン 5.16.0 に関する情報が含まれています。変更は 5.15.0 に関連するものです。

初回リリース日: 2018 年 7 月 19 日

アップグレード

  • Hadoop 2.8.4

  • Flink 1.5.0

  • Livy 0.5.0

  • MXNet 1.2.0

  • Phoenix 4.14.0

  • Presto 0.203

  • Spark 2.3.1

  • AWS SDK for Java 1.11.336

  • CUDA 9.2

  • Redshift JDBC ドライバー 1.2.15.1025

変更、拡張、解決した問題

  • HBase

  • Presto

  • Spark

    • Apache Spark バージョン 2.3.1 は、Amazon EMR リリース 5.16.0 以降から、CVE-2018-8024CVE-2018-1334 に対応しています。以前のバージョンの Spark をバージョン 2.3.1 以降に移行することをお勧めします。

既知の問題

  • このリリースバージョンは c1.medium または m1.small インスタンスタイプをサポートしていません。これらのインスタンスタイプのいずれかを使用しているクラスターは起動に失敗します。回避策として、別のインスタンスタイプを指定するか、別のリリースバージョンを使用してください。

  • Livy がインストールされた Kerberos クラスターを作成すると、Livy はシンプルな認証が有効になっていないというエラーで失敗します。この問題は、Livy サーバーを再起動することで解決できます。回避策として、クラスター作成時にマスターノードで sudo restart livy-server を実行するステップを追加します。

  • After the master node reboots or the instance controller restarts, the CloudWatch metrics will not be collected and the automatic scaling feature will not be available in Amazon EMR version 5.14.0, 5.15.0, or 5.16.0. This issue is fixed in Amazon EMR version 5.17.0.

リリース 5.15.0

次のリリースノートには、Amazon EMR リリースバージョン 5.15.0 に関する情報が含まれています。変更は 5.14.0 に関連するものです。

初回リリース日: 2018 年 6 月 21 日

アップグレード

  • HBase が 1.4.4 にアップグレードしました

  • Hive を 2.3.3 にアップグレードしました

  • Hue を 4.2.0 にアップグレードしました

  • Oozie を 5.0.0 にアップグレードしました

  • Zookeeper を 3.4.12 にアップグレードしました

  • AWS SDK を 1.11.333 にアップグレードしました

変更、拡張、解決した問題

  • Hive

  • Hue

    • Kerberos が有効になっているときに Livy で正しく認証されるように Hue を更新しました。Kerberos を Amazon EMR で使用するときに Livy がサポートされるようになりました。

  • JupyterHub

    • Amazon EMR がデフォルトで LDAP クライアントライブラリをインストールするように JupyterHub を更新しました。

    • 自己署名証明書を生成するスクリプトでのエラーを修正しました。この問題の詳細については、「Release Notes」を参照してください。

既知の問題

  • このリリースバージョンは c1.medium または m1.small インスタンスタイプをサポートしていません。これらのインスタンスタイプのいずれかを使用しているクラスターは起動に失敗します。回避策として、別のインスタンスタイプを指定するか、別のリリースバージョンを使用してください。

  • After the master node reboots or the instance controller restarts, the CloudWatch metrics will not be collected and the automatic scaling feature will not be available in Amazon EMR version 5.14.0, 5.15.0, or 5.16.0. This issue is fixed in Amazon EMR version 5.17.0.

リリース 5.14.1

次のリリースノートには、Amazon EMR リリースバージョン 5.14.1 に関する情報が含まれています。変更は 5.14.0 に関連するものです。

初回リリース日: 2018 年 10 月 17 日

Amazon EMR のデフォルト AMI を更新し、セキュリティ脆弱性の原因に対処しました。

リリース 5.14.0

次のリリースノートには、Amazon EMR リリースバージョン 5.14.0 に関する情報が含まれています。変更は 5.13.0 に関連するものです。

初回リリース日: 2018 年 6 月 4 日

アップグレード

  • Apache Flink を 1.4.2 にアップグレード

  • Apache MXnet を 1.1.0 にアップグレード

  • Apache Sqoop を 1.4.7 にアップグレード

新機能

  • JupyterHub のサポートを追加しました。詳細については、「JupyterHub」を参照してください。

変更、拡張、解決した問題

  • EMRFS

    • Amazon S3 へのリクエスト内の userAgent 文字列を、呼び出し元のプリンシパルのユーザーおよびグループ情報を含むように更新しました。この文字列は、より包括的なリクエストの追跡のために AWS CloudTrail ログで使用できます。

  • HBase

    • HBASE-20447 を含めました。これは、特に分割リージョンでキャッシュの問題を発生させる可能性がある問題に対応します。

  • MXnet

    • OpenCV ライブラリを追加しました。

  • Spark

    • Spark が EMRFS を使用して Parquet ファイルを Amazon S3 の場所に書き込むときに、FileOutputCommitter のバージョン 1 ではなくバージョン 2 を使用するように、そのアルゴリズムを更新しました。これにより、名前変更の回数が減り、アプリケーションのパフォーマンスが向上します。この変更は以下のアプリケーションには影響を与えません。

      • Spark 以外のアプリケーション。

      • HDFS などの他のファイルシステムに書き込むアプリケーション (FileOutputCommitter のバージョン 1 を使用)。

      • EMRFS の直接書き込みを採用済みの他の出力形式 (text や csv など) を使用するアプリケーション。

既知の問題

  • JupyterHub

    • クラスターの作成時に設定分類を使用して JupyterHub と個々の Jupyter ノートブックを設定することはサポートされていません。各ユーザーの jupyterhub_config.py ファイルと jupyter_notebook_config.py ファイルを手動で編集してください。詳細については、「 の設定JupyterHub」を参照してください。

    • JupyterHub はプライベートサブネット内のクラスターで開始できず、メッセージ Error: ENOENT: no such file or directory, open '/etc/jupyter/conf/server.crt' を表示して失敗します。これは自己署名証明書を生成するスクリプトでのエラーが原因です。次の回避策を使用して、自己署名証明書を生成します。マスターノードに接続中はすべてのコマンドが実行されます。

      1. コンテナからマスターノードに証明書生成スクリプトをコピーします。

        sudo docker cp jupyterhub:/tmp/gen_self_signed_cert.sh ./
      2. 次に示すように、テキストエディタを使用して行 23 を変更し、パブリックホスト名をローカルホスト名に変更します。

        local hostname=$(curl -s $EC2_METADATA_SERVICE_URI/local-hostname)
      3. 自己署名証明書を生成するスクリプトを実行します。

        sudo bash ./gen_self_signed_cert.sh
      4. スクリプトで生成される証明書ファイルを、/etc/jupyter/conf/ ディレクトリに移動します。

        sudo mv /tmp/server.crt /tmp/server.key /etc/jupyter/conf/

      tail ファイルに対して jupyter.log を実行して、JupyterHub が再起動し、200 レスポンスコードを返すことを確認します。次に例を示します。

      tail -f /var/log/jupyter/jupyter.log

      次のようなレスポンスが返されるはずです。

      # [I 2018-06-14 18:56:51.356 JupyterHub app:1581] JupyterHub is now running at https://:9443/ # 19:01:51.359 - info: [ConfigProxy] 200 GET /api/routes
  • After the master node reboots or the instance controller restarts, the CloudWatch metrics will not be collected and the automatic scaling feature will not be available in Amazon EMR version 5.14.0, 5.15.0, or 5.16.0. This issue is fixed in Amazon EMR version 5.17.0.

リリース 5.13.0

次のリリースノートには、Amazon EMR リリースバージョン 5.13.0 に関する情報が含まれています。変更は 5.12.0 に関連するものです。

アップグレード

  • Spark が 2.3.0 にアップグレードしました

  • HBase が 1.4.2 にアップグレードしました

  • Presto を 0.194 にアップグレードしました

  • AWS Java SDK が 1.11.297 にアップグレードしました

変更、拡張、解決した問題

  • Hive

    • HIVE-15436 をバックポートしました。Hive API が拡張され、ビューのみを返すようになりました。

既知の問題

  • MXNet には現在 OpenCV ライブラリは含まれていません。

リリース 5.12.2

次のリリースノートには、Amazon EMR リリースバージョン 5.12.2 に関する情報が含まれています。変更は 5.12.1 に関連するものです。

初回リリース日: 2018 年 8 月 29 日

変更、拡張、解決した問題

  • このリリースでは、潜在的なセキュリティの脆弱性の問題が解決されています。

リリース 5.12.1

次のリリースノートには、Amazon EMR リリースバージョン 5.12.1 に関する情報が含まれています。変更は 5.12.0 に関連するものです。

初回リリース日: 2018 年 3 月 29 日

変更、拡張、解決した問題

  • 潜在的な脆弱性に対処するために Amazon EMR のデフォルトの Amazon Linux AMI の Amazon Linux カーネルを更新しました。

リリース 5.12.0

次のリリースノートには、Amazon EMR リリースバージョン 5.12.0 に関する情報が含まれています。変更は 5.11.1 に関連するものです。

アップグレード

変更、拡張、解決した問題

  • Hadoop

    • yarn.resourcemanager.decommissioning.timeout プロパティは yarn.resourcemanager.nodemanager-graceful-decommission-timeout-secs に変更されました。このプロパティを使用して、クラスターのスケールダウンをカスタマイズできます。詳細については、Amazon EMR 管理ガイド の「クラスターのスケールダウン」を参照してください。

    • Hadoop CLI で、直接のコピーを指定する -d (コピー) コマンドに cp オプションが追加されました。これを使用して、Amazon S3 との間のデータのコピーを高速化する中間の .COPYING ファイルを作成することを回避できます。詳細については、「HADOOP-12384」を参照してください。

  • Pig

    • Pig 環境プロパティの設定を簡素化する、pig-env 設定分類を追加しました。詳細については、「アプリケーションの設定」を参照してください。

  • Presto

    • Presto の presto-connector-redshift 設定ファイルで値を設定するために使用できる、redshift.properties 設定分類を追加しました。詳細については、Presto のドキュメントの Redshift コネクタ、および「アプリケーションの設定」を参照してください。

    • EMRFS に対する Presto のサポートが追加され、これがデフォルト設定となりました。以前の Amazon EMR リリースバージョンでは、PrestoS3FileSystem が使用され、これが唯一のオプションでした。詳細については、「EMRFS と PrestoS3FileSystem の設定」を参照してください。

      注記

      Amazon EMR リリースバージョン 5.12.0 を使用して Amazon S3 にある基盤となるデータをクエリする際に、設定の問題で Presto のエラーが発生することがあります。これは、Presto が emrfs-site.xml からの設定分類値の取得に失敗するためです。回避策として、usr/lib/presto/plugin/hive-hadoop2/ の下に emrfs サブディレクトリを作成し、usr/lib/presto/plugin/hive-hadoop2/emrfs に既存の /usr/share/aws/emr/emrfs/conf/emrfs-site.xml ファイルへのシンボリックリンクを作成してから、presto-server プロセス (sudo presto-server stop の次に sudo presto-server start) を再起動します。

  • Spark

既知の問題

  • MXNet には OpenCV ライブラリは含まれていません。

  • R はクラスターノードではデフォルトでインストールされないため、SparkR はカスタム AMI を使用して作成されるクラスターでは利用できません。

リリース 5.11.3

次のリリースノートには、Amazon EMR リリースバージョン 5.11.3 に関する情報が含まれています。変更は 5.11.2 に関連するものです。

初回リリース日: 2019 年 7 月 18 日

変更、拡張、解決した問題

  • Updated the default Amazon Linux AMI for EMR to include important Linux kernel security updates, including the TCP SACK Denial of Service Issue (AWS-2019-005).

リリース 5.11.2

次のリリースノートには、Amazon EMR リリースバージョン 5.11.2 に関する情報が含まれています。変更は 5.11.1 に関連するものです。

初回リリース日: 2018 年 8 月 29 日

変更、拡張、解決した問題

  • このリリースでは、潜在的なセキュリティの脆弱性の問題が解決されています。

リリース 5.11.1

次のリリースノートには、Amazon EMR バージョン 5.11.1 に関する情報が含まれています。変更点は、Amazon EMR 5.11.0 リリースに関連するものです。

初回リリース日: 2018 年 1 月 22 日

変更、拡張、解決した問題

  • Amazon EMR 用のデフォルトの Amazon Linux AMI の Amazon Linux カーネルを更新して、投機的実行に関連する脆弱性に対処します (CVE-2017-5715、CVE-2017-5753、および CVE-2017-5754)。詳細については、「https://aws.amazon.com/security/security-bulletins/AWS-2018-013/」を参照してください。

既知の問題

  • MXNet には OpenCV ライブラリは含まれていません。

  • Hive 2.3.2 では hive.compute.query.using.stats=true がデフォルト設定になっています。これにより、クエリではデータが直接ではなく既存の統計から取得されるため、混乱が生じる場合があります。たとえば、hive.compute.query.using.stats=true が設定されたテーブルの LOCATION に新しいファイルをアップロードした場合、テーブルに対して SELECT COUNT(*) クエリを実行すると、追加された行がカウントされずに、統計からカウントが返されます。

    回避策として、ANALYZE TABLE コマンドを使用して新しい統計を収集するか、hive.compute.query.using.stats=false を設定します。詳細については、Apache Hive ドキュメントの「Statistics in Hive」を参照してください。

リリース 5.11.0

次のリリースノートには、Amazon EMR バージョン 5.11.0 に関する情報が含まれています。変更点は、Amazon EMR 5.10.0 リリースに関連するものです。

Upgrades

このリリースでは、以下のアプリケーションおよびコンポーネントがアップグレードされ、以下のバージョンが含められています。

  • Hive 2.3.2

  • Spark 2.2.1

  • SDK for Java 1.11.238

新機能

  • Spark

    • spark.decommissioning.timeout.threshold 設定が追加されました。スポットインスタンス使用時の Spark 廃棄の動作が向上します。詳細については、「 」を参照してくださいノード停止の動作設定

    • aws-sagemaker-spark-sdk コンポーネントが Spark に追加されました。Amazon SageMaker Spark および Spark の Amazon SageMaker との統合用の関連依存関係をインストールします。Amazon SageMaker Spark を使用して、Amazon SageMaker のステージを使用した Spark 機械学習 (ML) パイプラインを作成できます。詳細については、GitHub の SageMaker Spark Readme および Amazon SageMaker 開発者ガイドUsing Apache Spark with Amazon SageMaker を参照してください。

既知の問題

  • MXNet には OpenCV ライブラリは含まれていません。

  • Hive 2.3.2 では hive.compute.query.using.stats=true がデフォルト設定になっています。これにより、クエリではデータが直接ではなく既存の統計から取得されるため、混乱が生じる場合があります。たとえば、hive.compute.query.using.stats=true が設定されたテーブルの LOCATION に新しいファイルをアップロードした場合、テーブルに対して SELECT COUNT(*) クエリを実行すると、追加された行がカウントされずに、統計からカウントが返されます。

    回避策として、ANALYZE TABLE コマンドを使用して新しい統計を収集するか、hive.compute.query.using.stats=false を設定します。詳細については、Apache Hive ドキュメントの「Statistics in Hive」を参照してください。

リリース 5.10.0

次のリリースノートには、Amazon EMR バージョン 5.10.0 に関する情報が含まれています。変更点は、Amazon EMR 5.9.0 リリースに関連するものです。

Upgrades

このリリースでは、以下のアプリケーションおよびコンポーネントがアップグレードされ、以下のバージョンが含められています。

  • AWS SDK for Java 1.11.221

  • Hive 2.3.1

  • Presto 0.187

新機能

  • Kerberos 認証のサポートが追加されました。詳細については、『https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-kerberos.html』の「Amazon EMR 管理ガイドKerberos 認証を使用する」を参照してください。

  • IAM への EMRFS リクエストの Amazon S3 ロールのサポートが追加されました。詳細については、『IAMAmazon S3』の「 への EMRFS リクエストの Amazon EMR 管理ガイド ロールを設定する」を参照してください。

  • GPU ベースの P2 および P3 のインスタンスタイプのサポートが追加されました。詳細については、「Amazon EC2 P2 インスタンス」および「Amazon EC2 P3 インスタンス」を参照してください。これらのインスタンスタイプには、デフォルトで NVIDIA ドライバー 384.81 および CUDA ドライバー 9.0.176 がインストールされています。

  • Apache MXNet のサポートが追加されました。

変更、拡張、解決した問題

  • Presto

  • Spark

    • SPARK-20640」をバックポートしました。これにより、spark.shuffle.registration.timeout プロパティおよび spark.shuffle.registration.maxAttempts プロパティを使用して、rpc タイムアウトや、シャッフル登録値の再試行回数が設定可能になりました。

    • SPARK-21549」をバックポートしました。これにより、カスタムの OutputFormat を HDFS 以外の場所に書き出す際に発生するエラーが修正されます。

  • Hadoop-13270」をバックポートしました。

  • Numpy、Scipy、Matplotlib ライブラリは、Amazon EMR の基本 AMI より削除されています。アプリケーションでこれらのライブラリが必要な場合、アプリケーションリポジトリで使用できるため、ブートストラップアクションで yum install を使用してすべてのノードにインストールすることができます。

  • Amazon EMR の基本 AMI からアプリケーションの RPM パッケージがなくなったため、その RPM パッケージはクラスターノードに存在しません。カスタム AMI と Amazon EMR の基本 AMI で、Amazon S3 の RPM パッケージリポジトリを参照できるようになりました。

  • Amazon EC2 で秒単位の請求が導入されたため、デフォルトの [Scale down behavior] は [Terminate at instance hour] ではなく [Terminate at task completion] になっています。詳細については、「クラスターのスケールダウンを設定する」を参照してください。

既知の問題

  • MXNet には OpenCV ライブラリは含まれていません。

  • Hive 2.3.1 では hive.compute.query.using.stats=true がデフォルト設定になっています。これにより、クエリではデータが直接ではなく既存の統計から取得されるため、混乱が生じる場合があります。たとえば、hive.compute.query.using.stats=true が設定されたテーブルの LOCATION に新しいファイルをアップロードした場合、テーブルに対して SELECT COUNT(*) クエリを実行すると、追加された行がカウントされずに、統計からカウントが返されます。

    回避策として、ANALYZE TABLE コマンドを使用して新しい統計を収集するか、hive.compute.query.using.stats=false を設定します。詳細については、Apache Hive ドキュメントの「Statistics in Hive」を参照してください。

リリース 5.9.0

次のリリースノートには、Amazon EMR バージョン 5.9.0 に関する情報が含まれています。変更点は、Amazon EMR 5.8.0 リリースに関連するものです。

リリース日: 2017 年 10 月 5 日

最新機能更新日: 2017 年 10 月 12 日

Upgrades

このリリースでは、以下のアプリケーションおよびコンポーネントがアップグレードされ、以下のバージョンが含められています。

  • AWS SDK for Java バージョン 1.11.183

  • Flink 1.3.2

  • Hue 4.0.1

  • Pig 0.17.0

  • Presto 0.184

新機能

  • Livy サポート (バージョン 0.4.0-incubating) を追加しました。詳細については、「 」を参照してくださいApache Livy

  • Spark の Hue ノートブックのサポートを追加しました。

  • i3-シリーズ Amazon EC2 インスタンスのサポートを追加しました (2017 年 10 月 12 日)。

変更、拡張、解決した問題

  • Spark

    • 手動のサイズ変更または自動のスケーリングポリシーのリクエストによるノードの終了処理を、Spark がより適切に行う、新しい機能のセットを追加しました。詳細については、「 」を参照してくださいノード停止の動作設定

    • ブロック転送サービスの転送時の暗号化には 3DES に代わり SSL を使用します。これにより AES-NI での Amazon EC2 インスタンスタイプの使用時にパフォーマンスが向上します。

    • SPARK-21494 を移植しました。

  • Zeppelin

  • HBase

    • パッチ HBASE-18533 を追加しました。これにより、hbase-site 設定分類を使用して、HBase BucketCache 設定の値を追加できます。

  • Hue

    • Hue の Hive クエリエディタの AWS Glue Data Catalog サポートを追加しました。

    • デフォルトでは、Hue のスーパーユーザーは、Amazon EMR の IAM ロールがアクセス可能なすべてのファイルにアクセスできます。新しく作成されたユーザーには、Amazon S3 ファイルブラウザへのアクセス許可は自動的には付与されません。グループに対して filebrowser.s3_access アクセス許可を有効にする必要があります。

  • AWS Glue Data Catalog を使って作成された、基盤となる JSON データがアクセスできなくなる問題を解決しました。

既知の問題

  • すべてのアプリケーションがインストールされ、デフォルトの Amazon EBS ルートボリュームサイズが変更されていない場合、クラスターの起動は失敗します。回避策として、aws emr create-cluster から AWS CLI コマンドを使用し、より大きな --ebs-root-volume-size パラメータを指定します。

  • Hive 2.3.0 では hive.compute.query.using.stats=true がデフォルト設定になっています。これにより、クエリではデータが直接ではなく既存の統計から取得されるため、混乱が生じる場合があります。たとえば、hive.compute.query.using.stats=true が設定されたテーブルの LOCATION に新しいファイルをアップロードした場合、テーブルに対して SELECT COUNT(*) クエリを実行すると、追加された行がカウントされずに、統計からカウントが返されます。

    回避策として、ANALYZE TABLE コマンドを使用して新しい統計を収集するか、hive.compute.query.using.stats=false を設定します。詳細については、Apache Hive ドキュメントの「Statistics in Hive」を参照してください。

リリース 5.8.2

次のリリースノートには、Amazon EMR リリースバージョン 5.8.2 に関する情報が含まれています。変更は 5.8.1 に関連するものです。

初回リリース日: 2018 年 3 月 29 日

変更、拡張、解決した問題

  • 潜在的な脆弱性に対処するために Amazon EMR のデフォルトの Amazon Linux AMI の Amazon Linux カーネルを更新しました。

リリース 5.8.1

次のリリースノートには、Amazon EMR バージョン 5.8.1 に関する情報が含まれています。変更点は、Amazon EMR 5.8.0 リリースに関連するものです。

初回リリース日: 2018 年 1 月 22 日

変更、拡張、解決した問題

  • Amazon EMR 用のデフォルトの Amazon Linux AMI の Amazon Linux カーネルを更新して、投機的実行に関連する脆弱性に対処します (CVE-2017-5715、CVE-2017-5753、および CVE-2017-5754)。詳細については、「https://aws.amazon.com/security/security-bulletins/AWS-2018-013/」を参照してください。

リリース 5.8.0

次のリリースノートには、Amazon EMR バージョン 5.8.0 に関する情報が含まれています。変更点は、Amazon EMR 5.7.0 リリースに関連するものです。

初回リリース日: 2017 年 8 月 10 日

最新機能更新日: 2017 年 9 月 25 日

Upgrades

このリリースでは、以下のアプリケーションおよびコンポーネントがアップグレードされ、以下のバージョンが含められています。

  • AWS SDK 1.11.160

  • Flink 1.3.1

  • Hive 2.3.0。詳細については、Apache Hive サイトの「リリースノート」を参照してください。

  • Spark 2.2.0。詳細については、Apache Spark サイトの「リリースノート」を参照してください。

新機能

変更、拡張、解決した問題

既知の問題

  • すべてのアプリケーションがインストールされ、デフォルトの Amazon EBS ルートボリュームサイズが変更されていない場合、クラスターの起動は失敗します。回避策として、aws emr create-cluster から AWS CLI コマンドを使用し、より大きな --ebs-root-volume-size パラメータを指定します。

  • Hive 2.3.0 では hive.compute.query.using.stats=true がデフォルト設定になっています。これにより、クエリではデータが直接ではなく既存の統計から取得されるため、混乱が生じる場合があります。たとえば、hive.compute.query.using.stats=true が設定されたテーブルの LOCATION に新しいファイルをアップロードした場合、テーブルに対して SELECT COUNT(*) クエリを実行すると、追加された行がカウントされずに、統計からカウントが返されます。

    回避策として、ANALYZE TABLE コマンドを使用して新しい統計を収集するか、hive.compute.query.using.stats=false を設定します。詳細については、Apache Hive ドキュメントの「Statistics in Hive」を参照してください。

  • Spark—Spark を使用する場合、apppusher デーモンには、長時間実行されている Spark ジョブで数時間または数日後に発生する可能性があるファイルハンドラのリークの問題があります。この問題を修正するには、マスターノードに接続し、「sudo /etc/init.d/apppusher stop」と入力します。これにより、その apppusher デーモンが停止し、Amazon EMR は自動的に再起動します。

  • アプリケーションの履歴

    • Spark のデッドエグゼキュターの履歴データは利用できません。

    • アプリケーション履歴は、セキュリティ設定を使用してインフライト暗号化を有効にするクラスターでは利用できません。

リリース 5.7.0

次のリリースノートには、Amazon EMR 5.7.0 に関する情報が含まれています。変更点は、Amazon EMR 5.6.0 リリースに関連するものです。

リリース日: 2017 年 7 月 13 日

Upgrades

  • Flink 1.3.0

  • Phoenix 4.11.0

  • Zeppelin 0.7.2

新機能

  • クラスターの作成時に、カスタム Amazon Linux AMI を指定する機能を追加しました。詳細については、「カスタム AMI の使用」を参照してください。

変更、拡張、解決した問題

  • HBase

    • HBase のリードレプリカクラスターを設定する機能を追加しました。詳細については、「リードレプリカクラスターの使用」を参照してください。

    • 複数のバグ修正と機能強化

  • Prestonode.properties を設定する機能を追加しました。

  • YARNcontainer-log4j.properties を設定する機能を追加しました。

  • SqoopSQOOP-2880 をバックポートしました。Sqoop 一時ディレクトリを設定できる引数が導入されています。

リリース 5.6.0

次のリリースノートには、Amazon EMR 5.6.0 に関する情報が含まれています。変更点は、Amazon EMR 5.5.0 リリースに関連するものです。

リリース日: 2017 年 6 月 5 日

Upgrades

  • Flink 1.2.1

  • HBase 1.3.1

  • Mahout 0.13.0。Amazon EMR バージョン 5.0 以降の Spark 2.x をサポートする最初のバージョンの Mahout です。

  • Spark 2.1.1

変更、拡張、解決した問題

  • Presto

    • セキュリティ設定を使って転送時の暗号化を有効にして、Presto ノード間で SSL/TLS を使った安全な通信を有効にする機能が追加されました。詳細については、「伝送時のデータ暗号化」を参照してください。

    • Presto 7661 を移植しました。これにより VERBOSE オプションを EXPLAIN ANALYZE ステートメントに追加し、クエリプランについての、より詳細なレポートと低レベルの統計を作成できます。

リリース 5.5.3

次のリリースノートには、Amazon EMR リリースバージョン 5.5.3 に関する情報が含まれています。変更は 5.5.2 に関連するものです。

初回リリース日: 2018 年 8 月 29 日

変更、拡張、解決した問題

  • このリリースでは、潜在的なセキュリティの脆弱性の問題が解決されています。

リリース 5.5.2

次のリリースノートには、Amazon EMR リリースバージョン 5.5.2 に関する情報が含まれています。変更は 5.5.1 に関連するものです。

初回リリース日: 2018 年 3 月 29 日

変更、拡張、解決した問題

  • 潜在的な脆弱性に対処するために Amazon EMR のデフォルトの Amazon Linux AMI の Amazon Linux カーネルを更新しました。

リリース 5.5.1

次のリリースノートには、Amazon EMR 5.5.1 に関する情報が含まれています。変更点は、Amazon EMR 5.5.0 リリースに関連するものです。

初回リリース日: 2018 年 1 月 22 日

変更、拡張、解決した問題

  • Amazon EMR 用のデフォルトの Amazon Linux AMI の Amazon Linux カーネルを更新して、投機的実行に関連する脆弱性に対処します (CVE-2017-5715、CVE-2017-5753、および CVE-2017-5754)。詳細については、「https://aws.amazon.com/security/security-bulletins/AWS-2018-013/」を参照してください。

リリース 5.5.0

次のリリースノートには、Amazon EMR 5.5.0 に関する情報が含まれています。変更点は、Amazon EMR 5.4.0 リリースに関連するものです。

リリース日: 2017 年 4 月 26 日

Upgrades

  • Hue 3.12

  • Presto 0.170

  • Zeppelin 0.7.1

  • ZooKeeper 3.4.10

変更、拡張、解決した問題

  • Spark

  • Flink

    • Flink は Scala 2.11 で作成されるようになりました。プロジェクトで Scala API とライブラリを使用する場合は、Scala 2.11 を使用することをお勧めします。

    • HADOOP_CONF_DIRYARN_CONF_DIR のデフォルトが適切に設定されないため start-scala-shell.sh が機能しない問題に対応しました。さらに env.hadoop.conf.dir または env.yarn.conf.dir 設定分類の /etc/flink/conf/flink-conf.yamlflink-conf を使って、これらの値を設定する機能を追加しました。

    • EMR 固有の新しいコマンドで、flink-scala-shell のラッパーとなる start-scala-shell.sh を追加しました。start-scala-shell に代えて、このコマンドを使用することをお勧めします。新しいコマンドにより実行が簡素化されます。たとえば、flink-scala-shell -n 2 は、タスクの並行度 2 で、Flink Scala シェルを開始します。

    • EMR 固有の新しいコマンドで、flink-yarn-session のラッパーとなる yarn-session.sh を追加しました。yarn-session に代えて、このコマンドを使用することをお勧めします。新しいコマンドにより実行が簡素化されます。たとえば、flink-yarn-session -d -n 2 は長時間稼働の Flink セッションを、デタッチ状態で、2 つのタスクマネージャを使って開始します。

    • (FLINK-6125) Commons httpclient が Flink 1.2 でシェードされない」の問題に対応しました。

  • Presto

    • LDAP 認証のサポートが追加されました。Amazon EMR の Presto で LDAP を使用する場合は、Presto コーディネーターの HTTPS アクセスを有効にする必要があります (http-server.https.enabled=trueconfig.properties)。設定の詳細については、Presto ドキュメントの「LDAP Authentication」を参照してください。

    • のサポートが追加されましたSHOW GRANTS

  • Amazon EMR 基本 Linux AMI

    • Amazon EMR リリースは、 2017.03 ベースになりました。Amazon Linux詳細については、「Amazon Linux AMI 2017.03 リリースノート」を参照してください。

    • Python 2.6 は Amazon EMR ベース Linux イメージから削除されました。Python 2.7 と 3.4 がデフォルトでインストールされます。必要な場合には Python 2.6 を手動でインストールできます。

リリース 5.4.0

次のリリースノートには、Amazon EMR 5.4.0 に関する情報が含まれています。変更点は、Amazon EMR 5.3.0 リリースに関連するものです。

リリース日: 2017 年 3 月 8 日

Upgrades

このリリースでは、次のアップグレードを使用できます。

  • Flink 1.2.0 にアップグレードしました

  • Hbase 1.3.0 にアップグレード済み

  • Phoenix 4.9.0 にアップグレード済み

    注記

    古いバージョンの Amazon EMR から Amazon EMR バージョン 5.4.0 以降にアップグレードしてセカンダリインデックスを使用する場合は、Apache Phoenix のドキュメントで説明されているようにローカルインデックスをアップグレードします。Amazon EMR は、hbase-site 分類から必要な構成を削除しますが、インデックスには値を再設定する必要があります。インデックスはオンラインとオフラインでアップグレードできます。オンラインのアップグレードがデフォルトです。これはバージョン4.8.0以降のPhoenixクライアントで初期する間にインデックスの値が再設定されることを意味します。オフラインアップグレードを指定するには、 phoenix.client.localIndexUpgrade 構成を phoenix-site 分類で False に設定してから、SSH をマスターノードに設定して psql [zookeeper] -1を実行します。

  • Presto 0.166 にアップグレードしました

  • Zeppelin 0.7.0 にアップグレードしました

変更と機能強化

以下は、リリースラベル emr-5.4.0 の Amazon EMR リリースでの変更点です。

リリース 5.3.1

次のリリースノートには、Amazon EMR 5.3.1 に関する情報が含まれています。変更点は、Amazon EMR 5.3.0 リリースに関連するものです。

リリース日: 2017 年 2 月 7 日

Zeppelin パッチをバックポートし、Amazon EMR のデフォルトの AMI を更新するためのマイナーチェンジを行いました。

リリース 5.3.0

次のリリースノートには、Amazon EMR 5.3.0 に関する情報が含まれています。変更点は、Amazon EMR 5.2.1 リリースに関連するものです。

リリース日: 2017 年 1 月 26 日

Upgrades

このリリースでは、次のアップグレードを使用できます。

  • Hive 2.1.1 にアップグレードしました

  • Hue 3.11.0 にアップグレードしました

  • Spark 2.1.0 にアップグレードしました

  • Oozie 4.3.0 にアップグレードしました

  • Flink 1.1.4 にアップグレードしました

変更と機能強化

以下は、リリースラベル emr-5.3.0 の Amazon EMR リリースでの変更点です。

  • interpreters_shown_on_wheel ファイルでの順序にかかわらず、ノートブックの選択ホイールで最初に表示するインタープリタを指定する hue.ini 設定を使用できるようにするパッチを Hue に追加しました。

  • Hive の hive-parquet-logging ファイルで値を設定するために使用できる、parquet-logging.properties 設定分類を追加しました。

リリース 5.2.2

次のリリースノートには、Amazon EMR 5.2.2 に関する情報が含まれています。変更点は、Amazon EMR 5.2.1 リリースに関連するものです。

リリース日: 2017 年 5 月 2 日

以前のリリースから解決された既知の問題

  • SPARK-194459 をしました。char/varchar の列を持つ ORC テーブルからの読み取りが失敗する問題に対応しました。

リリース 5.2.1

次のリリースノートには、Amazon EMR 5.2.1 に関する情報が含まれています。変更点は、Amazon EMR 5.2.0 リリースに関連するものです。

リリース日: 2016 年 12 月 29 日

Upgrades

このリリースでは、次のアップグレードを使用できます。

  • Presto を 0.157.1 にアップグレードしました。詳細については、Presto ドキュメントの「Presto リリースノート」を参照してください。

  • ZooKeeper を 3.4.9 にアップグレードしました。詳細については、Apache ZooKeeper ドキュメントの「ZooKeeper リリースノート」を参照してください。

変更と機能強化

以下は、リリースラベル emr-5.2.1 の Amazon EMR リリースでの変更点です。

  • 5.0.0、5.0.3、5.2.0 を除く Amazon EC2 バージョン 4.8.3 以降の Amazon EMR の m4.16xlarge インスタンスタイプのサポートが追加されました。

  • Amazon EMR リリースは、 2016.09 ベースになりました。Amazon Linux詳細については、「 」を参照してくださいhttps://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/

  • これで、Flink および YARN 設定パスの場所はデフォルトで /etc/default/flink に設定されましたので、Flink のジョブを起動するために FLINK_CONF_DIR または HADOOP_CONF_DIR ドライバースクリプトを実行するときに、環境変数 flink および yarn-session.sh を設定する必要はありません。

  • FlinkKinesisConsumer クラスのサポートを追加しました。

以前のリリースから解決された既知の問題

  • ReplicationMonitor のスレッドが大きなクラスターで同じファイルのレプリケーションと削除間の競合のために長時間スタックが生じる Hadoop の問題を修正しました。

  • ジョブのステータスが正常に更新されていないときに ControlledJob#toString が null ポインタ例外 (NPE) で失敗していた問題を修正しました。

リリース 5.2.0

次のリリースノートには、Amazon EMR 5.2.0 に関する情報が含まれています。変更点は、Amazon EMR 5.1.0 リリースに関連するものです。

リリース日: 2016 年 11 月 21 日

変更と機能強化

このリリースでは、次の変更と機能強化を使用できます。

  • HBase の Amazon S3 ストレージモードの追加。

  • HBase ルートディレクトリの Amazon S3 ロケーションを指定可能。詳細については、「Amazon S3 の HBase」を参照してください。

Upgrades

このリリースでは、次のアップグレードを使用できます。

  • Spark 2.0.2 にアップグレードしました

以前のリリースから解決された既知の問題

  • EBS のみのインスタンスタイプで 2 TB に制約されていた /mnt に関する問題を修正。

  • 通常の log4j-configured .log ファイルではなく、対応する .out ファイルに出力され、1 時間ごとにローテーションされていた、インスタンスコントローラーおよび logpusher ログに関する問題を修正。.out ファイルはローテーションしないため、最終的には /emr パーティションがいっぱいになります。この問題は、ハードウェア仮想マシン (HVM) のインスタンスタイプにのみ影響します。

リリース 5.1.0

次のリリースノートには、Amazon EMR 5.1.0 に関する情報が含まれています。変更点は、Amazon EMR 5.0.0 リリースに関連するものです。

リリース日: 2016 年 11 月 3 日

変更と機能強化

このリリースでは、次の変更と機能強化を使用できます。

  • Flink 1.1.3 のサポートを追加。

  • Presto が、Hue のノートブックセクションでオプションとして追加。

Upgrades

このリリースでは、次のアップグレードを使用できます。

  • HBase 1.2.3 にアップグレードしました

  • Zeppelin 0.6.2 にアップグレードしました

以前のリリースから解決された既知の問題

  • 以前の Amazon S3 4.x バージョンと同じく、ORC ファイルがある Amazon EMR の Tez クエリが実行されない問題を修正しました。

リリース 5.0.3

次のリリースノートには、Amazon EMR 5.0.3 に関する情報が含まれています。変更点は、Amazon EMR 5.0.0 リリースに関連するものです。

リリース日: 2016 年 10 月 24 日

Upgrades

このリリースでは、次のアップグレードを使用できます。

  • Hadoop 2.7.3 にアップグレードしました

  • Presto 0.152.3 にアップグレードします。このアップグレードには Presto ウェブインターフェイスのサポートが含まれています。Presto コーディネーターの Presto ウェブインターフェイスには、ポート 8889 を使用してアクセスできます。Presto ウェブインターフェイスの詳細については、Presto ドキュメントの「ウェブインターフェイス」を参照してください。

  • Spark 2.0.1 にアップグレードしました

  • Amazon EMR リリースは、 2016.09 ベースになりました。Amazon Linux詳細については、「 」を参照してくださいhttps://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/

リリース 5.0.0

リリース日: 2016 年 7 月 27 日

Upgrades

このリリースでは、次のアップグレードを使用できます。

  • Hive 2.1 にアップグレードしました

  • Presto 0.150 にアップグレードしました

  • Spark 2.0 にアップグレードしました

  • Hue 3.10.0 にアップグレードしました

  • Pig 0.16.0 にアップグレードしました

  • Tez 0.8.4 にアップグレードしました

  • Zeppelin 0.6.1 にアップグレードしました

変更と機能強化

リリースラベル emr-5.0.0 以降の Amazon EMR リリースに加えられた変更を以下に示します。

  • Amazon EMR は Hive (バージョン 2.1)、Pig (バージョン 0.16.0) の最新のオープンソースバージョンをサポートします。以前に Amazon EMR で Hive または Pig を使用したことがあるなら、このことはいくつかのユースケースに影響を与える可能性があります。詳細については、「Hive」および「Pig」を参照してください。

  • 現在の Hive および Pig のデフォルト実行エンジンは Tez です。これを変更するには、hive-site および pig-properties のそれぞれの設定分類の適切な値を編集します。

  • サービスが原因を識別できる場合にステップ障害の根本原因を表示できるようにするステップ、デバッグ機能が追加されました。詳細については、の「拡張ステップのデバッグ」を参照してくださいAmazon EMR 管理ガイド。

  • アプリケーションは以前「-Sandbox」で終了しましたが、そのサフィックスはもうありません。たとえば、これらのアプリケーションを使ってクラスターを起動するスクリプトを使用している場合、これによってオートメーションが中断する可能性があります。次の表は、Amazon EMR 4.7.2 と Amazon EMR 5.0.0 のアプリケーション名を示しています。

    アプリケーション名変更
    Amazon EMR 4.7.2 Amazon EMR 5.0.0
    Oozie-Sandbox Oozie
    Presto-Sandbox Presto
    Sqoop-Sandbox Sqoop
    Zeppelin-Sandbox Zeppelin
    ZooKeeper-Sandbox ZooKeeper
  • Spark は現在 Scala 2.11 向けにコンパイルされています。

  • 現在のデフォルト JVM は Java 8 です。すべてのアプリケーションは Java 8 ランタイムを使用して動作します。アプリケーションのバイトコードターゲットには変更はありません。ほとんどのアプリケーションは、引き続き Java 7 を対象としています。

  • Zeppelin には、認証機能が組み込まれています。詳細については、「Zeppelin」を参照してください。

  • セキュリティ設定のサポートを追加しました。これにより、暗号化オプションをより簡単に作成、適用できます。詳細については、「Data Encryption」を参照してください。

リリース 4.9.5

次のリリースノートには、Amazon EMR リリースバージョン 4.9.5 に関する情報が含まれています。変更は 4.9.4 に関連するものです。

初回リリース日: 2018 年 8 月 29 日

変更、拡張、解決した問題

  • HBase

    • このリリースでは、潜在的なセキュリティの脆弱性の問題が解決されています。

リリース 4.9.4

次のリリースノートには、Amazon EMR リリースバージョン 4.9.4 に関する情報が含まれています。変更は 4.9.3 に関連するものです。

初回リリース日: 2018 年 3 月 29 日

変更、拡張、解決した問題

  • 潜在的な脆弱性に対処するために Amazon EMR のデフォルトの Amazon Linux AMI の Amazon Linux カーネルを更新しました。

リリース 4.9.3

次のリリースノートには、Amazon EMR 4.9.3 に関する情報が含まれています。変更点は、Amazon EMR 4.9.2 リリースに関連するものです。

初回リリース日: 2018 年 1 月 22 日

変更、拡張、解決した問題

  • Amazon EMR 用のデフォルトの Amazon Linux AMI の Amazon Linux カーネルを更新して、投機的実行に関連する脆弱性に対処します (CVE-2017-5715、CVE-2017-5753、および CVE-2017-5754)。詳細については、「https://aws.amazon.com/security/security-bulletins/AWS-2018-013/」を参照してください。

リリース 4.9.2

次のリリースノートには、Amazon EMR 4.9.2 に関する情報が含まれています。変更点は、Amazon EMR 4.9.1 リリースに関連するものです。

リリース日: 2017 年 7 月 13 日

このリリースでは小さな変更、バグ修正、および機能強化が行われました。

リリース 4.9.1

次のリリースノートには、Amazon EMR 4.9.1 に関する情報が含まれています。変更点は、Amazon EMR 4.8.4 リリースに関連するものです。

リリース日: 2017 年 4 月 10 日

以前のリリースから解決された既知の問題

  • HIVE-9976 および HIVE-10106 を移植しました。

  • 多数のノード (2,000 以上) やコンテナ (5,000 以上) によって、"Exception in thread 'main' java.lang.OutOfMemoryError" などのメモリエラーが発生することがある、YARN の問題を修正しました。

変更と機能強化

以下は、リリースラベル emr-4.9.1 の Amazon EMR リリースでの変更点です。

  • Amazon EMR リリースは、 2017.03 ベースになりました。Amazon Linux詳細については、「 」を参照してくださいhttps://aws.amazon.com/amazon-linux-ami/2017.03-release-notes/

  • Python 2.6 は Amazon EMR ベース Linux イメージから削除されました。必要な場合には Python 2.6 を手動でインストールできます。

リリース 4.8.4

次のリリースノートには、Amazon EMR 4.8.4 に関する情報が含まれています。変更点は、Amazon EMR 4.8.3 リリースに関連するものです。

リリース日: 2017 年 2 月 7 日

このリリースでは小さな変更、バグ修正、および機能強化が行われました。

リリース 4.8.3

次のリリースノートには、Amazon EMR 4.8.3 に関する情報が含まれています。変更点は、Amazon EMR 4.8.2 リリースに関連するものです。

リリース日: 2016 年 12 月 29 日

Upgrades

このリリースでは、次のアップグレードを使用できます。

  • Presto を 0.157.1 にアップグレードしました。詳細については、Presto ドキュメントの「Presto リリースノート」を参照してください。

  • Spark を 1.6.3 にアップグレードしました。詳細については、Apache Spark ドキュメントの「Spark リリースノート」を参照してください。

  • ZooKeeper を 3.4.9 にアップグレードしました。詳細については、Apache ZooKeeper ドキュメントの「ZooKeeper リリースノート」を参照してください。

変更と機能強化

以下は、リリースラベル emr-4.8.3 の Amazon EMR リリースでの変更点です。

  • 5.0.0、5.0.3、5.2.0 を除く Amazon EC2 バージョン 4.8.3 以降の Amazon EMR の m4.16xlarge インスタンスタイプのサポートが追加されました。

  • Amazon EMR リリースは、 2016.09 ベースになりました。Amazon Linux詳細については、「 」を参照してくださいhttps://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/

以前のリリースから解決された既知の問題

  • ReplicationMonitor のスレッドが大きなクラスターで同じファイルのレプリケーションと削除間の競合のために長時間スタックが生じる Hadoop の問題を修正しました。

  • ジョブのステータスが正常に更新されていないときに ControlledJob#toString が null ポインタ例外 (NPE) で失敗していた問題を修正しました。

リリース 4.8.2

次のリリースノートには、Amazon EMR 4.8.2 に関する情報が含まれています。変更点は、Amazon EMR 4.8.0 リリースに対するものです。

リリース日: 2016 年 10 月 24 日

Upgrades

このリリースでは、次のアップグレードを使用できます。

  • Hadoop 2.7.3 にアップグレードしました

  • Presto 0.152.3 にアップグレードします。このアップグレードには Presto ウェブインターフェイスのサポートが含まれています。Presto コーディネーターの Presto ウェブインターフェイスには、ポート 8889 を使用してアクセスできます。Presto ウェブインターフェイスの詳細については、Presto ドキュメントの「ウェブインターフェイス」を参照してください。

  • Amazon EMR リリースは、 2016.09 ベースになりました。Amazon Linux詳細については、「 」を参照してくださいhttps://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/

リリース 4.8.0

リリース日: 2016 年 9 月 7 日

Upgrades

このリリースでは、次のアップグレードを使用できます。

  • HBase 1.2.2 にアップグレードしました

  • Presto-Sandbox 0.151 にアップグレードしました

  • Tez 0.8.4 にアップグレードしました

  • Zeppelin-Sandbox 0.6.1 にアップグレードしました

変更と機能強化

以下は、リリースラベル emr-4.8.0 の Amazon EMR リリースでの変更点です。

  • インスタンスが削除されたため、存在していないコンテナを ApplicationMaster がクリーンアップしようとする YARN の問題を修正しました。

  • Oozie の例の Hive2 アクションの hive-server2 URL を修正しました。

  • さらに多くの Presto カタログのサポートを追加しました。

  • 次のパッチを移植しました: HIVE-8948HIVE-12679HIVE-13405PHOENIX-3116HADOOP-12689

  • セキュリティ設定のサポートを追加しました。これにより、暗号化オプションをより簡単に作成、適用できます。詳細については、「Data Encryption」を参照してください。

リリース 4.7.2

以下のリリースノートには、Amazon EMR 4.7.2 に関する情報が含まれています。

リリース日: 2016 年 7 月 15 日

Features

このリリースでは、次の機能を使用できます。

  • Mahout 0.12.2 にアップグレードしました

  • Presto 0.148 にアップグレードしました

  • Spark 1.6.2 にアップグレードしました

  • パラメータとして URI を使用して EMRFS で使用する AWSCredentialsProvider を作成できるようになりました。詳細については、「EMRFS 用に AWSCredentialsProvider を作成する」を参照してください。

  • EMRFS では、ユーザーが DynamoDB で fs.s3.consistent.dynamodb.endpoint プロパティを使用して、整合性のあるビューのメタデータのカスタム emrfs-site.xml エンドポイントを設定できるようになりました。

  • /usr/binspark-example というスクリプトを追加しました。これにより /usr/lib/spark/spark/bin/run-example をラップし、例を直接実行できます。たとえば、Spark ディストリビューションに付属する SparkPi の例を実行するには、API のステップとしてコマンドラインから spark-example SparkPi 100 を実行するか、command-runner.jar を使用できます。

以前のリリースから解決された既知の問題

  • Oozie で、Spark もインストールされたときに spark-assembly.jar が正しい場所にないために、Oozie で Spark アプリケーションを起動できなくなる問題を解決しました。

  • YARN コンテナで Spark Log4j ベースのログインに関する問題を修正しました。

リリース 4.7.1

リリース日: 2016 年 6 月 10 日

以前のリリースから解決された既知の問題

  • プライベートサブネットを持つ VPC で起動されたクラスターの起動時間が長くなる問題を修正しました。このバグの影響があったのは、Amazon EMR 4.7.0 リリースで起動されたクラスターのみです。

  • Amazon EMR 4.7.0 リリースで起動されたクラスターに対する Amazon EMR でのファイルのリスト処理が不適切であった問題を修正しました。

リリース 4.7.0

重要

Amazon EMR 4.7.0 は廃止されました。代わりに Amazon EMR 4.7.1 以降を使用してください。

リリース日: 2016 年 6 月 2 日

Features

このリリースでは、次の機能を使用できます。

  • Apache Phoenix 4.7.0 を追加しました

  • Apache Tez 0.8.3 を追加しました

  • HBase 1.2.1 にアップグレードしました

  • Mahout 0.12.0 にアップグレードしました

  • Presto 0.147 にアップグレードしました

  • AWS SDK for Java が 1.10.75 にアップグレード

  • ユーザーがローカルモードで Pig を実行できるようにするため、最終的なフラグが mapreduce.cluster.local.dirmapred-site.xml プロパティから削除されました。

Amazon Redshiftクラスターで利用できる JDBC ドライバー

Amazon Redshift JDBC ドライバーが に含まれるようになりました/usr/share/aws/redshift/jdbc/usr/share/aws/redshift/jdbc/RedshiftJDBC41.jar は JDBC 1-compatible 互換Amazon Redshiftのドライバーで、 /usr/share/aws/redshift/jdbc/RedshiftJDBC4.jar は JDBC 0-compatible 互換のAmazon Redshiftドライバーです。詳細については、の「JDBC 接続https://docs.aws.amazon.com/redshift/latest/mgmt/configure-jdbc-connection.htmlの設定」を参照してくださいAmazon Redshift Cluster Management Guide

Java 8

Presto を除き、OpenJDK 1.7 はすべてのアプリケーションに使用されるデフォルトの JDK です。ただし、OpenJDK 1.7 と 1.8 の両方がインストールされています。アプリケーションの JAVA_HOME を設定する方法については、「Java 8 を使用したアプリケーションの設定」を参照してください。

以前のリリースから解決された既知の問題

  • emr-4.6.0 で Amazon EMR 用のスループット最適化 HDD (st1) EBS ボリュームで著しくパフォーマンスに影響を与えていたカーネルの問題を修正しました。

  • アプリケーションとして Hadoop を選択せずに HDFS 暗号化ゾーンを指定した場合にクラスターが失敗する問題を修正しました。

  • デフォルトの HDFS 書き込みポリシーを RoundRobin から AvailableSpaceVolumeChoosingPolicy に変更しました。一部のボリュームは RoundRobin 設定で正しく利用されず、それによってコアノードが失敗し、HDFS の信頼性が低くなりました。

  • 整合性のあるビューのため、デフォルトの DynamoDB メタデータテーブルを作成するときに例外を発生させた EMRFS CLI に関する問題を修正しました。

  • マルチパートの名前の変更およびコピーオペレーション中に発生する可能性のあった、EMRFS のデッドロックの問題を修正しました。

  • CopyPart のサイズがデフォルトで 5 MB になる EMRFS の問題を修正しました。現在では、デフォルト値は 128 MB で適切に設定されます。

  • サービスを停止できなくなる可能性のある、Zeppelin upstart 設定の問題を修正しました。

  • s3a:// がそれぞれのクラスパスで適切にロードされていないために、/usr/lib/hadoop/hadoop-aws.jar URI スキームを使用できなくなる Spark および Zeppelin の問題を修正しました。

  • HUE-2484 を移植しました。

  • HBase ブラウザサンプルでの問題を修正するため、Hue 3.9.0 (JIRA が存在しない) から commit を移植しました。

  • HIVE-9073 を移植しました。

リリース 4.6.0

リリース日: 2016 年 4 月 21 日

Features

このリリースでは、次の機能を使用できます。

  • HBase 1.2.0 を追加しました

  • Zookeeper-Sandbox 3.4.8 を追加しました

  • Presto-Sandbox 0.143 にアップグレードしました

  • Amazon EMR リリースは、 2016.03.0 ベースになりました。Amazon Linux詳細については、「 」を参照してくださいhttps://aws.amazon.com/amazon-linux-ami/2016.03-release-notes/

スループット最適化 HDD (st1) EBS ボリュームタイプに影響を及ぼす問題

Linux カーネルバージョン 4.2 以降の問題は、EMR 用のスループット最適化 HDD (st1) EBS ボリュームのパフォーマンスに大きな影響を及ぼします。このリリース (emr-4.6.0) ではカーネルバージョン 4.4.5 を使用するため、影響を受けます。したがって、st1 EBS ボリュームを使用する場合、emr-4.6.0 を使用しないことをお勧めします。emr-4.5.0 以前の Amazon EMR リリースと st1 であれば、影響を受けずに使用できます。これに加えて、将来のリリースで修正が提供されます。

Python のデフォルト値

現在、Python 3.4 がデフォルトでインストールされますが、Python 2.7 はシステムデフォルトのままです。いずれかのブートストラップアクションを使用してシステムデフォルトとして Python 3.4 を設定できます。PySpark で使用される Python のバージョンに影響を与えるため、設定 API を使用して /usr/bin/python3.4 分類で PYSPARK_PYTHON のエクスポート先を spark-env に設定できます。

Java 8

Presto を除き、OpenJDK 1.7 はすべてのアプリケーションに使用されるデフォルトの JDK です。ただし、OpenJDK 1.7 と 1.8 の両方がインストールされています。アプリケーションの JAVA_HOME を設定する方法については、「Java 8 を使用したアプリケーションの設定」を参照してください。

以前のリリースから解決された既知の問題

  • アプリケーションのプロビジョニングが、生成されたパスワードが原因でランダムに失敗する問題を修正しました。

  • 以前は、mysqld がすべてのノードにインストールされました。現在では、選択されたアプリケーションにコンポーネントとして mysql-server が含まれている場合のみ、マスターインスタンスのみにインストールされます。現在、HCatalog、Hive、Hue、Presto-Sandbox、および Sqoop-Sandbox の各アプリケーションに、mysql-server コンポーネントが含まれています。

  • yarn.scheduler.maximum-allocation-vcores をデフォルトの 32 から 80 に変更しました。これにより、コアインスタンスタイプが、YARN vcores が 32 より高く設定されているいくつかのラージインスタンスタイプのいずれかであるクラスターで、maximizeResourceAllocation オプションを使用中に Spark で主に発生する、emr-4.4.0 での問題が修正されました。この問題の影響を受けていたのは、c4.8xlarge、cc2.8xlarge、hs1.8xlarge、i2.8xlarge、m2.4xlarge、r3.8xlarge、d2.8xlarge、または m4.10xlarge です。

  • 現在では s3-dist-cp はすべての Amazon S3 候補に EMRFS を使用し、一時 HDFS ディレクトリは使用しません。

  • クライアント側の暗号化のマルチパートアップロードの例外処理に関する問題を修正しました。

  • ユーザーが Amazon S3 ストレージクラスを変更できるようにするオプションを追加しました。デフォルトでは、この設定は STANDARD です。emrfs-site 設定分類の設定は fs.s3.storageClass で、指定できる値は STANDARDSTANDARD_IAREDUCED_REDUNDANCYです。ストレージクラスの詳細については、の「ストレージクラス」を参照してくださいAmazon Simple Storage Service 開発者ガイド。

リリース 4.5.0

リリース日: 2016 年 4 月 4 日

Features

このリリースでは、次の機能を使用できます。

  • Spark 1.6.1 にアップグレードしました

  • Hadoop 2.7.2 にアップグレードしました

  • Presto 0.140 にアップグレードしました

  • AWS KMS サーバー側の暗号化のための Amazon S3 のサポートを追加しました。

以前のリリースから解決された既知の問題

  • ノードが再起動された後に MySQL および Apache サーバーが起動しない問題を修正しました。

  • Amazon S3 に保存されているパーティション分割されていないテーブルで IMPORT が正しく機能しない問題を修正しました。

  • Hive テーブルに書き込むときに、ステージングディレクトリが /mnt/tmp ではなく /tmp であることが要求される Presto の問題を修正しました。

リリース 4.4.0

リリース日: 2016 年 3 月 14 日

Features

このリリースでは、次の機能を使用できます。

  • HCatalog 1.0.0 を追加しました

  • Sqoop-Sandbox 1.4.6 を追加しました

  • Presto 0.136 にアップグレードしました

  • Zeppelin 0.5.6 にアップグレードしました

  • Mahout 0.11.1 にアップグレードしました

  • デフォルトで dynamicResourceAllocation を有効にしました。

  • リリースのすべての設定分類の表を追加しました。詳細については、「アプリケーションの設定」の設定分類の表を参照してください。

以前のリリースから解決された既知の問題

  • maximizeResourceAllocation 設定で YARN ApplicationMaster デーモンに十分なメモリが予約されない問題を修正しました。

  • カスタム DNS で発生した問題を修正しました。resolve.conf のエントリが、提供されたカスタムエントリよりも前に指定されている場合、そのカスタムエントリは解決されません。この動作は、デフォルトの VPC ネームサーバーが resolve.conf のトップエントリとして挿入された VPC のクラスターによって影響を受けました。

  • デフォルトの Python がバージョン 2.7 に移行した場合に、そのバージョンに対して boto がインストールされなかった問題を修正しました。

  • YARN コンテナと Spark アプリケーションが独自の Ganglia ラウンドロビンデータベース (rrd) ファイルを生成し、それによりインスタンスにアタッチされた最初のディスクがいっぱいになる問題を修正しました。この修正によって、YARN コンテナレベルのメトリクスが無効になり、Spark アプリケーションレベルのメトリクスが無効になりました。

  • ログプッシャーですべての空のログフォルダーが削除される問題を修正しました。この問題により、ログプッシャーは user の空の /var/log/hive フォルダを削除したため、Hive CLI はログを記録できませんでした。

  • パーティション分割に影響し、インポート中にエラーを発生させた、Hive のインポートに影響を与える問題を修正しました。

  • EMRFS と s3-dist-cp が、ピリオドを含むバケット名を適切に処理しなかった問題を修正しました。

  • EMRFS の動作を変更し、バージョニングが有効なバケットで、_$folder$ マーカーファイルが連続して作成されないようにしました。これにより、バージョニングが有効なバケットでパフォーマンスが向上する可能性があります。

  • クライアント側の暗号化が有効になっている場合を除き、インストラクションファイルを使用しないよう EMRFS の動作を変更しました。クライアント側の暗号化を使用中にインストラクションファイルを削除する場合は、emrfs-site.xml プロパティの fs.s3.cse.cryptoStorageMode.deleteInstructionFiles.enabled を true に設定できます。

  • YARN ログの集計を変更し、集計先でログを 2 日間保持するようにしました。デフォルトの送信先はクラスターの HDFS ストレージです。この期間を変更する場合は、クラスターの作成時に yarn.log-aggregation.retain-seconds 設定分類を使用して yarn-site の値を変更します。ただし、クラスターの作成時は、Amazon S3 パラメータを使用して、いつでも log-uri にアプリケーションログを保存できます。

適用されたパッチ

オープンソースのプロジェクトから、次のパッチがこのリリースで追加されました。

リリース 4.3.0

リリース日: 2016 年 1 月 19 日

Features

このリリースでは、次の機能を使用できます。

  • Hadoop 2.7.1 にアップグレードしました

  • Spark 1.6.0 にアップグレードしました

  • Ganglia を 3.7.2 にアップグレードしました

  • Presto を 0.130 にアップグレードしました

Amazon EMR は、true に設定すると spark.dynamicAllocation.enabled にいくつかの変更を加えましたが、デフォルトでは false になります。true に設定すると、maximizeResourceAllocation 設定で定義されているデフォルト設定に影響を与えます。

  • spark.dynamicAllocation.enabled を true に設定した場合、spark.executor.instancesmaximizeResourceAllocation によって設定されません。

  • spark.driver.memory 設定は、spark.executors.memory 設定と同様に、クラスター内のインスタンスタイプに基づいて定義されます。ただし、Spark ドライバーアプリケーションは、マスターインスタンスまたはいずれかのコアインスタンスで(たとえば、YARN クライアントモードとクラスターモードのそれぞれで)実行されるため、spark.driver.memory 設定は、これらの 2 つのインスタンスグループ間で、小さい方のインスタンスのインスタンスタイプに基づいて定義されます。

  • spark.default.parallelism 設定は、YARN コンテナに使用可能な CPU コアの数の 2 倍に定義されます。以前のリリースでは、半分の値に定義されていました。

  • Spark YARN プロセス用に予約されるメモリオーバーヘッドの計算精度が上がったため、Spark に使用可能なメモリの合計量(spark.executor.memory)がわずかに増えました。

以前のリリースから解決された既知の問題

  • 現在、YARN ログの集計はデフォルトで有効になります。

  • YARN ログの集計が有効な場合に、クラスターの Amazon S3 ログバケットにログがプッシュされる問題を修正しました。

  • YARN コンテナサイズは、すべてのノードタイプで新たに最低 32 になりました。

  • 大規模なクラスターのマスターノードで過剰なディスク I/O を発生させる Ganglia の問題を修正しました。

  • クラスターのシャットダウン時にアプリケーションログが Amazon S3 にプッシュされない問題を修正しました。

  • 特定のコマンドを失敗させる EMRFS CLI の問題を修正しました。

  • 基盤となる SparkContext に依存関係がロードされなくなる Zeppelin の問題を修正しました。

  • インスタンスの追加を試みるサイズ変更の発行によって発生する問題を修正しました。

  • CREATE TABLE AS SELECT が Amazon S3 への過剰なリスト呼び出しを行う Hive の問題を修正しました。

  • Hue、Oozie、および Ganglia がインストールされていると、大規模なクラスターが適切にプロビジョニングされない問題を修正しました。

  • エラーで失敗した場合でもゼロ終了コードを返す s3-dist-cp の問題を修正しました。

適用されたパッチ

オープンソースのプロジェクトから、次のパッチがこのリリースで追加されました。

リリース 4.2.0

リリース日: 2015 年 11 月 18 日

Features

このリリースでは、次の機能を使用できます。

  • Ganglia のサポートを追加しました

  • Spark 1.5.2 にアップグレードしました

  • Presto 0.125 にアップグレードしました

  • Oozie を 4.2.0 にアップグレードしました

  • Zeppelin を 0.5.5 にアップグレードしました

  • AWS SDK for Java が 1.10.27 にアップグレード

以前のリリースから解決された既知の問題

  • デフォルトのメタデータテーブル名を使用しない EMRFS CLI の問題を修正しました。

  • Amazon S3 で ORC-backed テーブルを使用するときに発生した問題を修正しました。

  • Spark 設定で Python バージョンが一致しない問題を修正しました。

  • VPC のクラスターでの DNS の問題により、YARN ノードのステータスが報告されない問題を修正しました。

  • YARN がノードを廃棄することが原因でアプリケーションがハングしたり、新しいアプリケーションを予定できなくなったりする問題を修正しました。

  • クラスターが TIMED_OUT_STARTING というステータスで終了するときに発生する問題を修正しました。

  • EMRFS Scala 依存関係を他のビルドに含める場合に発生する問題を修正しました。Scala 依存関係が削除されました。