最新情報 - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

最新情報

このページでは、Amazon EMR 6.x と Amazon EMR 5.x の最新リリースで利用できる変更点と機能について説明します。これらのリリースノートは、各リリースのアプリケーションバージョン、コンポーネントバージョン、および利用可能な設定分類とともに、Amazon EMR リリース 6.9.0 ページと Amazon EMR リリース 5.36.0 ページでも参照できます。

新しい Amazon EMR リリースノートの RSS フィードにサブスクライブします。新しい Amazon EMR リリースが利用可能になったときに更新を受け取るには、で Amazon EMR リリースノートの RSShttps://docs.aws.amazon.com/emr/latest/ReleaseGuide/amazon-emr-release-notes.rss フィードにサブスクライブします。

以前のリリースのリリースノートについては、を参照してくださいAmazon EMR リリースノートのアーカイブ

注記

Amazon EMR リリースは、AWS署名バージョン 4 (SigV4) を使用して Amazon S3 へのリクエストを認証するようになりました。新しい S3 バケットにアクセスでき、ワークロードが中断されないように、SigV4 をサポートする Amazon EMR リリースを使用することをお勧めします。SigV4 をサポートする Amazon EMR リリースの詳細とリストについては、を参照してくださいAmazon EMRAWS と署名バージョン 4

Amazon EMR 6.9.0 (6.x シリーズの最新リリース)

新しい Amazon EMR リリースは、数日間にわたって複数の異なるリージョンで利用可能になります。この期間中、お客様のリージョンで最新のリリースバージョンが利用できない場合があります。

次のリリースノートには、Amazon EMR リリース 6.9.0 に関する情報が含まれています。Amazon EMR リリース 6.8.0 リリースからの変更が含まれています。リリースタイムラインの詳細については、変更ログを参照してください

新機能
  • Amazon EMR リリース 6.9.0 は Apache Spark RAPIDS 22.08.0、Apache Hudi 0.12.1、Apache Iceberg 0.14.1、Trino 398、および Tez 0.10.2 をサポートしています。

  • Amazon EMR リリース 6.9.0 には、新しいオープンソースアプリケーションDelta Lake 2.1.0 が含まれています。

  • Amazon Redshift リリース 6.9.0 以降には、Amazon EMR リリース 6.9.0 以降に含まれています。以前はオープンソースのツールでしたが、ネイティブ統合は、Amazon Redshift と Amazon Redshift Serverless のデータを読み書きする Apache Spark アプリケーションを構築するために使用できる Spark コネクタです。詳細については、「Amazon EMR との Amazon Redshift の統合」を参照してください。

  • Amazon EMR リリース 6.9.0 では、クラスターのスケールダウン中に Amazon S3 にログをアーカイブするためのサポートが追加されています。以前は、クラスターの終了時に Simple Storage Service (Amazon S3) にログファイルをアーカイブできました。新機能により、クラスターで生成されたログファイルは、ノードが終了した後も Amazon S3 に残ります。詳細については、「クラスターのログ記録とデバッグを設定する」を参照してください。

  • 長時間実行されるクエリをサポートするために、Trinoにはフォールトトレラント実行メカニズムが搭載されました。フォールトトレラント実行では、失敗したクエリやそのコンポーネントタスクを再試行することで、クエリの失敗を軽減できます。詳細については、「Trinoでのフォールトトレラント実行」を参照してください。

  • Amazon EMR で Apache Flink を使用すると、Apache Hive テーブルや、アイスバーグ、Kinesis、カフカなどの任意の FlinkBATCHSTREAM テーブルソースのメタデータを統合して処理できます。、、、または Amazon EMR API を使用して、AWS Glue Data Catalog をAWS Management Console Flink のメタストアとして指定できます。AWS CLI詳細については、「Flink を設定する」を参照してください。

  • Amazon SageMaker Studio を使用して EC2 クラスター上の Amazon EMR で、Apache Spark、Apache Hive、および Presto クエリのAWS Identity and Access Management (IAM)AWS Lake Formation ランタイムロールとベースのアクセスコントロールを指定できるようになりました。詳細については、Amazon EMR ステップのランタイムロールを設定を参照してください。

既知の問題点
  • Amazon EMR リリース 6.9.0 では、Trino は Apache Ranger に対応しているクラスターでは動作しません。レンジャーでトリノを使用する必要がある場合は、お問い合わせくださいAWS Support

  • Apache Spark 用の Amazon Redshift インテグレーションを使用していて、Parquet 形式のマイクロ秒精度の時刻、タイムスタンプ、タイムスタンプ、またはタイムスタンプ.ptz がある場合、コネクタは時間値を最も近いミリ秒の値に丸めます。回避策として、unload_s3_formatテキストアンロード形式パラメーターを使用してください。

  • Spark を Hive パーティションロケーションフォーマットで Amazon S3 のデータを読み取るときに、Amazon EMR リリース 5.30.0 から 5.36.0、および 6.2.0 から 6.9.0 で Spark を実行すると、クラスターがデータを正しく読み取れないという問題が発生する可能性があります。これは、パーティションに次の特性がすべて備わっている場合に発生する可能性があります。

    • 同じテーブルから 2 つ以上のパーティションがスキャンされます。

    • 少なくとも1つのパーティションディレクトリパスが、他の少なくとも1つのパーティションディレクトリパスのプレフィックスです。たとえば、s3://bucket/table/p=aのプレフィックスですs3://bucket/table/p=a b

    • 他のパーティションディレクトリのプレフィックスに続く最初の文字の UTF-8 値は、/その文字 (U+002F) よりも小さい。たとえば、の a と bs3://bucket/table/p=a b の間にある空白文字 (U+0020) はこのカテゴリに分類されます。他に14個の非制御文字があることに注意してください:!“#$%&‘()*+,-. 詳細については、「UTF-8 エンコードテーブル」と「Unicode 文字」を参照してください。

    この問題の回避策として、spark.sql.sources.fastS3PartitionDiscovery.enabledfalsespark-defaults分類の設定をに設定します。

  • Amazon SageMaker Studio から Amazon EMR クラスターへの接続が 403 禁止レスポンスコードで断続的に失敗することがあります。このエラーは、クラスターでの IAM ロールのセットアップに 60 秒以上かかる場合に発生します。回避策として、Amazon EMR パッチをインストールして再試行を有効にし、タイムアウトを最低 300 秒に増やすことができます。クラスターの起動時に、次の手順を使用してブートストラップアクションを適用します。

    1. 次の URI を使用して、Amazon S3 からブートストラップスクリプトと RPM ファイルをダウンロードします。RegionName は、AWS リージョンクラスターを起動する予定の場所に置き換えます。

      s3://emr-data-access-control-regionName/customer-bootstrap-actions/gcsc/replace-rpms.sh s3://emr-data-access-control-regionName/customer-bootstrap-actions/gcsc/emr-secret-agent-1.18.0-SNAPSHOT20221121212949.noarch.rpm
    2. 前の手順のファイルをお客様が所有する Amazon S3 バケットに前の手順のファイルをアップロードします。バケットは、AWS リージョンクラスターの起動先と同じに存在する必要があります。

    3. EMR クラスターを起動するときは、次のブートストラップアクションを含めてください。Bootstrap_URIRPM_URI を Amazon S3 の対応する URI に置き換えます。

      --bootstrap-actions "Path=bootstrap_URI,Args=[RPM_URI]"
  • Amazon EMR リリース 5.36.0 と 6.6.0 ~ 6.9.0 では、SecretAgent Log4j2 プロパティのファイル名パターン設定が正しくないため、RecordServerサービスコンポーネントでログデータが失われる可能性があります。構成が正しくないと、コンポーネントは 1 日に 1 つのログファイルしか生成しません。ローテーション戦略が実行されると、期待どおりに新しいログファイルが生成されるのではなく、既存のファイルが上書きされます。回避策として、ブートストラップアクションを使用して 1 時間ごとにログファイルを生成し、ファイル名に自動インクリメント整数を追加してローテーションを処理します。

    Amazon EMR 6.6.0 から 6.9.0 のリリースでは、クラスターを起動するときに次のブートストラップアクションを使用します。

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"

    Amazon EMR 5.36.0 では、クラスターを起動するときに次のブートストラップアクションを使用します。

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
  • Apache Flink にはネイティブ S3 FileSystem コネクタと Hadoop FileSystem コネクタが用意されており、これらを使用してアプリケーションが FileSink Amazon S3 にデータを作成し、書き込むことができます。これは、次の 2 FileSink つの例外のいずれかを除いて失敗します。

    java.lang.UnsupportedOperationException: Recoverable writers on Hadoop are only supported for HDFS
    Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.io.retry.RetryPolicies.retryOtherThanRemoteAndSaslException(Lorg/apache/hadoop/io/retry/RetryPolicy;Ljava/util/Map;)Lorg/apache/hadoop/io/retry/RetryPolicy; at org.apache.hadoop.yarn.client.RMProxy.createRetryPolicy(RMProxy.java:302) ~[hadoop-yarn-common-3.3.3-amzn-0.jar:?]

    回避策として、Amazon EMR パッチをインストールすると、Flink の上記の問題が修正されます。クラスターの起動時にブートストラップアクションを適用するには、以下のステップを実行します。

    1. Amazon S3 バケットに flink-rpm をダウンロードします。RPM パスはですs3://DOC-EXAMPLE-BUCKET/rpms/flink/

    2. 次の URI を使用して、Amazon S3 からブートストラップスクリプトと RPM ファイルをダウンロードします。regionNameAWS リージョンクラスターを起動する予定の場所に置き換えます。

      s3://emr-data-access-control-regionName/customer-bootstrap-actions/gcsc/replace-rpms.sh
変更、拡張、解決した問題
  • Amazon EMR リリース 6.9.0 以降では、Log4j ライブラリを使用する Amazon EMR によってインストールされたすべてのコンポーネントが Log4j バージョン 2.17.1 以降を使用します。

  • Amazon EMR バージョン 6.6.0、6.7.0、6.8.0 の Spark で DynamoDB コネクタを使用すると、入力分割が空でないデータを参照している場合でも、テーブルからの読み取りはすべて空の結果を返します。Amazon EMR リリース 6.9.0 リリース6.9.0 で修正。

  • Amazon EMR 6.9.0 では、Spark SQL を使用してデータを読み取る際の Apache Hudi によるLake Formation ベースのアクセスコントロールが限定的にサポートされています。サポートは Spark SQL を使用する SELECT クエリを対象としており、カラムレベルのアクセス制御に限定されています。詳細については、「Hudi とLake Formation」を参照してください。

  • Amazon EMR 6.9.0 を使用してノードラベルを有効にした Hadoop クラスターを作成すると、YARN メトリクス API はデフォルトのパーティションではなく、すべてのパーティションにわたって集約された情報を返します。詳細については、YARN-11414 を参照してください。

  • Amazon EMR リリース 6.6.0 以降では、デフォルトの Amazon Linux (AL) AMI オプションを使用して新しい Amazon EMR クラスターを起動すると、Amazon EMR は自動的に最新の Amazon Linux AMI を使用します。以前のリリースでは、Amazon EMR は最初のリリース後に Amazon Linux AMI を更新しません。Amazon EMR にデフォルトの Amazon Linux、Amazon Linux、「Amazon Linux、Amazon EMR にデフォルトの Amazon Linux、

    OsReleaseLabel (アマゾン Linux 版) Amazon Linux カーネルバージョン 利用日 サポートされるリージョン
    20221210.1 4.14.301 2023 年 1 月 12 日 us‑east‑1, us‑east‑2, us‑west‑1, us‑west‑2, eu‑north‑1, eu‑west‑1, eu‑west‑2, eu‑west‑3, eu‑central‑1, eu‑south‑1, ap‑east‑1, ap‑south‑1, ap‑southeast‑3, ap‑northeast‑1, ap‑northeast‑2, ap‑northeast‑3, ap‑southeast‑1, ap‑southeast‑2, af‑south‑1, sa‑east‑1, me‑south‑1, ca‑central‑1
    20221103.3 4.14.296 2022 年 12 月 5 日 us-east-1, us-east-2, us-west-1, us-west-2, eu-north-1, eu-west-1, eu-west-2, eu-west-3, eu-central-1, eu-south-1, ap-east-1, ap-south-1, ap-southeast-3, ap-northeast-1, ap-northeast-2, ap-northeast-3, ap-southeast-1, ap-southeast-2, af-south-1, sa-east-1, me-south-1, ca-central-1

Amazon EMR 5.36.0 (5.x シリーズの最新リリース)

新しい Amazon EMR リリースは、数日間にわたって複数の異なるリージョンで利用可能になります。この期間中、お客様のリージョンで最新のリリースバージョンが利用できない場合があります。

次のリリースノートには、Amazon EMR リリース 5.36.0 に関する情報が含まれています。5.35.0 からの変更が含まれています。

初回リリース日:2022 年 6 月 15 日

新機能
  • Amazon EMR リリース 5.36.0 では、Apache Ranger 対応クラスター上の Apache Spark によるデータ定義言語 (DDL) のサポートが追加されています。これにより、Amazon EMR クラスターからのデータベースやテーブルの作成、変更、削除などの操作のアクセス管理に Apache Ranger を使用できます。

  • Amazon EMR 5.36.0 は、デフォルト AMI を使用するクラスターの Amazon Linux の自動アップデートをサポートしています。Amazon EMR にデフォルトの Amazon Linux、Amazon Linux、「Amazon Linux、Amazon EMR にデフォルトの Amazon Linux、

    OsReleaseLabel (アマゾン Linux 版) アマゾン Linux カーネルバージョン ご利用可能日 サポートされるリージョン
    20221210.1 4.14.301 2023 年 1 月 12 日 us‑east‑1, us‑east‑2, us‑west‑1, us‑west‑2, eu‑north‑1, eu‑west‑1, eu‑west‑2, eu‑west‑3, eu‑central‑1, eu‑south‑1, ap‑east‑1, ap‑south‑1, ap‑southeast‑3, ap‑northeast‑1, ap‑northeast‑2, ap‑northeast‑3, ap‑southeast‑1, ap‑southeast‑2, af‑south‑1, sa‑east‑1, me‑south‑1, ca‑central‑1
    20221103.3 4.14.296 2022 年 12 月 5 日 us‑east‑1, us‑east‑2, us‑west‑1, us‑west‑2, eu‑north‑1, eu‑west‑1, eu‑west‑2, eu‑west‑3, eu‑central‑1, eu‑south‑1, ap‑east‑1, ap‑south‑1, ap‑southeast‑3, ap‑northeast‑1, ap‑northeast‑2, ap‑northeast‑3, ap‑southeast‑1, ap‑southeast‑2, af‑south‑1, sa‑east‑1, me‑south‑1, ca‑central‑1
    2.0.20221004.0 4.14.294 2022 年 11 月 2 日 us‑east‑1, us‑east‑2, us‑west‑1, us‑west‑2, eu‑north‑1, eu‑west‑1, eu‑west‑2, eu‑west‑3, eu‑central‑1, eu‑south‑1, ap‑east‑1, ap‑south‑1, ap‑southeast‑3, ap‑northeast‑1, ap‑northeast‑2, ap‑northeast‑3, ap‑southeast‑1, ap‑southeast‑2, af‑south‑1, sa‑east‑1, me‑south‑1, ca‑central‑1
    20220912.1 4.14.291 2022 年 10 月 7 日 us‑east‑1, us‑east‑2, us‑west‑1, us‑west‑2, eu‑north‑1, eu‑west‑1, eu‑west‑2, eu‑west‑3, eu‑central‑1, eu‑south‑1, ap‑east‑1, ap‑south‑1, ap‑southeast‑3, ap‑northeast‑1, ap‑northeast‑2, ap‑northeast‑3, ap‑southeast‑1, ap‑southeast‑2, af‑south‑1, sa‑east‑1, me‑south‑1, ca‑central‑1
    20220719.0 4.14.287 2022 年 8 月 10 日 us‑west‑1, eu‑west‑3, eu‑north‑1, eu‑central‑1, ap‑south‑1, me‑south‑1
    2.0.20426.0 4.14.281 2022 年 6 月 14 日 us‑east‑1, us‑east‑2, us‑west‑1, us‑west‑2, eu‑north‑1, eu‑west‑1, eu‑west‑2, eu‑west‑3, eu‑central‑1, eu‑south‑1, ap‑east‑1, ap‑south‑1, ap‑southeast‑3, ap‑northeast‑1, ap‑northeast‑2, ap‑northeast‑3, ap‑southeast‑1, ap‑southeast‑2, af‑south‑1, sa‑east‑1, me‑south‑1, ca‑central‑1
変更、拡張、解決した問題
  • Amazon EMR 5.36.0 のアップグレードでは、aws-sdk 1.12.206、Hadoop 2.10.1-amzn-4、Hive 2.3.9-amzn-2、Hudi 0.10.1-amzn-1、Spark 2.4.8-amzn-2、Presto 0.267-amzn-1、Amazon Glue コネクタ 1.18.0、EMRFS 2.51.0 がサポートされるようになりました。

既知の問題
  • Spark を Hive パーティションロケーションフォーマットで Amazon S3 のデータを読み取るときに、Amazon EMR リリース 5.30.0 から 5.36.0、および 6.2.0 から 6.9.0 で Spark を実行すると、クラスターがデータを正しく読み取れないという問題が発生する可能性があります。これは、パーティションに次の特性がすべて備わっている場合に発生する可能性があります。

    • 同じテーブルから 2 つ以上のパーティションがスキャンされます。

    • 少なくとも1つのパーティションディレクトリパスが、他の少なくとも1つのパーティションディレクトリパスのプレフィックスです。たとえば、s3://bucket/table/p=aのプレフィックスですs3://bucket/table/p=a b

    • 他のパーティションディレクトリのプレフィックスに続く最初の文字の UTF-8 値は、/その文字 (U+002F) よりも小さい。たとえば、の a と bs3://bucket/table/p=a b の間にある空白文字 (U+0020) はこのカテゴリに分類されます。他に14個の非制御文字があることに注意してください:!“#$%&‘()*+,-. 詳細については、「UTF-8 エンコードテーブル」と「Unicode 文字」を参照してください。

    この問題の回避策として、spark.sql.sources.fastS3PartitionDiscovery.enabledfalsespark-defaults分類の設定をに設定します。

  • Amazon EMR リリース 5.36.0 と 6.6.0 ~ 6.9.0 では、SecretAgent Log4j2 プロパティのファイル名パターン設定が正しくないため、RecordServerサービスコンポーネントでログデータが失われる可能性があります。構成が正しくないと、コンポーネントは 1 日に 1 つのログファイルしか生成しません。ローテーション戦略が実行されると、期待どおりに新しいログファイルが生成されるのではなく、既存のファイルが上書きされます。回避策として、ブートストラップアクションを使用して 1 時間ごとにログファイルを生成し、ファイル名に自動インクリメント整数を追加してローテーションを処理します。

    Amazon EMR 6.6.0 から 6.9.0 のリリースでは、クラスターを起動するときに次のブートストラップアクションを使用します。

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"

    Amazon EMR 5.36.0 では、クラスターを起動するときに次のブートストラップアクションを使用します。

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"

Amazon EMRAWS と署名バージョン 4

Amazon EMR リリースは、AWS署名バージョン 4 (SigV4) を使用して Amazon S3 へのリクエストを認証するようになりました。2020 年 6 月 24 日以降に Amazon S3 で作成されたバケットは、署名バージョン 2 (SIGv2) によって署名されたリクエストをサポートしません。2020 年 6 月 24 日以前に作成されたバケットは、引き続き SIGv2 をサポートします。新しい S3 バケットにアクセスでき、ワークロードが中断されないように、Sigv4 をサポートする Amazon EMR リリースに移行することをお勧めします。

Apache Spark、Apache Hive、Presto などの Amazon EMR に含まれるアプリケーションを使用する場合、SigV4 を使用するようにアプリケーションコードを変更する必要はありません。Amazon EMR に含まれていないカスタムアプリケーションを使用する場合、SigV4 を使用するようにコードを更新する必要がある場合があります。詳細については、Amazon S3 ユーザーガイドの「署名バージョン 2 から署名バージョン 4 への移行」を参照してください。

次の Amazon EMR リリースは SIGv4 をサポートしています:emr-4.7.4、emr-4.8.5、emr-4.9.6、emr-4.10.1、emr-5.1.1、emr-5.2.3、emr-5.3.2、emr-5.4.1、emr-5.5.4、emr-5.6.1、emr-5.7.1、emr-5.8.3、emr-5.9.1、emr-5.10.1、emr-5.10.1、emr-5.10.1、emr-5.10.1、emr-11.5.1 4、emr-5.12.3、emr-5.13.1、emr-5.14.2、emr-5.15.1、emr-5.16.1、emr-5.17.2、emr-5.18.1、emr-5.19.1、emr-5.20.1、emr-5.20.1、emr-5.21.2、および emr-5.22.0 以降。