Amazon EMR クラスターの要件 - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon EMR クラスターの要件

Amazon EC2 で実行されている Amazon EMR クラスター

EMR Studio Workspace 用に作成する Amazon EC2 で実行されているすべての Amazon EMR クラスターは、次の要件を満たす必要があります。EMR Studio インターフェイスを使用して作成したクラスターは、これらの要件を自動的に満たします。

  • クラスターは、Amazon EMR バージョン 5.32.0 (Amazon EMR 5.x シリーズ) または 6.2.0 (Amazon EMR 6.x シリーズ) 以降を使用する必要があります。Amazon EMR コンソール AWS Command Line Interface、または SDK を使用してクラスターを作成し、EMR Studio Workspace にアタッチできます。Studio ユーザーは、Amazon EMR Workspace を作成または作業するときに、クラスターをプロビジョニングしてアタッチすることもできます。詳細については、「EMR Studio Workspace にコンピューティングをアタッチする」を参照してください。

  • クラスターは Amazon Virtual Private Cloud 内に存在する必要があります。EC2-Classic プラットフォームはサポートされません。

  • クラスターには Spark、Livy、および Jupyter Enterprise Gateway がインストールされている必要があります。SQL Explorer にクラスターを使用する予定がある場合は、Presto と Spark の両方をインストールする必要があります。

  • SQL Explorer を使用するには、クラスターで Amazon EMR バージョン 5.34.0 以降またはバージョン 6.4.0 以降を使用し、Presto をインストールする必要があります。Presto の Hive メタストアとして AWS Glue データカタログを指定する場合は、クラスターで設定する必要があります。詳細については、「AWS Glue Data Catalog での Presto の使用」を参照してください。

  • EMR Studio でパブリックにホストされた Git リポジトリを使用するには、クラスターが NAT を使用するプライベートサブネット内にある必要があります。

EMR Studio を使用する場合は、次のクラスター設定をお勧めします。

  • Spark セッションのデプロイモードをクラスターモードに設定する。クラスターモードでは、アプリケーションマスタープロセスは、クラスターのプライマリノードではなく、コアノードに配置されます。そうすることで、プライマリノードでメモリ不足になる可能性が軽減されます。詳細については、Apache Spark ドキュメントで「クラスターモードの概要」を参照してください。

  • 次の設定例のように、Livy タイムアウトをデフォルトの 1 時間から 6 時間に変更する。

    { "classification":"livy-conf", "Properties":{ "livy.server.session.timeout":"6h", "livy.spark.deploy-mode":"cluster" } }
  • 最大 30 のインスタンスで多様なインスタンスフリートを作成し、スポットインスタンスフリートで複数のインスタンスタイプを選択する。例えば、Spark ワークロードに対してメモリ最適化インスタンスタイプ r5.2x、r5.4x、r5.8x、r5.12x、r5.16x、r4.2x、r4.4x、r4.8x、r4.12 などを指定できます。詳細については、「Amazon EMR クラスターのインスタンスフリートの計画と設定」を参照してください。

  • スポットインスタンスのキャパシティ最適化割り当て戦略を使用して、Amazon EMR が Amazon EC2 のリアルタイムのキャパシティインサイトに基づいて効果的にインスタンスを選択できるようにする。詳細については、「インスタンスフリートの配分戦略」を参照してください。

  • クラスターでマネージドスケーリングを有効にする。最大コアノードパラメータを、使用する予定の最小永続キャパシティに設定し、スポットインスタンスで実行される分散型タスクフリートでスケーリングを設定してコストを節約する。詳細については、「Amazon EMR でマネージドスケーリングを使用する」を参照してください。

また、Amazon EMR ブロックパブリックアクセスを有効なままにしておき、インバウンド SSH トラフィックを信頼できるソースに制限することをお勧めします。クラスターへのインバウンドアクセスにより、ユーザーはクラスターでノートブックを実行できます。詳細については、「Amazon EMR のパブリックアクセスブロックの使用」および「Amazon EMR クラスターのセキュリティグループを使用してネットワークトラフィックを制御する」を参照してください。

Amazon EMR on EKS クラスター

Amazon EC2 で実行されている EMR クラスターに加えて、 AWS CLIを使用して EMR Studio の Amazon EMR on EKS クラスターを設定および管理できます。次のガイドラインを使用して、Amazon EMR on EKS クラスターを設定します。

  • Amazon EMR on EKS クラスター用のマネージド HTTPS エンドポイントを作成します。ユーザーは Workspace をマネージドエンドポイントにアタッチします。仮想クラスターの登録に使用する Amazon Elastic Kubernetes Service (EKS) クラスターには、マネージドエンドポイントをサポートするためのプライベートサブネットが必要です。

  • パブリックにホストされた Git リポジトリを使用する場合は、少なくとも 1 つのプライベートサブネットおよび NAT を持つ Amazon EKS クラスターを使用します。

  • Amazon EKS 最適化 Arm Amazon Linux AMI は使用しないでください。これは、Amazon EMR on EKS マネージドエンドポイントではサポートされていません。

  • サポートされていない AWS Fargate専用の Amazon EKS クラスターは使用しないでください。