Amazon EMR クラスターの選択とデプロイ - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon EMR クラスターの選択とデプロイ

ノードタイプ を特定して整理します。Amazon EMR クラスターを定義するときは、そのハードウェアを理解することが重要です。動作の仕組み どのように構成されていますか? これらの質問に対する回答には 3 つの部分があります。

  • ノードのタイプ

  • 各ノードが保持する関数

  • 各ノードで最も効率的な EC2 インスタンスのタイプ

初期状態では、プライマリノードが一般的なリソースの管理を担当します。分散アプリケーションの主要コンポーネントを実行します。例えば、Hadoop Distributed File System (HDFS) NameNode サービスを実行し、クラスターで実行されるジョブを追跡し、システムのヘルスをモニタリングします。

さらに、Amazon EMR にはコアノードとタスクノードがあります。コアノードは、プライマリノードによって管理されます。コアノードはタスクノードを実行し、クラスターの HDFS にデータを保存する責任を担います。タスクノードは、クラスターに送信されるタスクの管理を担当します。タスクノードはデータを保存しません。(タスクノードは必須ではありません)。

Amazon EMR クラスターを設定およびデプロイする場合、重要な考慮事項は、クラスターノードを表す EC2 インスタンスの適切な選択です。EC2 インスタンスをクラスターに追加するには、インスタンスグループ設定を使用するか、クラスターのインスタンスフリート設定を使用するかに応じて、いくつかの方法があります。サポートされているインスタンスタイプの詳細については、「」のAWS ドキュメントを参照してください。

以下のガイドラインは、ほとんどの Amazon EMR クラスター に適用されます。クラスター設定のベストプラクティス を確認することもできます。

インスタンス選択ガイドライン

一般に、Amazon EMR の実装にどのインスタンスが優先されるかは、実行中のジョブによって異なります。以下の質問を検討してください。

  • ジョブのメモリは大量ですか?

  • ジョブの CPU は集中的ですか?

  • 大量のストレージが必要ですか?

  • ジョブには GPU 容量が必要ですか?

これらの質問は、必要なインスタンスのタイプと、必要な実際の特性を理解するのに役立ちます。同時に処理するジョブの数と、ジョブの処理速度を決定します。Amazon EMR の使用料は時間単位で課金されるため、これは重要です。クラスターをオンにすると、1 時間分の料金が請求されます。

異なる AWS リージョンで実行されている各インスタンスのコストを確認できます。リージョン間で料金を比較するには、 AWS 料金計算ツールを使用して、場所に基づいて値を変更できます。

EC2 インスタンスの選択

前の質問に答えたら、それらの要件に基づいてインスタンスを選択する時間です。処理ジョブのニーズを理解したら、必要な特性に基づいてインスタンスタイプを決定します。

  • 汎用インスタンスが必要な場合は、M6gT4gインスタンスを選択します。 M5

  • コンピューティング最適化インスタンスが必要な場合は、C6g または C5 インスタンスを選択します。

  • メモリ最適化インスタンスが必要な場合は、R6gX1R5、または z1d インスタンスを選択します。

  • ストレージ用に最適化する必要がある場合は、I/O I3 インスタンスを選択します。

  • GPU などの高速コンピューティングが必要な場合は、P3G4、または Inf1インスタンスを選択します。これらのインスタンスタイプは、機械学習や流体力学などのプロセスに高いパフォーマンスを提供します。

インスタンスのタイプとその機能を理解するもう 1 つの方法は、各インスタンスタイプのデフォルトメモリを分析することです。このメトリクスは、 MapReduce ジョブのパフォーマンスを調整および改善するのに役立ちます。詳細については、「Hadoop デーモンの設定」を参照してください。

必要なインスタンスのタイプがわかったら、クラスター容量を計画できます。