翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon EMR クラスターの選択とデプロイ
ノードタイプ を特定して整理します。Amazon EMR クラスターを定義するときは、そのハードウェアを理解することが重要です。動作の仕組み どのように構成されていますか? これらの質問に対する回答には 3 つの部分があります。
-
ノードのタイプ
-
各ノードが保持する関数
-
各ノードで最も効率的な EC2 インスタンスのタイプ
初期状態では、プライマリノードが一般的なリソースの管理を担当します。分散アプリケーションの主要コンポーネントを実行します。例えば、Hadoop Distributed File System (HDFS) NameNode サービスを実行し、クラスターで実行されるジョブを追跡し、システムのヘルスをモニタリングします。
さらに、Amazon EMR にはコアノードとタスクノードがあります。コアノードは、プライマリノードによって管理されます。コアノードはタスクノードを実行し、クラスターの HDFS にデータを保存する責任を担います。タスクノードは、クラスターに送信されるタスクの管理を担当します。タスクノードはデータを保存しません。(タスクノードは必須ではありません)。
Amazon EMR クラスターを設定およびデプロイする場合、重要な考慮事項は、クラスターノードを表す EC2 インスタンスの適切な選択です。EC2 インスタンスをクラスターに追加するには、インスタンスグループ設定を使用するか、クラスターのインスタンスフリート設定を使用するかに応じて、いくつかの方法があります。サポートされているインスタンスタイプの詳細については、「」のAWS ドキュメントを参照してください。
以下のガイドラインは、ほとんどの Amazon EMR クラスター に適用されます。クラスター設定のベストプラクティス を確認することもできます。
インスタンス選択ガイドライン
一般に、Amazon EMR の実装にどのインスタンスが優先されるかは、実行中のジョブによって異なります。以下の質問を検討してください。
-
ジョブのメモリは大量ですか?
-
ジョブの CPU は集中的ですか?
-
大量のストレージが必要ですか?
-
ジョブには GPU 容量が必要ですか?
これらの質問は、必要なインスタンスのタイプと、必要な実際の特性を理解するのに役立ちます。同時に処理するジョブの数と、ジョブの処理速度を決定します。Amazon EMR の使用料は時間単位で課金されるため、これは重要です。クラスターをオンにすると、1 時間分の料金が請求されます。
異なる AWS リージョンで実行されている各インスタンスのコストを確認できます。リージョン間で料金を比較するには、 AWS 料金計算ツールを使用して
EC2 インスタンスの選択
前の質問に答えたら、それらの要件に基づいてインスタンスを選択する時間です。処理ジョブのニーズを理解したら、必要な特性に基づいてインスタンスタイプを決定します。
-
汎用インスタンスが必要な場合は、M6g、T4gインスタンスを選択します。 M5
-
コンピューティング最適化インスタンスが必要な場合は、C6g または C5 インスタンスを選択します。
-
メモリ最適化インスタンスが必要な場合は、R6gX1、R5、または z1d インスタンスを選択します。
-
ストレージ用に最適化する必要がある場合は、I/O I3 インスタンスを選択します。
-
GPU などの高速コンピューティングが必要な場合は、P3、G4、または Inf1インスタンスを選択します。これらのインスタンスタイプは、機械学習や流体力学などのプロセスに高いパフォーマンスを提供します。
インスタンスのタイプとその機能を理解するもう 1 つの方法は、各インスタンスタイプのデフォルトメモリを分析することです。このメトリクスは、 MapReduce ジョブのパフォーマンスを調整および改善するのに役立ちます。詳細については、「Hadoop デーモンの設定」を参照してください。
必要なインスタンスのタイプがわかったら、クラスター容量を計画できます。