Add More than 256 Steps to a Cluster - Amazon EMR

英語の翻訳が提供されている場合で、内容が矛盾する場合には、英語版がオリジナルとして取り扱われます。翻訳は機械翻訳により提供されています。

Add More than 256 Steps to a Cluster

AMI 3.1.1 (Hadoop 2.x) 以降および AMI 2.4.8 (Hadoop 1.x) 以降、長時間稼働するクラスターが存続する間は、送信できるステップの数に制限はありません。ただし、どの時点でも保留中またはアクティブにできるステップは、256 のみです。それ以前の AMI バージョンの場合は、クラスターで処理できるステップの総数が 256 に制限されます (Hive のインストールや Pig のインストールなどのシステムステップを含む)。詳細については、「Submit Work to a Cluster」を参照してください。

3.1.1 および 2.4.8 より前の AMI バージョンで 256 ステップの制限を回避するためには、いくつかの方法を使用できます。

  1. 各ステップから Hadoop に複数のジョブを送信する。これによって、3.1.1 および 2.4.8 よりも前の AMI バージョンにおけるステップ数が無制限になるわけではありませんが、256 を超えるステップの数が決まっている場合には最も簡単な方法です。

  2. 長時間稼働クラスター上のステップ内で実行されるワークフロープログラムを記述し、ジョブを Hadoop に送信する。ワークフロープログラムでは、次のいずれかの操作を実行できます。

    • Listen to an Amazon SQS queue to receive information about new steps to run.

    • Check an Amazon S3 bucket on a regular schedule for files containing information about the new steps to run.

  3. Amazon EC2 インスタンス上で実行されるワークフロープログラムを Amazon EMR 外で作成し、SSH を使用して長時間稼働クラスターにジョブを送信します。

  4. SSH 経由で長時間稼働クラスターに接続し、Hadoop API を使用して Hadoop ジョブを送信します。詳細については、http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/JobClient.html を参照してください。

  5. マスターノードに接続し、クラスターにジョブを送信します。SSH クライアント (PuTTY や OpenSSH など) を使用して接続し、手動でジョブをクラスターに送信するか、AWS CLI で ssh サブコマンドを使用して接続とジョブの送信の両方を行うことができます。マスターノードとの SSH 接続を確立する方法の詳細については、「Connect to the Master Node Using SSH」を参照してください。インタラクティブに Hadoop ジョブを送信する方法の詳細については、「Submit Hadoop Jobs Interactively」を参照してください。