ステップ 7: 入力データの検証 - Amazon EMR

ステップ 7: 入力データの検証

入力データを確認します。キー値に均等に割り付けられていますか? データが 1 つまたは少数のキー値に偏っている場合、他のノードが待機中であるにもかかわらず、読み込み処理は少数のノードにマップされている可能性があります。この不均等な作業の割り付けは、処理時間を遅くさせる場合があります。

たとえば、不均等なデータセットでは、クラスターを実行して単語をアルファベット順にしていますが、所有しているデータセットには "a" の文字で始まる単語しかありません。作業を綿密に計画した場合、他の文字で始まる単語を処理するノードが待機中であっても、"a" で始まる値を処理しているノードに負担がかかることになります。