翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
適切なストレージの選択
クラスターのインスタンスタイプと容量を設定します。コアノードとタスクノードには処理能力とコンピューティング能力が必要ですが、データを保存するのはコアノードのみです。コアノードに対して最も費用対効果の高いタイプのストレージを選択します。
Amazon EMR を使用して大量のデータを処理する場合、Amazon S3 からデータを移動するためのオプションがいくつかあります。最適なオプションは、ワークロードによって異なります。以下のセクションでは、どのストレージタイプが適切な選択かを決定する際に考慮すべき重要なポイントをいくつか示します。
Hadoop 分散ファイルシステム
Hadoop Distributed File System (HDFS) は、Hadoop 用の分散型、スケーラブル、ポータブルなファイルシステムです。HDFS の利点は、クラスターを管理する Hadoop クラスターノードと個別のステップを管理する Hadoop クラスターノードの間でのデータ認識です。
Amazon EMR で HDFS を使用するタイミング
同じデータセットまたはディスク I/O 集約型ワークロードで反復読み取りを行う場合は、HDFS を使用して中間結果をキャッシュし、ホットストレージとしてデータを処理できます。HDFS はエフェメラルです。つまり、インスタンスが終了すると再利用されます。
EMR ファイルシステム
EMR ファイルシステム (EMRFS) は、Amazon EMR クラスターが Amazon EMR から Amazon S3 への通常のファイルの読み取りと書き込みに通常使用する HDFS の実装です。
実行ごとにデータセットを 1 回読み取るときに EMRFS を使用できます。EMRFS はストレージをコンピューティングから切り離すため、データを保存するために特にコアノードをプロビジョニングする必要はなく、HDFS でのデータレプリケーションに対して料金を支払う必要もありません。これにより、コストが削減され、複数のクラスターのデータが利用できるようになります。また、クラスターをシャットダウンした後にデータを保持するという利点もあります。