Système de fichiers distribué Hadoop Quand utiliser HDFS dans Amazon EMR

Choisir le bon système de rangement

Configurez les types d'instances et la capacité de votre cluster. Les nœuds principaux et les nœuds de tâches ont besoin de puissance de traitement et de calcul, mais seuls les nœuds principaux stockent les données. Sélectionnez le type de stockage le plus rentable pour vos nœuds principaux.

Lorsque vous utilisez Amazon EMR pour traiter de grandes quantités de données, plusieurs options s'offrent à vous pour déplacer des données depuis Amazon S3. La meilleure option dépend de votre charge de travail. Les sections suivantes présentent certains points essentiels à prendre en compte pour choisir le type de stockage qui vous convient le mieux.

Système de fichiers distribué Hadoop

Le système de fichiers distribué Hadoop (HDFS) est un système de fichiers distribué, évolutif et portable pour Hadoop. L'un des avantages de HDFS est la reconnaissance des données entre les nœuds de cluster Hadoop qui gèrent les clusters et les nœuds de cluster Hadoop qui gèrent les étapes individuelles.

Quand utiliser HDFS dans Amazon EMR

Lorsque vous effectuez des lectures itératives sur le même jeu de données ou que vous effectuez des charges de travail intensives en E/S sur disque, vous pouvez utiliser HDFS pour mettre en cache les résultats intermédiaires et comme stockage à chaud pour le traitement des données. Le HDFS est éphémère, ce qui signifie qu'il est récupéré lorsque les instances sont fermées.

Système de fichiers EMR

Le système de fichiers EMR (EMRFS) est une implémentation de HDFS que les clusters Amazon EMR utilisent généralement pour lire et écrire des fichiers ordinaires depuis Amazon EMR directement vers Amazon S3.

Vous pouvez utiliser EMRFS lorsque vous lisez le jeu de données une fois à chaque exécution. EMRFS dissocie le stockage du calcul, vous n'avez donc pas besoin de configurer des nœuds principaux spécifiquement pour stocker les données, ni de payer pour la réplication des données dans HDFS. Cela permet de réduire les coûts et de garantir la disponibilité des données pour plusieurs clusters. Vous avez également l'avantage de conserver les données après l'arrêt du cluster.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Estimation de la capacité

Dimensionnement automatique