Stockage d'instances - Amazon EMR

Stockage d'instances

Le stockage d'instances et de volumes Amazon EBS est utilisé pour les données HDFS et pour les tampons, les caches, les données scratch et d'autres contenus temporaires que certaines applications peuvent "déverser" sur le système de fichiers local.

Amazon EBS fonctionne différemment au sein d'Amazon EMR par rapport aux instances Amazon EC2 classiques. Les volumes Amazon EBS attachés aux clusters Amazon EMR sont éphémères : les volumes sont supprimés à la résiliation du cluster et de l'instance (par exemple, lors de la réduction des groupes d'instances), il est donc important que vous ne vous attendiez pas à ce que les données persistent. Les données sont éphémères sur ces volumes, mais il est possible que les données dans HDFS soient répliquées selon le nombre et la spécialisation des nœuds du cluster. Lorsque vous ajoutez des volumes de stockage Amazon EBS EBS, ils sont montés en tant que volumes supplémentaires. Ils ne font pas partie du volume racine. YARN est configuré pour utiliser tous les volumes supplémentaires, mais vous êtes responsable de l'allocation des volumes supplémentaires en tant que stockage local (comme pour les fichiers journaux locaux).

Voici d'autres mises en garde concernant l'utilisation d'Amazon EBS avec les clusters Amazon EMR :

  • Vous ne pouvez pas prendre un instantané d'un volume Amazon EBS, puis le restaurer dans Amazon EMR. Pour créer des configurations personnalisées réutilisables, choisissez une AMI personnalisée (disponible dans Amazon EMR version 5.7.0 et ultérieure). Pour de plus amples informations, veuillez consulter Utilisation d'une image AMI personnalisée.

  • Un volume de périphérique racine Amazon EBS chiffré n'est pris en charge que lors de l'utilisation d'une AMI personnalisée. Pour de plus amples informations, veuillez consulter Création d'une AMI personnalisée avec un volume de périphérique racine Amazon EBS chiffré.

  • Si vous appliquez des balises à l'aide de l'API Amazon EMR, ces opérations sont appliquées aux volumes EBS.

  • Il y a une limite de 25 volumes par instance.

  • Les volumes Amazon EBS sur les nœuds principaux ne peuvent pas être inférieurs à 5 Go.

Stockage Amazon EBS par défaut pour les instances

Amazon EMR attache automatiquement un disque SSD Usage général (gp2) Amazon EBS de 10 Go en tant que périphérique racine pour ses images AMI, afin d'améliorer les performances. En outre, pour les instances EC2 avec un stockage EBS uniquement, Amazon EMR alloue des volumes de stockage gp2 Amazon EBS aux instances. Lorsque vous créez un cluster avec d'Amazon EMR version 5.22.0 et versions ultérieures, la quantité de stockage Amazon EBS par défaut augmente en fonction de la taille de l'instance. Nous avons réparti l'augmentation du stockage sur plusieurs volumes, ce qui a permis d'augmenter les performances IOPS et, par conséquent, les performances de certaines charges de travail standardisées. Si vous voulez utiliser une configuration de stockage d'instance Amazon EBS gp2 différente, vous pouvez le spécifier lorsque vous créez un cluster Amazon EMR ou ajoutez des nœuds à un cluster existant. À l'heure actuelle, les volumes Amazon EBS gp3 ne peuvent pas être utilisés comme volumes racine sur un cluster Amazon EMR. Vous pouvez uniquement utiliser les volumes Amazon EBS gp2 comme volumes racine et ajouter des volumes gp3 en tant que volumes supplémentaires. Le tableau suivant indique le nombre par défaut de volumes de stockage Amazon EBS gp2, les tailles et les tailles totales par type d'instance.

Les coûts Amazon EBS sont calculés au prorata du nombre d'heures en fonction des frais mensuels pour les volumes gp2 de la Région AWS où s'exécute le cluster. Par exemple, le coût Amazon EBS par heure pour le volume racine sur chaque nœud de cluster dans une région qui facture 0,10 $/Go/mois serait d'environ 0,00139 $ par heure (0,10 $/Go/mois divisé par 30 jours et divisé par 24 h fois 10 Go).

Volumes de stockage Amazon EBS gp2 par défaut et taille par type d'instance pour Amazon EMR 5.22.0 et versions ultérieures
Taille d'instance Nombre de volumes Taille du volume (Gio) Total Taille (Gio)

*.large

1

32

32

*.xlarge

2

32

64

*.2xlarge

4

32

128

*.4xlarge

4

64

256

*.8xlarge

4

128

512

*.9xlarge

4

144

576

*.10xlarge

4

160

640

*.12xlarge

4

192

768

*.16xlarge

4

256

1 024

*.18xlarge

4

288

1 152

*.24xlarge

4

384

1 536

Spécification de volumes de stockage EBS supplémentaires

Lorsque vous configurez des types d'instances dans Amazon EMR, vous pouvez spécifier des volumes EBS supplémentaires pour ajouter de la capacité au-delà du stockage d'instances (le cas échéant) et du volume EBS par défaut. Amazon EBS fournit les types de volumes suivants : à usage général (SSD), IOPS provisionnés (SSD), optimisé pour le débit (HDD), à froid (HDD) et magnétique. Ils se distinguent par leurs caractéristiques de performances et leurs prix, ce qui vous permet d'adapter votre stockage en fonction des besoins d'analyse et d'entreprise de vos applications. Par exemple, certaines applications peuvent avoir besoin de se déverser sur le disque, tandis que d'autres peuvent travailler en toute sécurité dans la mémoire ou à l'aide d'Amazon S3.

Vous ne pouvez attacher des volumes Amazon EBS aux instances qu'au moment du démarrage du cluster et lorsque vous ajoutez un groupe d'instances de nœuds de tâches supplémentaires. Si une instance d'un cluster Amazon EMR échoue, l'instance et les volumes Amazon EBS attachés sont remplacés par de nouveaux volumes. Par conséquent, si vous détachez manuellement un volume Amazon EBS, Amazon EMR traite cela comme une défaillance et remplace le stockage d'instance (le cas échéant) et les stockages de volume.

Amazon EMR ne vous permet pas de modifier le type de volume de gp2 à gp3 pour un cluster EMR existant. Pour utiliser gp3 pour vos charges de travail/cas d'utilisation, vous devez lancer un nouveau cluster EMR. En outre, nous vous déconseillons de mettre à jour le débit et les IOPS sur un cluster en cours d'utilisation ou en cours de provisionnement, car Amazon EMR utilise les valeurs de débit et d'IOPS que vous avez spécifiées au moment du lancement du cluster pour toute nouvelle instance ajoutée lors de la mise à l'échelle du cluster. Consultez Comparaison des types de volumes Amazon EBS gp2 et gp3 et Sélection des IOPS et du débit lors de la migration vers gp3.

Important

Pour utiliser un volume gp3 avec votre cluster EMR, lancez un nouveau cluster EMR à l'aide de l'API, du SDK ou de la CLI.