Blocs de capacité pour ML - Amazon Elastic Compute Cloud

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Blocs de capacité pour ML

Les blocs de capacité pour le machine learning vous permettent de réserver des GPU instances très recherchées à une date future afin de prendre en charge vos charges de travail d'apprentissage automatique (ML) de courte durée. Les instances qui s'exécutent dans un bloc de capacité sont automatiquement placées à proximité les unes des autres dans Amazon EC2 UltraClusters, pour une mise en réseau non bloquante à faible latence, à l'échelle du pétaoctet.

Avec les blocs de capacité, vous pouvez voir quand la capacité de l'GPUinstance sera disponible à des dates futures, et vous pouvez planifier le démarrage d'un bloc de capacité à l'heure qui vous convient le mieux. Lorsque vous réservez un bloc de capacité, vous bénéficiez d'une assurance de capacité prévisible pour les GPU instances, tout en ne payant que pour le temps dont vous avez besoin. Nous recommandons les blocs de capacité lorsque vous devez GPUs prendre en charge vos charges de travail ML pendant des jours ou des semaines d'affilée et que vous ne souhaitez pas payer pour une réservation lorsque vos GPU instances ne sont pas utilisées.

Voici quelques cas d’utilisation courants des blocs de capacité.

  • Entraînement et mise au point du modèle ML : accédez sans interruption aux GPU instances que vous avez réservées pour terminer la formation et le réglage du modèle ML.

  • Expériences et prototypes de machine learning : exécutez des expériences et créez des prototypes qui nécessitent GPU des instances de courte durée.

Les blocs de capacité sont actuellement disponibles pour p5.48xlarge les p4d.24xlarge instances. Les p5.48xlarge instances sont disponibles dans les régions de l'est des États-Unis (Ohio) et de l'est des États-Unis (Virginie du Nord). Les p4d.24xlarge instances sont disponibles dans les régions de l'est des États-Unis (Ohio) et de l'ouest des États-Unis (Oregon). Vous pouvez réserver un bloc de capacité avec un démarrage ultérieur, jusqu’à huit semaines plus tard.

Vous pouvez utiliser les blocs de capacité pour réserver p5 des p4d instances avec les options de durée de réservation et de quantité d'instances suivantes.

  • Durées de réservation par tranches d'un jour jusqu'à 14 jours et par tranches de 7 jours jusqu'à 28 jours au total

  • Options de quantité d’instances des réservations pour 1, 2, 4, 8, 16, 32 ou 64 instances

Pour réserver un bloc de capacité, vous devez commencer par spécifier vos besoins en matière de capacité, notamment le type d'instance, le nombre d'instances, la durée, la date de début la plus ancienne et la dernière date de fin dont vous avez besoin. Ensuite, vous pouvez voir une offre de blocs de capacité disponible qui répond à vos spécifications. L’offre de bloc de capacité inclut des informations telles que l’heure de début, la zone de disponibilité et le prix de réservation. Le prix d’une offre de bloc de capacité dépend de l’offre et de la demande au moment où l’offre est proposée. Une fois que vous avez réservé un bloc de capacité, le prix ne change pas. Pour plus d’informations, consultez Tarification et facturation des blocs de capacité.

Lorsque vous achetez un bloc de capacité, votre réservation est créée pour la date et le nombre d’instances que vous avez sélectionnés. Lorsque votre réservation de bloc de capacité commence, vous pouvez cibler les lancements d’instances en spécifiant l’ID de réservation dans vos demandes de lancement.

Vous pouvez utiliser toutes les instances que vous avez réservées jusqu’à 30 minutes avant la fin du bloc de capacité. Lorsqu’il ne reste que 30 minutes de réservation à votre bloc de capacité, nous commençons à mettre fin à toutes les instances en cours d’exécution dans le bloc de capacité. Nous utilisons ce temps pour nettoyer vos instances avant de livrer le bloc de capacité au client suivant. Les 30 dernières minutes de la réservation ne sont pas incluses dans le prix du bloc de capacité. Nous émettons un événement EventBridge 10 minutes avant le début du processus de résiliation. Pour plus d’informations, consultez Surveillez les blocs de capacité en utilisant EventBridge.

Plateformes prises en charge

Les blocs de capacité pour le ML sont actuellement pris en charge p5.48xlarge et p4d.24xlarge les instances sont louées par défaut. Lorsque vous utilisez le AWS Management Console pour acheter un bloc de capacité, l'option de plateforme par défaut est Linux/UNIX. Lorsque vous utilisez le AWS Command Line Interface (AWS CLI) ou que AWS SDK vous achetez un bloc de capacité, les options de plateforme suivantes sont disponibles :

  • Linux/Unix

  • Utilisation de Red Hat Enterprise Linux

  • RHELavec HA

  • SUSELinux

  • Ubuntu Pro

Considérations

Avant d’utiliser les blocs de capacité, tenez compte des informations et des limites suivantes.

  • Les blocs de capacité commencent et se terminent à 11 h 30, temps universel coordonné (UTC).

  • Le processus de résiliation pour les instances exécutées dans un bloc de capacité commence à 11 h 00, heure universelle coordonnée (UTC), le dernier jour de la réservation.

  • Les blocs de capacité peuvent être réservés avec un démarrage ultérieur, jusqu’à huit semaines plus tard.

  • Vous n’êtes pas autorisé à modifier ou annuler les blocs de capacité.

  • Les blocs de capacité ne peuvent pas être partagés entre les AWS comptes ou au sein de votre AWS organisation.

  • Les blocs de capacité ne peuvent pas être utilisés dans un groupe de réserve de capacité.

  • Le nombre total d'instances pouvant être réservées dans les blocs de capacité pour tous les comptes de votre AWS organisation ne peut pas dépasser 64 instances à une date donnée.

  • Pour utiliser un bloc de capacité, les instances doivent cibler spécifiquement l’ID de réservation.

  • Les instances d’un bloc de capacité ne sont pas prises en compte dans vos limites d’instances à la demande.

  • Pour les instances P5 utilisant une configuration personnaliséeAMI, assurez-vous de disposer du logiciel et de la configuration requis pour EFA.

  • Pour les groupes de nœuds EKS gérés par Amazon, consultez Créer un groupe de nœuds gérés avec Amazon EC2 Capacity Blocks for ML. Pour les groupes de nœuds EKS autogérés par Amazon, consultez Utiliser des blocs de capacité pour le machine learning avec des nœuds autogérés.

Après avoir créé un bloc de capacité, vous pouvez effectuer les opérations suivantes avec le bloc de capacité :

Pour plus d'informations AWS ParallelCluster, voir Qu'est-ce que AWS ParallelCluster.