Lancer des instances avec des blocs de capacité (CB) - AWS ParallelCluster

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Lancer des instances avec des blocs de capacité (CB)

AWS ParallelCluster prend en charge les réservations de capacité à la demande (ODCR) et les blocs de capacité (CB) pour le Machine Learning. Contrairement à l'ODCR, le CB peut avoir une future heure de début et est limité dans le temps. Pour plus d'informations sur le lancement avec ODCR, voir Lancer des instances avec des réservations de capacité à la demande (ODCR).

Utiliser CB avec AWS ParallelCluster

Pour configurer vos clusters nouveaux ou existants afin qu'ils utilisent un CB, vous devez d'abord avoir un CB valide sur votre AWS compte. Vous pouvez utiliser le AWS Management Console SDK ou le SDK pour trouver et acheter un CB disponible en suivant la documentation officielle. AWS Command Line Interface Une fois que vous avez un CB valide, vous pouvez définir le nom de ressource Amazon (ARN) du CB et les paramètres associés dans votre fichier AWS ParallelCluster de configuration. Pour plus d'informations, voir Rechercher et acheter des blocs de capacité (CB)

CB dans la configuration du cluster

Pour utiliser un CB pour une file d'attente spécifique, vous devez utiliser le CapacityReservationId paramètre. Configurez-le sur un CB ID existant. Vous pouvez obtenir l'ARN du CB à partir du AWS Management Console ou du SDK que vous avez utilisé pour créer le CB. AWS CLI

Vous devez définir CapacityType = CAPACITY_BLOCK la file d'attente où vous souhaitez utiliser le CB. Réglez-le sur la ressource InstanceType de calcul (le même type d'instance Amazon Elastic Compute Cloud que le CB).

CapacityReservationIdLe moment spécifié au niveau de la ressource de calcul InstanceType est facultatif car il sera automatiquement extrait de la réservation.

Lors de l'utilisationCapacityType = CAPACITY_BLOCK, MaxCount il doit être égal ou supérieur à MinCount 0, car toutes les instances faisant partie de la réservation CB sont gérées comme des nœuds statiques.

Au moment de la création du cluster, le nœud principal attend que tous les nœuds statiques soient prêts avant de signaler le succès de la création du cluster. Toutefois, lors de l'utilisationCapacityType = CAPACITY_BLOCK, les nœuds faisant partie des ressources de calcul associées à ne seront pas pris en compte pour cette vérification. Le cluster sera créé même si tous les éléments configurés ne sont pas actifs.

L'extrait de fichier de configuration suivant indique les paramètres requis à activer dans le fichier de AWS ParallelCluster configuration.

SlurmQueues: - Name: string CapacityType: CAPACITY_BLOCK ComputeResources: - Name: string InstanceType: String (EC2 Instance type of the CB) MinCount: integer (<= total capacity of the CB) MaxCount: integer (equal to MinCount) CapacityReservationTarget: CapacityReservationId: String (CB id)

Comment AWS ParallelCluster utilise les blocs de capacité (CB)

AWS ParallelCluster gère les nœuds statiques associés d'une manière particulière. AWS ParallelCluster crée un cluster même si le CB n'est pas encore actif, et les instances sont lancées automatiquement une fois que le CB est actif.

Le Slurm les nœuds qui correspondent à des ressources de calcul, associés à, mais qui ne sont pas encore actifs, sont maintenus en maintenance jusqu'à ce qu'ils atteignent l'heure de début du CB. Slurm les nœuds restent dans un état de réservation/maintenance et sont associés à l'utilisateur administrateur de slurm. Cela signifie qu'ils peuvent accepter des emplois, mais que ceux-ci restent en vigueur pending jusqu'à ce que la réservation soit supprimée.

AWS ParallelCluster mises à jour automatiques Slurm réserve et met les nœuds CB associés en maintenance (correspondant à l'état du CB). Lorsque le CB est actif, le Slurm la réservation est supprimée, les nœuds démarrent et deviennent disponibles pour les tâches en attente ou pour les nouvelles soumissions de tâches.

Lorsque l'heure de fin du CB est atteinte, les nœuds sont replacés dans une reservation/maintenance state. It’s up to users to resubmit/requeue the jobs to a new queue/compute ressource lorsque le CB n'est plus actif et que les instances sont résiliées.