Configurations de résilience suggérées

Lorsque les contrôles de santé approfondis sont activés, chaque fois qu'une nouvelle instance est ajoutée au HyperPod cluster (soit lors de la création du cluster, soit lors du remplacement automatique des nœuds), la nouvelle instance est soumise au processus de contrôle de santé approfondi (tests de stress au niveau de l'instance) pendant environ deux heures. Voici des combinaisons de configurations de résilience suggérées en fonction des cas possibles.

Cas : lorsque vous disposez de nœuds de réserve supplémentaires au sein d'un cluster en tant que ressources de sauvegarde (sans utiliser la pleine capacité), ou si vous pouvez attendre environ 2 heures pour effectuer le processus de vérification approfondie de l'état des instances afin d'obtenir les instances les moins sujettes aux erreurs.

Recommandation : Activez la configuration du contrôle de santé approfondi tout au long du cycle de vie du cluster. La configuration de restauration automatique des nœuds est activée par défaut.
Cas : lorsque vous ne disposez pas de nœuds de sauvegarde supplémentaires (la capacité est entièrement utilisée pour une partie de la charge d'entraînement). Vous souhaitez obtenir les nœuds de remplacement le plus rapidement possible pour reprendre le travail de formation.

Recommandation : Activez le contrôle de santé approfondi lors de la création du cluster, puis désactivez la configuration du contrôle de santé approfondi une fois le cluster créé. La configuration de restauration automatique du nœud est activée par défaut.
Cas : lorsque vous ne disposez pas de nœuds de sauvegarde supplémentaires et que vous ne souhaitez pas attendre le processus de vérification approfondie de l'état de santé d'environ 2 heures (petits clusters).

Recommandation : désactivez la configuration du contrôle de santé approfondi tout au long du cycle de vie du cluster. La configuration de restauration automatique du nœud est activée par défaut.

Si vous souhaitez reprendre immédiatement la tâche de formation après un échec, assurez-vous de disposer de nœuds de réserve supplémentaires en tant que ressources de sauvegarde dans le cluster.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Mettre en quarantaine, remplacer ou redémarrer manuellement un nœud

UltraServers