Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

Configurations de résilience suggérées

Mode de mise au point
Configurations de résilience suggérées - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Lorsque les contrôles de santé approfondis sont activés, chaque fois qu'une nouvelle instance est ajoutée au HyperPod cluster (soit lors de la création du cluster, soit lors du remplacement automatique des nœuds), la nouvelle instance est soumise au processus de contrôle de santé approfondi (tests de stress au niveau de l'instance) pendant environ deux heures. Voici des combinaisons de configurations de résilience suggérées en fonction des cas possibles.

  1. Cas : lorsque vous disposez de nœuds de réserve supplémentaires au sein d'un cluster en tant que ressources de sauvegarde (sans utiliser la pleine capacité), ou si vous pouvez attendre environ 2 heures pour effectuer le processus de vérification approfondie de l'état des instances afin d'obtenir les instances les moins sujettes aux erreurs.

    Recommandation : Activez la configuration du contrôle de santé approfondi tout au long du cycle de vie du cluster. La configuration de restauration automatique des nœuds est activée par défaut.

  2. Cas : lorsque vous ne disposez pas de nœuds de sauvegarde supplémentaires (la capacité est entièrement utilisée pour une partie de la charge d'entraînement). Vous souhaitez obtenir les nœuds de remplacement le plus rapidement possible pour reprendre le travail de formation.

    Recommandation : Activez le contrôle de santé approfondi lors de la création du cluster, puis désactivez la configuration du contrôle de santé approfondi une fois le cluster créé. La configuration de restauration automatique du nœud est activée par défaut.

  3. Cas : lorsque vous ne disposez pas de nœuds de sauvegarde supplémentaires et que vous ne souhaitez pas attendre le processus de vérification approfondie de l'état de santé d'environ 2 heures (petits clusters).

    Recommandation : désactivez la configuration du contrôle de santé approfondi tout au long du cycle de vie du cluster. La configuration de restauration automatique du nœud est activée par défaut.

Si vous souhaitez reprendre immédiatement la tâche de formation après un échec, assurez-vous de disposer de nœuds de réserve supplémentaires en tant que ressources de sauvegarde dans le cluster.

ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.