Etichette Kubernetes relative alla resilienza di SageMaker HyperPod - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Etichette Kubernetes relative alla resilienza di SageMaker HyperPod

Le etichette sono coppie chiave-valore allegate agli oggetti Kubernetes. SageMaker HyperPod introduce le seguenti etichette per i controlli sanitari che fornisce.

Etichette dello stato di salute dei nodi

Le node-health-status etichette rappresentano lo stato di salute del nodo e devono essere utilizzate come parte del filtro di selezione dei nodi nei nodi integri.

Etichetta Descrizione
sagemaker.amazonaws.com/node-health-status: Schedulable Il nodo ha superato i controlli di integrità di base ed è disponibile per l'esecuzione di carichi di lavoro. Questo controllo di integrità è lo stesso delle funzionalità di SageMaker HyperPod resilienza attualmente disponibili per i cluster Slurm.
sagemaker.amazonaws.com/node-health-status: Unschedulable Il nodo esegue controlli di integrità approfonditi e non è disponibile per l'esecuzione di carichi di lavoro.
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement Il nodo non ha superato i controlli approfonditi dello stato o i controlli degli agenti di monitoraggio dello stato e deve essere sostituito. Se il ripristino automatico del nodo è abilitato, il nodo verrà automaticamente sostituito da. SageMaker HyperPod
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot Il nodo non ha superato i controlli approfonditi dello stato o i controlli degli agenti di monitoraggio dello stato e richiede un riavvio. Se il ripristino automatico del nodo è abilitato, il nodo verrà riavviato automaticamente da. SageMaker HyperPod

Etichette Deep Health Check

Le deep-health-check-status etichette rappresentano lo stato di avanzamento del controllo approfondito dello stato di salute su un nodo specifico. Utile per gli utenti di Kubernetes per filtrare rapidamente l'avanzamento dei controlli sanitari approfonditi complessivi.

Etichetta Descrizione
sagemaker.amazonaws.com/deep-health-check-status: InProgress Il nodo esegue controlli di integrità approfonditi e non è disponibile per l'esecuzione di carichi di lavoro.
sagemaker.amazonaws.com/deep-health-check-status: Passed Il nodo non ha superato i controlli approfonditi dello stato o i controlli degli agenti di monitoraggio dello stato e deve essere sostituito. Se il ripristino automatico del nodo è abilitato, il nodo verrà automaticamente sostituito da. SageMaker HyperPod
sagemaker.amazonaws.com/deep-health-check-status: Failed Il nodo non ha superato i controlli approfonditi dello stato o i controlli degli agenti di monitoraggio dello stato e richiede un riavvio o una sostituzione. Se il ripristino automatico del nodo è abilitato, il nodo verrà riavviato automaticamente da. SageMaker HyperPod

Etichette relative al tipo e al motivo del guasto

Di seguito vengono descritte le fault-reason etichette fault-type e.

  • fault-typele etichette rappresentano categorie di errore di alto livello quando i controlli sanitari falliscono. Queste vengono compilate per gli errori identificati durante i controlli approfonditi degli agenti sia sullo stato che sul monitoraggio dello stato.

  • fault-reasonle etichette rappresentano il motivo dettagliato del guasto associato a. fault-type

Come SageMaker HyperPod le etichette

I seguenti argomenti illustrano come viene eseguita l'etichettatura in base ai vari casi.

Quando un nodo viene aggiunto a un SageMaker HyperPod cluster con la configurazione Deep Health Check disattivata

Quando un nuovo nodo viene aggiunto al cluster e se il controllo approfondito dello stato non è abilitato per il gruppo di istanze, SageMaker HyperPod esegue gli stessi controlli di integrità dei controlli di SageMaker HyperPod integrità attualmente disponibili per i cluster Slurm.

Se il controllo di integrità viene superato, i nodi verranno contrassegnati con la seguente etichetta.

sagemaker.amazonaws.com/node-health-status: Schedulable

Se il controllo sanitario non viene superato, i nodi verranno terminati e sostituiti. Questo comportamento è lo stesso del modo in cui funziona il controllo dello stato di SageMaker HyperPod salute per i cluster Slurm.

Quando un nodo viene aggiunto a un SageMaker HyperPod cluster con la configurazione Deep Health Check abilitata

Quando viene aggiunto un nuovo nodo a un SageMaker HyperPod cluster e se il test di controllo approfondito dello stato è abilitato per il gruppo di istanze, HyperPod prima contamina il nodo e avvia il controllo approfondito dello stato e lo stress test di circa 2 ore sul nodo. Ci sono 3 possibili risultati delle etichette dei nodi dopo il controllo approfondito dello stato.

  1. Quando il test di controllo approfondito dello stato di salute viene superato

    sagemaker.amazonaws.com/node-health-status: Schedulable
  2. Quando il test di controllo approfondito fallisce e l'istanza deve essere sostituita

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  3. Quando il test di controllo approfondito fallisce e l'istanza deve essere riavviata per eseguire nuovamente il controllo di integrità approfondito

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

Se un'istanza non supera il test approfondito di integrità, l'istanza verrà sempre sostituita. Se il test di controllo approfondito dello stato di salute ha esito positivo, la contaminazione sul nodo verrà rimossa.

Quando si verificano errori di calcolo sui nodi

L'agente di monitoraggio dello stato di SageMaker HyperPod salute inoltre monitora continuamente lo stato di salute di ciascun nodo. Quando rileva eventuali guasti (ad esempio GPU guasti e crash del driver), l'agente contrassegna il nodo con una delle seguenti etichette.

  1. Quando il nodo non è integro e deve essere sostituito

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  2. Quando il nodo non è integro e deve essere riavviato

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

L'agente di monitoraggio dello stato di salute inoltre contamina il nodo quando rileva eventuali problemi di integrità del nodo.