Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Etichette Kubernetes relative alla resilienza di SageMaker HyperPod
Le etichette sono coppie chiave-valore allegate agli oggetti Kubernetes
Etichette dello stato di salute dei nodi
Le node-health-status
etichette rappresentano lo stato di salute del nodo e devono essere utilizzate come parte del filtro di selezione dei nodi nei nodi integri.
Etichetta | Descrizione |
---|---|
sagemaker.amazonaws.com/node-health-status:
Schedulable |
Il nodo ha superato i controlli di integrità di base ed è disponibile per l'esecuzione di carichi di lavoro. Questo controllo di integrità è lo stesso delle funzionalità di SageMaker HyperPod resilienza attualmente disponibili per i cluster Slurm. |
sagemaker.amazonaws.com/node-health-status:
Unschedulable |
Il nodo esegue controlli di integrità approfonditi e non è disponibile per l'esecuzione di carichi di lavoro. |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReplacement |
Il nodo non ha superato i controlli approfonditi dello stato o i controlli degli agenti di monitoraggio dello stato e deve essere sostituito. Se il ripristino automatico del nodo è abilitato, il nodo verrà automaticamente sostituito da. SageMaker HyperPod |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReboot |
Il nodo non ha superato i controlli approfonditi dello stato o i controlli degli agenti di monitoraggio dello stato e richiede un riavvio. Se il ripristino automatico del nodo è abilitato, il nodo verrà riavviato automaticamente da. SageMaker HyperPod |
Etichette Deep Health Check
Le deep-health-check-status
etichette rappresentano lo stato di avanzamento del controllo approfondito dello stato di salute su un nodo specifico. Utile per gli utenti di Kubernetes per filtrare rapidamente l'avanzamento dei controlli sanitari approfonditi complessivi.
Etichetta | Descrizione |
---|---|
sagemaker.amazonaws.com/deep-health-check-status:
InProgress |
Il nodo esegue controlli di integrità approfonditi e non è disponibile per l'esecuzione di carichi di lavoro. |
sagemaker.amazonaws.com/deep-health-check-status:
Passed |
Il nodo non ha superato i controlli approfonditi dello stato o i controlli degli agenti di monitoraggio dello stato e deve essere sostituito. Se il ripristino automatico del nodo è abilitato, il nodo verrà automaticamente sostituito da. SageMaker HyperPod |
sagemaker.amazonaws.com/deep-health-check-status:
Failed |
Il nodo non ha superato i controlli approfonditi dello stato o i controlli degli agenti di monitoraggio dello stato e richiede un riavvio o una sostituzione. Se il ripristino automatico del nodo è abilitato, il nodo verrà riavviato automaticamente da. SageMaker HyperPod |
Etichette relative al tipo e al motivo del guasto
Di seguito vengono descritte le fault-reason
etichette fault-type
e.
-
fault-type
le etichette rappresentano categorie di errore di alto livello quando i controlli sanitari falliscono. Queste vengono compilate per gli errori identificati durante i controlli approfonditi degli agenti sia sullo stato che sul monitoraggio dello stato. -
fault-reason
le etichette rappresentano il motivo dettagliato del guasto associato a.fault-type
Come SageMaker HyperPod le etichette
I seguenti argomenti illustrano come viene eseguita l'etichettatura in base ai vari casi.
Argomenti
Quando un nodo viene aggiunto a un SageMaker HyperPod cluster con la configurazione Deep Health Check disattivata
Quando un nuovo nodo viene aggiunto al cluster e se il controllo approfondito dello stato non è abilitato per il gruppo di istanze, SageMaker HyperPod esegue gli stessi controlli di integrità dei controlli di SageMaker HyperPod integrità attualmente disponibili per i cluster Slurm.
Se il controllo di integrità viene superato, i nodi verranno contrassegnati con la seguente etichetta.
sagemaker.amazonaws.com/node-health-status: Schedulable
Se il controllo sanitario non viene superato, i nodi verranno terminati e sostituiti. Questo comportamento è lo stesso del modo in cui funziona il controllo dello stato di SageMaker HyperPod salute per i cluster Slurm.
Quando un nodo viene aggiunto a un SageMaker HyperPod cluster con la configurazione Deep Health Check abilitata
Quando viene aggiunto un nuovo nodo a un SageMaker HyperPod cluster e se il test di controllo approfondito dello stato è abilitato per il gruppo di istanze, HyperPod prima contamina il nodo e avvia il controllo approfondito dello stato e lo stress test di circa 2 ore sul nodo. Ci sono 3 possibili risultati delle etichette dei nodi dopo il controllo approfondito dello stato.
-
Quando il test di controllo approfondito dello stato di salute viene superato
sagemaker.amazonaws.com/node-health-status: Schedulable
-
Quando il test di controllo approfondito fallisce e l'istanza deve essere sostituita
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
-
Quando il test di controllo approfondito fallisce e l'istanza deve essere riavviata per eseguire nuovamente il controllo di integrità approfondito
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
Se un'istanza non supera il test approfondito di integrità, l'istanza verrà sempre sostituita. Se il test di controllo approfondito dello stato di salute ha esito positivo, la contaminazione sul nodo verrà rimossa.
Quando si verificano errori di calcolo sui nodi
L'agente di monitoraggio dello stato di SageMaker HyperPod salute inoltre monitora continuamente lo stato di salute di ciascun nodo. Quando rileva eventuali guasti (ad esempio GPU guasti e crash del driver), l'agente contrassegna il nodo con una delle seguenti etichette.
-
Quando il nodo non è integro e deve essere sostituito
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
-
Quando il nodo non è integro e deve essere riavviato
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
L'agente di monitoraggio dello stato di salute inoltre contamina il nodo quando rileva eventuali problemi di integrità del nodo.