Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Riferimenti Amazon SageMaker Debugger
Trova ulteriori informazioni e riferimenti sull'uso di Amazon SageMaker Debugger nei seguenti argomenti.
Argomenti
Amazon SageMaker Debugger APIs
Amazon SageMaker Debugger API opera in diverse località che vengono utilizzate per implementare il monitoraggio e l'analisi dell'addestramento dei modelli.
Amazon SageMaker Debugger fornisce anche sagemaker-debugger
Python
Amazon SageMaker Python SDKSMDebug
Python per monitorare e analizzare questi SageMaker tensori utilizzando stimatori.
Debugger ha aggiunto operazioni e tipi ad Amazon SageMaker API che consentono alla piattaforma di utilizzare Debugger durante l'addestramento di un modello e per gestire la configurazione di input e output.
-
CreateTrainingJob
eUpdateTrainingJob
usa il seguente Debugger per configurare raccolte di tensori, regole, immagini di regole e opzioni APIs di profilazione: -
DescribeTrainingJob
fornisce una descrizione completa di un processo di addestramento, incluse le seguenti configurazioni di Debugger e gli stati di valutazione delle regole:
Le API operazioni di configurazione delle regole utilizzano la funzionalità di SageMaker elaborazione durante l'analisi dell'addestramento di un modello. Per ulteriori informazioni sull' SageMaker elaborazione, vedereCarichi di lavoro di trasformazione dei dati con Processing SageMaker .
Immagini Docker per le regole del Debugger
Amazon SageMaker fornisce due set di immagini Docker per le regole: un set per la valutazione delle regole fornite da SageMaker (regole integrate) e un set per la valutazione delle regole personalizzate fornite nei file sorgente di Python.
Se utilizzi Amazon SageMaker Python SDKConfigureTrainingJob
API
Se non stai usando SageMaker PythonSDK, devi recuperare un'immagine base del contenitore precostruita pertinente per le regole del Debugger. Amazon SageMaker Debugger fornisce immagini Docker predefinite per regole integrate e personalizzate e le immagini vengono archiviate in Amazon Elastic Container Registry (Amazon). ECR Per estrarre un'immagine da un ECR repository Amazon (o per inviarne un'immagine a uno), usa il registro URL dei nomi completi dell'immagine utilizzando il CreateTrainingJob
API. SageMaker utilizza i seguenti URL modelli per l'indirizzo del registro delle immagini del contenitore di regole Debugger.
<account_id>.dkr.ecr.<Region>.amazonaws.com/<ECR repository name>:<tag>
Per l'ID dell'account in ogni AWS regione, il nome del ECR repository Amazon e il valore del tag, consulta i seguenti argomenti.
Argomenti
Immagine Amazon SageMaker Debugger URIs per valutatori di regole integrati
Utilizza i seguenti valori per i componenti del registro URLs per le immagini che forniscono regole integrate per Amazon SageMaker Debugger. Per informazioni sull'accountIDs, consulta la tabella seguente.
ECRNome del repository: sagemaker-debugger-rules
Tag: ultimo
Esempio di registro URL completo:
904829902805.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rules:latest
Account IDs per le immagini del contenitore Built-in Rules per AWS regione
Regione | account_id |
---|---|
af-south-1 |
314341159256 |
ap-east-1 |
199566480951 |
ap-northeast-1 |
430734990657 |
ap-northeast-2 |
578805364391 |
ap-south-1 |
904829902805 |
ap-southeast-1 |
972752614525 |
ap-southeast-2 |
184798709955 |
ca-central-1 |
519511493484 |
cn-north-1 |
618459771430 |
cn-northwest-1 |
658757709296 |
eu-central-1 |
482524230118 |
eu-north-1 |
314864569078 |
eu-south-1 |
563282790590 |
eu-west-1 |
929884845733 |
eu-west-2 |
250201462417 |
eu-west-3 |
447278800020 |
me-south-1 |
986000313247 |
sa-east-1 |
818342061345 |
us-east-1 |
503895931360 |
us-east-2 |
915447279597 |
us-west-1 |
685455198987 |
us-west-2 |
895741380848 |
us-gov-west-1 |
515509971035 |
Immagine Amazon SageMaker Debugger URIs per valutatori di regole personalizzati
Utilizza i seguenti valori per i componenti del registro URL per le immagini che forniscono valutatori di regole personalizzati per Amazon SageMaker Debugger. Per informazioni sull'accountIDs, consulta la tabella seguente.
ECRNome del repository: sagemaker-debugger-rule-evaluator
Tag: ultimo
Esempio di registro URL completo:
552407032007.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rule-evaluator:latest
Account IDs per le immagini del contenitore Custom Rules per AWS regione
Regione | account_id |
---|---|
af-south-1 |
515950693465 |
ap-east-1 |
645844755771 |
ap-northeast-1 |
670969264625 |
ap-northeast-2 |
326368420253 |
ap-south-1 |
552407032007 |
ap-southeast-1 |
631532610101 |
ap-southeast-2 |
445670767460 |
ca-central-1 |
105842248657 |
cn-north-1 |
617202126805 |
cn-northwest-1 |
658559488188 |
eu-central-1 |
691764027602 |
eu-north-1 |
091235270104 |
eu-south-1 |
335033873580 |
eu-west-1 |
606966180310 |
eu-west-2 |
074613877050 |
eu-west-3 |
224335253976 |
me-south-1 |
050406412588 |
sa-east-1 |
466516958431 |
us-east-1 |
864354269164 |
us-east-2 |
840043622174 |
us-west-1 |
952348334681 |
us-west-2 |
759209512951 |
us-gov-west-1 |
515361955729 |
Eccezioni di Amazon SageMaker Debugger
Amazon SageMaker Debugger è progettato per tenere conto del fatto che i tensori necessari per eseguire una regola potrebbero non essere disponibili in ogni fase. Quindi genera alcune eccezioni che ti permettono di controllare cosa succede quando manca un tensore. Queste eccezioni sono disponibili nel modulo smdebug.exceptions
from smdebug.exceptions import *
Sono disponibili le seguenti eccezioni:
-
TensorUnavailableForStep
– il tensore richiesto non è disponibile per la fase. Questo potrebbe significare che questa fase potrebbe non essere salvata dall'hook o che questa fase potrebbe aver salvato alcuni tensori ma il tensore richiesto non è parte di essi. Si noti che in presenza di questa eccezione, il questo tensore non può mai diventare disponibile per questa fase in futuro. Se il tensore ha delle riduzioni salvate per la fase, ti avviserà che possono sottoposte a query. -
TensorUnavailable
— Questo tensore non viene salvato o non è stato salvato da.smdebug
API Ciò significa che questo tensore non viene mai visto per nessuna fase insmdebug
. -
StepUnavailable
– la fase non è stata salvata e Debugger non ha ricevuto dati dalla fase. -
StepNotYetAvailable
– la fase non è stata ancora visualizzata dasmdebug
. Potrebbe essere disponibile in futuro se l’addestramento è ancora in corso. Debugger carica automaticamente i nuovi dati quando disponibili. -
NoMoreData
– generata alla fine dell’addestramento. Quando viene visualizzata questa eccezione, non ci sono più fasi e non ci sono più tensori da salvare. -
IndexReaderException
– il lettore dell'indice non è valido. -
InvalidWorker
– è stato richiamato un worker che non era valido. -
RuleEvaluationConditionMet
– la valutazione della regola durante la fase ha portato al soddisfacimento della condizione. -
InsufficientInformationForRuleInvocation
– sono state fornite informazioni insufficienti per richiamare la regola.
Formazione distribuita supportata da Amazon SageMaker Debugger
L'elenco seguente mostra l'ambito di validità e le considerazioni per l'utilizzo di Debugger in processi di addestramento con framework di deep learning e varie opzioni di addestramento distribuito.
-
Horovod
Ambito di validità dell'utilizzo di Debugger per processi di addestramento con Horovod
Framework Deep Learning Apache MXNet TensorFlow 1.x TensorFlow 2.x TensorFlow 2.x con Keras PyTorch Colli di bottiglia di bottiglia del sistema di monitoraggio Sì Sì Sì Sì Sì Operazioni del framework di profilazione No No No Sì Sì Debug dei tensori di output del modello Sì Sì Sì Sì Sì -
SageMaker dati distribuiti in parallelo
Ambito di validità dell'utilizzo di Debugger per lavori di formazione con SageMaker dati distribuiti in parallelo
Framework Deep Learning TensorFlow 2.x TensorFlow 2.x con Keras PyTorch Colli di bottiglia di bottiglia del sistema di monitoraggio Sì Sì Sì Operazioni del framework di profilazione No* No** Sì Debug dei tensori di output del modello Sì Sì Sì * Debugger non supporta la profilazione del framework per 2.x. TensorFlow
** SageMaker distributed data parallel non supporta TensorFlow 2.x con l'implementazione Keras.
-
SageMaker modello distribuito parallelo: il debugger non supporta l'addestramento parallelo su SageMaker modelli distribuiti.
-
Formazione distribuita con SageMaker checkpoint: Debugger non è disponibile per i lavori di formazione quando sono abilitati sia l'opzione di formazione distribuita che i checkpoint. SageMaker È possibile che venga visualizzato un errore simile al seguente:
SMDebug Does Not Currently Support Distributed Training Jobs With Checkpointing Enabled
Per utilizzare Debugger per lavori di formazione con opzioni di formazione distribuite, è necessario disabilitare il SageMaker checkpointing e aggiungere funzioni di checkpoint manuali allo script di allenamento. Per ulteriori informazioni sull'uso di Debugger con opzioni di addestramento e checkpoint distribuiti, consulta Utilizzo di dati SageMaker distribuiti in parallelo con Amazon SageMaker Debugger e checkpoint e Salvataggio dei checkpoint.
-
Server di parametri: Debugger non supporta l'addestramento distribuito basato su server di parametri.
-
La profilazione delle operazioni del framework di formazione distribuito, come il
AllReduced
funzionamento parallelo di dati SageMaker distribuiti e le operazioni Horovod, non è disponibile.