Riferimenti Amazon SageMaker Debugger - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Riferimenti Amazon SageMaker Debugger

Trova ulteriori informazioni e riferimenti sull'uso di Amazon SageMaker Debugger nei seguenti argomenti.

Amazon SageMaker Debugger APIs

Amazon SageMaker Debugger API opera in diverse località che vengono utilizzate per implementare il monitoraggio e l'analisi dell'addestramento dei modelli.

Amazon SageMaker Debugger fornisce anche sagemaker-debuggerPython open source SDK che viene utilizzato per configurare regole integrate, definire regole personalizzate e registrare hook per raccogliere dati tensoriali di output dai lavori di formazione.

Amazon SageMaker Python SDK è un programma di alto livello SDK focalizzato sulla sperimentazione dell'apprendimento automatico. SDKPuò essere utilizzato per implementare regole integrate o personalizzate definite con la libreria SMDebug Python per monitorare e analizzare questi SageMaker tensori utilizzando stimatori.

Debugger ha aggiunto operazioni e tipi ad Amazon SageMaker API che consentono alla piattaforma di utilizzare Debugger durante l'addestramento di un modello e per gestire la configurazione di input e output.

Le API operazioni di configurazione delle regole utilizzano la funzionalità di SageMaker elaborazione durante l'analisi dell'addestramento di un modello. Per ulteriori informazioni sull' SageMaker elaborazione, vedereCarichi di lavoro di trasformazione dei dati con Processing SageMaker .

Immagini Docker per le regole del Debugger

Amazon SageMaker fornisce due set di immagini Docker per le regole: un set per la valutazione delle regole fornite da SageMaker (regole integrate) e un set per la valutazione delle regole personalizzate fornite nei file sorgente di Python.

Se utilizzi Amazon SageMaker Python SDK, puoi semplicemente utilizzare operazioni di Debugger di SageMaker alto livello con API le operazioni SageMaker Estimator, senza dover recuperare manualmente API le immagini del Debugger Docker e configurare il. ConfigureTrainingJob API

Se non stai usando SageMaker PythonSDK, devi recuperare un'immagine base del contenitore precostruita pertinente per le regole del Debugger. Amazon SageMaker Debugger fornisce immagini Docker predefinite per regole integrate e personalizzate e le immagini vengono archiviate in Amazon Elastic Container Registry (Amazon). ECR Per estrarre un'immagine da un ECR repository Amazon (o per inviarne un'immagine a uno), usa il registro URL dei nomi completi dell'immagine utilizzando il CreateTrainingJobAPI. SageMaker utilizza i seguenti URL modelli per l'indirizzo del registro delle immagini del contenitore di regole Debugger.

<account_id>.dkr.ecr.<Region>.amazonaws.com/<ECR repository name>:<tag>

Per l'ID dell'account in ogni AWS regione, il nome del ECR repository Amazon e il valore del tag, consulta i seguenti argomenti.

Immagine Amazon SageMaker Debugger URIs per valutatori di regole integrati

Utilizza i seguenti valori per i componenti del registro URLs per le immagini che forniscono regole integrate per Amazon SageMaker Debugger. Per informazioni sull'accountIDs, consulta la tabella seguente.

ECRNome del repository: sagemaker-debugger-rules

Tag: ultimo

Esempio di registro URL completo:

904829902805.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rules:latest

Account IDs per le immagini del contenitore Built-in Rules per AWS regione

Regione account_id
af-south-1

314341159256

ap-east-1

199566480951

ap-northeast-1

430734990657

ap-northeast-2

578805364391

ap-south-1

904829902805

ap-southeast-1

972752614525

ap-southeast-2

184798709955

ca-central-1

519511493484

cn-north-1

618459771430

cn-northwest-1

658757709296

eu-central-1

482524230118

eu-north-1

314864569078

eu-south-1

563282790590

eu-west-1

929884845733

eu-west-2

250201462417

eu-west-3

447278800020

me-south-1

986000313247

sa-east-1

818342061345

us-east-1

503895931360

us-east-2

915447279597

us-west-1

685455198987

us-west-2

895741380848

us-gov-west-1

515509971035

Immagine Amazon SageMaker Debugger URIs per valutatori di regole personalizzati

Utilizza i seguenti valori per i componenti del registro URL per le immagini che forniscono valutatori di regole personalizzati per Amazon SageMaker Debugger. Per informazioni sull'accountIDs, consulta la tabella seguente.

ECRNome del repository: sagemaker-debugger-rule-evaluator

Tag: ultimo

Esempio di registro URL completo:

552407032007.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rule-evaluator:latest

Account IDs per le immagini del contenitore Custom Rules per AWS regione

Regione account_id
af-south-1

515950693465

ap-east-1

645844755771

ap-northeast-1

670969264625

ap-northeast-2

326368420253

ap-south-1

552407032007

ap-southeast-1

631532610101

ap-southeast-2

445670767460

ca-central-1

105842248657

cn-north-1

617202126805

cn-northwest-1

658559488188

eu-central-1

691764027602

eu-north-1

091235270104

eu-south-1

335033873580

eu-west-1

606966180310

eu-west-2

074613877050

eu-west-3

224335253976

me-south-1

050406412588

sa-east-1

466516958431

us-east-1

864354269164

us-east-2

840043622174

us-west-1

952348334681

us-west-2

759209512951

us-gov-west-1

515361955729

Eccezioni di Amazon SageMaker Debugger

Amazon SageMaker Debugger è progettato per tenere conto del fatto che i tensori necessari per eseguire una regola potrebbero non essere disponibili in ogni fase. Quindi genera alcune eccezioni che ti permettono di controllare cosa succede quando manca un tensore. Queste eccezioni sono disponibili nel modulo smdebug.exceptions. È possibile importarle come segue:

from smdebug.exceptions import *

Sono disponibili le seguenti eccezioni:

  • TensorUnavailableForStep – il tensore richiesto non è disponibile per la fase. Questo potrebbe significare che questa fase potrebbe non essere salvata dall'hook o che questa fase potrebbe aver salvato alcuni tensori ma il tensore richiesto non è parte di essi. Si noti che in presenza di questa eccezione, il questo tensore non può mai diventare disponibile per questa fase in futuro. Se il tensore ha delle riduzioni salvate per la fase, ti avviserà che possono sottoposte a query.

  • TensorUnavailable— Questo tensore non viene salvato o non è stato salvato da. smdebug API Ciò significa che questo tensore non viene mai visto per nessuna fase in smdebug.

  • StepUnavailable – la fase non è stata salvata e Debugger non ha ricevuto dati dalla fase.

  • StepNotYetAvailable – la fase non è stata ancora visualizzata da smdebug. Potrebbe essere disponibile in futuro se l’addestramento è ancora in corso. Debugger carica automaticamente i nuovi dati quando disponibili.

  • NoMoreData – generata alla fine dell’addestramento. Quando viene visualizzata questa eccezione, non ci sono più fasi e non ci sono più tensori da salvare.

  • IndexReaderException – il lettore dell'indice non è valido.

  • InvalidWorker – è stato richiamato un worker che non era valido.

  • RuleEvaluationConditionMet – la valutazione della regola durante la fase ha portato al soddisfacimento della condizione.

  • InsufficientInformationForRuleInvocation – sono state fornite informazioni insufficienti per richiamare la regola.

Formazione distribuita supportata da Amazon SageMaker Debugger

L'elenco seguente mostra l'ambito di validità e le considerazioni per l'utilizzo di Debugger in processi di addestramento con framework di deep learning e varie opzioni di addestramento distribuito.

  • Horovod

    Ambito di validità dell'utilizzo di Debugger per processi di addestramento con Horovod

    Framework Deep Learning Apache MXNet TensorFlow 1.x TensorFlow 2.x TensorFlow 2.x con Keras PyTorch
    Colli di bottiglia di bottiglia del sistema di monitoraggio
    Operazioni del framework di profilazione No No No
    Debug dei tensori di output del modello
  • SageMaker dati distribuiti in parallelo

    Ambito di validità dell'utilizzo di Debugger per lavori di formazione con SageMaker dati distribuiti in parallelo

    Framework Deep Learning TensorFlow 2.x TensorFlow 2.x con Keras PyTorch
    Colli di bottiglia di bottiglia del sistema di monitoraggio
    Operazioni del framework di profilazione No* No**
    Debug dei tensori di output del modello

    * Debugger non supporta la profilazione del framework per 2.x. TensorFlow

    ** SageMaker distributed data parallel non supporta TensorFlow 2.x con l'implementazione Keras.

  • SageMaker modello distribuito parallelo: il debugger non supporta l'addestramento parallelo su SageMaker modelli distribuiti.

  • Formazione distribuita con SageMaker checkpoint: Debugger non è disponibile per i lavori di formazione quando sono abilitati sia l'opzione di formazione distribuita che i checkpoint. SageMaker È possibile che venga visualizzato un errore simile al seguente:

    SMDebug Does Not Currently Support Distributed Training Jobs With Checkpointing Enabled

    Per utilizzare Debugger per lavori di formazione con opzioni di formazione distribuite, è necessario disabilitare il SageMaker checkpointing e aggiungere funzioni di checkpoint manuali allo script di allenamento. Per ulteriori informazioni sull'uso di Debugger con opzioni di addestramento e checkpoint distribuiti, consulta Utilizzo di dati SageMaker distribuiti in parallelo con Amazon SageMaker Debugger e checkpoint e Salvataggio dei checkpoint.

  • Server di parametri: Debugger non supporta l'addestramento distribuito basato su server di parametri.

  • La profilazione delle operazioni del framework di formazione distribuito, come il AllReduced funzionamento parallelo di dati SageMaker distribuiti e le operazioni Horovod, non è disponibile.