Punti di controllo in Amazon SageMaker - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Punti di controllo in Amazon SageMaker

Usa i checkpoint in Amazon SageMaker per salvare lo stato dei modelli di machine learning (ML) durante la formazione. I checkpoint sono istantanee del modello e possono essere configurati tramite le funzioni di callback dei framework ML. È possibile utilizzare i checkpoint salvati per riavviare un processo di addestramento dall'ultimo checkpoint salvato.

Utilizzando i checkpoint, puoi eseguire le seguenti operazioni:

  • Salvare le istantanee del modello durante l'addestramento a causa di un'interruzione imprevista del processo o dell'istanza di addestramento.

  • Riprendere ad addestrare il modello in futuro da un checkpoint.

  • Analizzare il modello nelle fasi intermedie dell’addestramento.

  • Usa i checkpoint con S3 Express One Zone per aumentare la velocità di accesso.

  • Utilizza i checkpoint con formazione in loco SageMaker gestita per risparmiare sui costi di formazione.

Il SageMaker meccanismo di formazione utilizza contenitori di formazione su EC2 istanze Amazon e i file dei checkpoint vengono salvati in una directory locale dei contenitori (l'impostazione predefinita è/opt/ml/checkpoints). SageMaker fornisce la funzionalità per copiare i checkpoint dal percorso locale ad Amazon S3 e sincronizza automaticamente i checkpoint in quella directory con S3. I checkpoint esistenti in S3 vengono scritti nel SageMaker contenitore all'inizio del processo, consentendo la ripresa dei processi da un checkpoint. I checkpoint aggiunti alla cartella S3 dopo l'avvio del processo non vengono copiati nel contenitore di formazione. SageMaker scrive anche nuovi checkpoint dal contenitore a S3 durante l'addestramento. Se un checkpoint viene eliminato nel SageMaker contenitore, verrà eliminato anche nella cartella S3.

Puoi utilizzare i checkpoint in Amazon SageMaker con la classe di storage Amazon S3 Express One Zone (S3 Express One Zone) per un accesso più rapido ai checkpoint. Quando abiliti il checkpoint e specifichi S3 come destinazione di archiviazione del checkpoint, puoi fornire un S3 URI per una cartella in un bucket S3 URI generico o in un bucket di directory S3. I bucket di directory S3 integrati con SageMaker possono essere crittografati solo con la crittografia lato server con chiavi gestite di Amazon S3 (-S3). SSE La crittografia lato server con chiavi (-) non è attualmente supportata AWS KMS . SSE KMS Per ulteriori informazioni sui bucket di directory S3 Express One Zone e S3, consulta Cos'è S3 Express One Zone.

Se utilizzi checkpoint con formazione in loco SageMaker gestita, SageMaker gestisce il checkpoint dell'addestramento del modello su un'istanza locale e la ripresa del processo di formazione sull'istanza locale successiva. Con la formazione in loco SageMaker gestita, puoi ridurre in modo significativo il tempo fatturabile per l'addestramento dei modelli di machine learning. Per ulteriori informazioni, consulta Formazione Spot gestita in Amazon SageMaker.

Punti di controllo per framework e algoritmi in SageMaker

Usa i checkpoint per salvare istantanee di modelli ML basati sui tuoi framework preferiti all'interno. SageMaker

SageMaker framework e algoritmi che supportano il checkpoint

SageMaker supporta il checkpoint per AWS Deep Learning Containers e un sottoinsieme di algoritmi integrati senza richiedere modifiche agli script di addestramento. SageMaker salva i checkpoint nel percorso locale predefinito '/opt/ml/checkpoints' e li copia su Amazon S3.

Se un algoritmo predefinito che non supporta il checkpoint viene utilizzato in un processo di formazione in loco gestito, SageMaker non consente un tempo massimo di attesa superiore a un'ora per il lavoro al fine di limitare il tempo di formazione sprecato a causa delle interruzioni.

Per i container di addestramento personalizzati e altri framework

Se si utilizzano contenitori di formazione, script di formazione o altri framework non elencati nella sezione precedente, è necessario configurare correttamente lo script di formazione utilizzando callback o training APIs per salvare i checkpoint nel percorso locale ('/opt/ml/checkpoints') e caricarlo dal percorso locale nello script di formazione. SageMaker gli estimatori possono sincronizzarsi con il percorso locale e salvare i checkpoint su Amazon S3.

Considerazioni per il checkpoint

Considerate quanto segue quando utilizzate i checkpoint in. SageMaker

  • Per evitare sovrascritture nell’addestramento distribuito con più istanze, devi configurare manualmente i nomi e i percorsi dei file di checkpoint nello script di addestramento. La configurazione dei SageMaker checkpoint di alto livello specifica una singola posizione Amazon S3 senza suffissi o prefissi aggiuntivi per etichettare i checkpoint da più istanze.

  • SageMaker Python non SDK supporta la configurazione di alto livello per la frequenza dei checkpoint. Per controllare la frequenza dei checkpoint, modifica lo script di addestramento utilizzando le funzioni di salvataggio del modello o i callback dei checkpoint del framework.

  • Se utilizzi SageMaker i checkpoint con SageMaker Debugger e SageMaker distributed e riscontri problemi, consulta le pagine seguenti per la risoluzione dei problemi e le considerazioni.