Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Risoluzione dei problemi relativi alla formazione distribuita in Amazon SageMaker
Se hai problemi nell'esecuzione di un processo di addestramento quando usi la libreria, usa il seguente elenco per provare a risolvere il problema. Se hai bisogno di ulteriore assistenza, contatta il SageMaker team tramite il Centro AWS assistenza
Argomenti
- Utilizzo di dati SageMaker distribuiti in parallelo con Amazon SageMaker Debugger e checkpoint
- Un prefisso inaspettato allegato alle chiavi dei parametri del modello
- SageMaker blocco del processo di formazione distribuito durante l'inizializzazione
- SageMaker lavoro di formazione distribuito che si interrompe alla fine della formazione
- Osservazione del degrado dell'efficienza di scalabilità dovuto ai problemi di throughput di Amazon FSx
- SageMaker lavoro di formazione distribuito PyTorch con avvisi di obsolescenza
Utilizzo di dati SageMaker distribuiti in parallelo con Amazon SageMaker Debugger e checkpoint
Per monitorare i colli di bottiglia del sistema, le operazioni del framework dei profili ed eseguire il debug dei tensori di output del modello per lavori di formazione con dati distribuiti in SageMaker parallelo, usa Amazon Debugger. SageMaker
Tuttavia, quando si utilizzano SageMaker Debugger, distributed SageMaker data parallel e SageMaker checkpoint, è possibile che venga visualizzato un errore simile al seguente esempio.
SMDebug Does Not Currently Support Distributed Training Jobs With Checkpointing Enabled
Ciò è dovuto a un errore interno tra Debugger e checkpoint, che si verifica quando si abilita il parallel dei dati distribuiti SageMaker .
-
Se abiliti tutte e tre le funzionalità, SageMaker Python SDK disattiva automaticamente Debugger passando
debugger_hook_config=False
, il che equivale al seguente esempio di framework.estimator
bucket=sagemaker.Session().default_bucket() base_job_name="sagemaker-checkpoint-test" checkpoint_in_bucket="checkpoints" # The S3 URI to store the checkpoints checkpoint_s3_bucket="s3://{}/{}/{}".format(bucket, base_job_name, checkpoint_in_bucket) estimator = TensorFlow( ... distribution={"smdistributed": {"dataparallel": { "enabled": True }}}, checkpoint_s3_uri=checkpoint_s3_bucket, checkpoint_local_path="/opt/ml/checkpoints", debugger_hook_config=False )
-
Se desideri continuare a utilizzare sia i dati SageMaker distribuiti in parallelo che SageMaker Debugger, una soluzione alternativa consiste nell'aggiungere manualmente le funzioni di checkpointing allo script di addestramento invece di specificare i parametri and dallo stimatore.
checkpoint_s3_uri
checkpoint_local_path
Per ulteriori informazioni sui checkpoint manuali in uno script di addestramento, consulta Salvataggio dei checkpoint.
Un prefisso inaspettato allegato alle chiavi dei parametri del modello
Per i lavori di formazione PyTorch distribuiti, è possibile aggiungere un prefisso imprevisto (ad model
esempio) alle state_dict
chiavi (parametri del modello). La libreria SageMaker data parallel non altera o precede direttamente i nomi dei parametri del modello quando i processi di PyTorch addestramento salvano gli artefatti del modello. La PyTorch formazione distribuita modifica i nomi in modo che vengano trasmessi state_dict
alla rete, anteponendo il prefisso. Se riscontri problemi di errore del modello a causa di nomi di parametri diversi durante l'utilizzo della libreria parallela SageMaker dei dati e del checkpointing per l' PyTorch addestramento, adatta il seguente codice di esempio per rimuovere il prefisso nella fase di caricamento dei checkpoint nello script di addestramento.
state_dict = {k.partition('
model.
')[2]:state_dict[k] for k in state_dict.keys()}
Questo prende ogni chiave state_dict
come valore di stringa, separa la stringa alla prima occorrenza di 'model.'
e prende il terzo elemento dell'elenco (con indice 2) della stringa partizionata.
Per ulteriori informazioni sul problema del prefisso, consultate il thread di discussione in Prefix parameters names in saved model if training by multi-GPU
Per ulteriori informazioni sui PyTorch metodi di salvataggio e caricamento dei modelli, vedere Saving & Loading Model Across Devices
SageMaker blocco del processo di formazione distribuito durante l'inizializzazione
Se il processo di training parallelo dei dati SageMaker distribuiti si blocca durante l'inizializzazione quando si utilizzano istanze abilitate per EFA, ciò potrebbe essere dovuto a un'errata configurazione nel gruppo di sicurezza della sottorete VPC utilizzata per il processo di formazione. EFA richiede una corretta configurazione del gruppo di sicurezza per abilitare il traffico tra i nodi.
Per configurare regole in entrata e in uscita per il gruppo di sicurezza
-
Nel riquadro di navigazione a sinistra, scegli Gruppi di sicurezza.
-
Seleziona il gruppo di sicurezza collegato alla sottorete VPC che usi per l’addestramento.
-
Nella sezione Dettagli, copia l’ID del gruppo di sicurezza.
-
Nella scheda Inbound rules (Regole in entrata), seleziona Edit inbound rules (Modifica regole in entrata).
-
Nella pagina Edit inbound rules (Modifica regole in entrata), esegui queste operazioni:
-
Scegliere Add rule (Aggiungi regola).
-
In Type (Tipo), selezionare All traffic (Tutto il traffico).
-
Per Origine, scegli Personalizzato, incolla l'ID del gruppo di sicurezza nella casella di ricerca e seleziona il gruppo di sicurezza che viene visualizzato.
-
-
Scegli Salva regole per completare la configurazione della regola in entrata per il gruppo di sicurezza.
-
Dalla scheda Regole in uscita, seleziona Modifica regole in uscita.
-
Ripeti i passaggi 6 e 7 per aggiungere la stessa regola di una regola in uscita.
Dopo aver completato i passaggi precedenti per configurare il gruppo di sicurezza con le regole in entrata e in uscita, esegui nuovamente il processo di formazione e verifica se il problema di stallo è stato risolto.
Per ulteriori informazioni sui gruppi di sicurezza per VPC ed EFA, consulta Gruppi di sicurezza per VPC ed Elastic Fabric Adapter.
SageMaker lavoro di formazione distribuito che si interrompe alla fine della formazione
Una delle cause principali dei problemi di stallo al termine dell'addestramento è la mancata corrispondenza nel numero di batch elaborati per epoca nelle diverse classificazioni. Tutti i worker (GPU) sincronizzano i gradienti locali nel passaggio a ritroso per garantire che tutti abbiano la stessa copia del modello al termine dell'iterazione del batch. Se le dimensioni dei lotti vengono assegnate in modo non uniforme ai diversi gruppi di lavoratori durante l'ultima fase dell’addestramento, il processo di addestramento si blocca. Ad esempio, mentre un gruppo di lavoratori (gruppo A) termina l'elaborazione di tutti i batch ed esce dal ciclo di addestramento, un altro gruppo di lavoratori (gruppo B) inizia a elaborare un altro batch e si aspetta comunque che la comunicazione dal gruppo A sincronizzi i gradienti. Ciò fa sì che il gruppo B attenda il gruppo A, che ha già completato l'addestramento e non ha gradienti da sincronizzare.
Pertanto, quando si configura il set di dati di addestramento, è importante che ogni lavoratore riceva lo stesso numero di campioni di dati in modo che ogni lavoratore esegua lo stesso numero di batch durante l'addestramento. Assicurati che ogni livello riceva lo stesso numero di batch per evitare questo problema di blocco.
Osservazione del degrado dell'efficienza di scalabilità dovuto ai problemi di throughput di Amazon FSx
Una potenziale causa della riduzione dell'efficienza di scalabilità è il limite di throughput FSx. Se osservi un calo improvviso dell'efficienza di scalabilità quando passi a un cluster di addestramento più grande, prova a utilizzare un file system FSx for Lustre più grande con un limite di throughput più elevato. Per ulteriori informazioni, consulta Aggregare le prestazioni del file system e Gestione della capacità di archiviazione e di throughput nella Guida per l’utente di Amazon FSx for Lustre.
SageMaker lavoro di formazione distribuito PyTorch con avvisi di obsolescenza
Dalla versione 1.4.0, la libreria di parallelismo dei dati SageMaker distribuiti funziona come backend di distributed. PyTorch A causa dell'importante modifica apportata all'utilizzo della libreria con PyTorch, è possibile che venga visualizzato un messaggio di avviso indicante che le smdistributed
API per il pacchetto distribuito sono obsolete. PyTorch Il messaggio di avviso visualizzato dovrebbe essere simile al seguente:
smdistributed.dataparallel.torch.dist is deprecated in the SageMaker distributed data parallel library v1.4.0+. Please use torch.distributed and specify 'smddp' as a backend when initializing process group as follows: torch.distributed.init_process_group(backend='smddp') For more information, see the library's API documentation at https://docs.aws.amazon.com/sagemaker/latest/dg/data-parallel-modify-sdp-pt.html
Nella versione 1.4.0 e successive, la libreria deve essere importata solo una volta nella parte superiore dello script di formazione e impostata come backend durante l'inizializzazione distribuita. PyTorch Con la singola riga di specifiche del backend, è possibile mantenere invariato lo script di PyTorch formazione e utilizzare direttamente i moduli distribuiti. PyTorch Vedi Usa la SMDDP libreria nel tuo script di allenamento PyTorch per scoprire le ultime modifiche e il nuovo modo di usare la libreria con. PyTorch