SageMaker HyperPod - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

SageMaker HyperPod

SageMaker HyperPod ti aiuta a fornire cluster resilienti per l'esecuzione di carichi di lavoro di machine learning (ML) e lo sviluppo di state-of-the-art modelli come LLM (Large Language Models), modelli di diffusione e modelli di base (FM). Accelera lo sviluppo di FM eliminando gli oneri indifferenziati legati alla creazione e alla manutenzione di cluster di elaborazione su larga scala alimentati da migliaia di acceleratori come Trainium e NVIDIA A100 e H100 Graphical Processing Unit (GPU). AWS In caso di guasto degli acceleratori, i cluster con riparazione automatica rilevano e sostituiscono immediatamente l'hardware difettoso, in modo che tu possa concentrarti sull'esecuzione dei carichi di lavoro ML per settimane e mesi senza interruzioni. Inoltre, con SageMaker HyperPod, puoi personalizzare il tuo ambiente informatico per adattarlo al meglio alle tue esigenze e configurarlo con le librerie di formazione SageMaker distribuite di Amazon per ottenere prestazioni ottimali su AWS.

Cluster operativi

È possibile creare, configurare e gestire SageMaker HyperPod i cluster graficamente tramite l'interfaccia utente della console (UI) e programmaticamente tramite l'interfaccia a AWS riga di comando (CLI) oppure. AWS SDK for Python (Boto3) Con Amazon VPC, puoi proteggere la rete del cluster e anche trarre vantaggio dalla configurazione del cluster con risorse nel tuo VPC, come Amazon FSx for Lustre, che offre il throughput più veloce. Puoi anche assegnare diversi ruoli IAM ai gruppi di istanze del cluster e limitare le azioni che le risorse e gli utenti del cluster possono eseguire. Per ulteriori informazioni, consulta Operare SageMaker HyperPod.

Configurazione dell'ambiente ML

SageMaker HyperPod viene eseguitoSageMaker HyperPod DLAMI, che configura un ambiente ML sui HyperPod cluster. È possibile configurare personalizzazioni aggiuntive per DLAMI fornendo script del ciclo di vita per supportare il proprio caso d'uso. Per ulteriori informazioni su come configurare gli script del ciclo di vita, consulta e. Guida introduttiva con SageMaker HyperPod SageMaker HyperPod best practice per la configurazione del ciclo di vita

Pianificazione dei lavori

Dopo aver creato correttamente un HyperPod cluster, gli utenti del cluster possono accedere ai nodi del cluster (come il nodo principale o controller, il nodo di accesso e il nodo di lavoro) e pianificare i lavori per l'esecuzione di carichi di lavoro di machine learning. Per ulteriori informazioni, consulta Esegui lavori su SageMaker HyperPod cluster.

Resilienza contro i guasti hardware

SageMaker HyperPod esegue controlli di integrità sui nodi del cluster e fornisce una funzionalità di ripristino automatico del carico di lavoro. Con le funzionalità di resilienza del cluster di HyperPod, puoi riprendere il carico di lavoro dall'ultimo checkpoint salvato, dopo che i nodi difettosi sono stati sostituiti con nodi integri in cluster con più di 16 nodi. Per ulteriori informazioni, consulta SageMaker HyperPod resilienza del cluster.

Registrazione e gestione dei cluster

Puoi trovare i parametri di utilizzo SageMaker HyperPod delle risorse e i log del ciclo di vita in Amazon e gestire le SageMaker HyperPod risorse CloudWatch taggandole. Ogni esecuzione CreateCluster dell'API crea un flusso di log distinto, denominato in base al formato. <cluster-name>-<timestamp> Nel flusso di log, è possibile controllare i nomi degli host, il nome degli script del ciclo di vita non riusciti e gli output degli script non riusciti, ad esempio e. stdout stderr Per ulteriori informazioni, consulta SageMaker HyperPod gestione dei cluster.

Compatibile con gli strumenti SageMaker

Utilizzando SageMaker HyperPod, è possibile configurare cluster con librerie di comunicazioni collettive AWS ottimizzate offerte da SageMaker, come la libreria SageMakerDistributed Data Parallelism (SMDDP). La libreria SMDDP implementa il AllGather funzionamento ottimizzato per l'infrastruttura di AWS calcolo e di rete per le istanze di machine learning più performanti SageMaker basate sulle GPU NVIDIA A100. Per ulteriori informazioni, consulta Esegui carichi di lavoro di formazione distribuiti con Slurm on SageMaker HyperPod.