Risorse per iniziare a usare AI/ML Amazon EKS - Amazon EKS

Aiutaci a migliorare questa pagina

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Per contribuire a questa guida per l'utente, scegli il GitHub link Modifica questa pagina nel riquadro destro di ogni pagina.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Risorse per iniziare a usare AI/ML Amazon EKS

Per passare al Machine Learning su EKS, inizia scegliendo tra questi modelli prescrittivi per preparare rapidamente un cluster EKS e un software e hardware ML per iniziare a eseguire carichi di lavoro ML.

Workshop

Workshop sull'intelligenza artificiale generativa su Amazon EKS

Scopri come iniziare a usare le applicazioni e l'inferenza Large Language Model (LLM) su Amazon EKS. Scopri come implementare e gestire carichi di lavoro LLM di livello di produzione. Attraverso laboratori pratici, scoprirai come sfruttare Amazon EKS insieme a AWS servizi e strumenti open source per creare solide soluzioni LLM. L'ambiente del workshop fornisce tutta l'infrastruttura e gli strumenti necessari, consentendoti di concentrarti sull'apprendimento e sull'implementazione.

AI generativa su Amazon EKS con Neuron

Scopri come iniziare a usare le applicazioni e l'inferenza Large Language Model (LLM) su Amazon EKS. Scopri come implementare e gestire carichi di lavoro LLM di livello di produzione, implementare modelli RAG avanzati con database vettoriali e creare applicazioni LLM basate su dati utilizzando framework open source. Attraverso laboratori pratici, scoprirai come sfruttare Amazon EKS insieme a AWS servizi e strumenti open source per creare solide soluzioni LLM. L'ambiente del workshop fornisce tutta l'infrastruttura e gli strumenti necessari, consentendoti di concentrarti sull'apprendimento e sull'implementazione.

Best practice

Gli AI/ML argomenti specifici della guida Amazon EKS Best Practices forniscono consigli dettagliati nelle seguenti aree per ottimizzare i AI/ML carichi di lavoro su Amazon EKS.

Calcolo e scalabilità automatica AI/ML

Questa sezione descrive le best practice per l'ottimizzazione del AI/ML calcolo e della scalabilità automatica in Amazon EKS, concentrandosi sulla gestione delle risorse GPU, sulla resilienza dei nodi e sulla scalabilità delle applicazioni. Fornisce strategie come la pianificazione dei carichi di lavoro con etichette e affinità di nodi note, l'utilizzo di ML Capacity Blocks o On-Demand Capacity Reservations e l'implementazione di controlli dello stato dei nodi con strumenti come EKS Node Monitoring Agent.

Rete AI/ML

Questa sezione descrive le migliori pratiche per ottimizzare la AI/ML rete in Amazon EKS per migliorare le prestazioni e la scalabilità, incluse strategie come la selezione di istanze con una larghezza di banda di rete maggiore o Elastic Fabric Adapter (EFA) per la formazione distribuita, l'installazione di strumenti come MPI e NCCL e l'abilitazione della delega dei prefissi per aumentare gli indirizzi IP e migliorare i tempi di avvio dei pod.

Sicurezza AI/ML

Questa sezione si concentra sulla protezione dell'archiviazione dei dati e sulla garanzia della conformità per i AI/ML carichi di lavoro su Amazon EKS, incluse pratiche come l'utilizzo di Amazon S3 AWS con Key Management Service (KMS) per la crittografia lato server (SSE-KMS), la configurazione di bucket con chiavi KMS regionali e S3 Bucket Keys per ridurre i costi, la concessione di autorizzazioni IAM per azioni KMS come la decrittografia dei pod EKS e il controllo con i log. AWS CloudTrail

Archiviazione AI/ML

Questa sezione fornisce le migliori pratiche per ottimizzare lo storage nei AI/ML carichi di lavoro su Amazon EKS, incluse pratiche come la distribuzione di modelli che utilizzano driver CSI per montare servizi come S3, FSx for Lustre o EFS come Persistent Volumes, la selezione dello storage in base alle esigenze del carico di lavoro (ad esempio, FSx per Lustre per la formazione distribuita con opzioni come Scratch-SSD o Persistent-SSD) e l'abilitazione di funzionalità come la compressione e lo striping dei dati.

Osservabilità AI/ML

Questa sezione si concentra sul monitoraggio e l'ottimizzazione dell'utilizzo della GPU per i AI/ML carichi di lavoro su Amazon EKS per migliorare l'efficienza e ridurre i costi, incluse strategie come l'utilizzo elevato della GPU con strumenti CloudWatch come Container Insights e DCGM-Exporter di NVIDIA integrato con Prometheus e Grafana, e metriche che ti consigliamo di analizzare per i tuoi carichi di lavoro. AI/ML

Prestazioni AI/ML

Questa sezione si concentra sul miglioramento della scalabilità e delle prestazioni delle applicazioni per i AI/ML carichi di lavoro su Amazon EKS attraverso la gestione delle immagini dei container e l'ottimizzazione dell'avvio, incluse pratiche come l'utilizzo di immagini di base piccole e leggere o AWS Deep Learning Containers con build in più fasi, il precaricamento delle immagini tramite snapshot EBS o il preinserimento nella cache di runtime utilizzando o Deployments. DaemonSets

Architetture di riferimento

Esplora questi GitHub repository per architetture di riferimento, codice di esempio e utilità per implementare formazione e inferenza distribuite per carichi di lavoro AI/ML su Amazon EKS e altri servizi. AWS

AWSome Formazione distribuita

Questo repository offre una raccolta di best practice, architetture di riferimento, esempi di formazione su modelli e utilità su cui addestrare modelli di grandi dimensioni. AWS Supporta la formazione distribuita con Amazon EKS, inclusi CloudFormation modelli per cluster EKS, build AMI e container personalizzate, casi di test per framework come PyTorch (DDP/FSDP, MegatronLM NeMo) e JAX e strumenti per la convalida, l'osservabilità e il monitoraggio delle prestazioni come EFA Prometheus exporter e Nvidia Nsight Systems.

AWSome Inferenza

Questo repository fornisce architetture di riferimento e casi di test per ottimizzare le soluzioni di inferenza AWS, con particolare attenzione ad Amazon EKS e alle istanze accelerate. EC2 Include configurazioni di infrastruttura per cluster VPC ed EKS, progetti per framework come NIMs NVIDIA, Tensorrt-LLM, Triton Inference Server e, con esempi per modelli come Llama3-8B e Llama 3.1 405B. RayService Offre implementazioni multinodo che utilizzano K8s LeaderWorkerSet, scalabilità automatica EKS, Multi-Instance GPUs (MIG) e casi d'uso reali come un bot audio per ASR, inferenza e TTS.

Tutorial

Se sei interessato a configurare piattaforme e framework di Machine Learning in EKS, esplora i tutorial descritti in questa sezione. Questi tutorial coprono tutto, dai modelli per utilizzare al meglio i processori GPU alla scelta degli strumenti di modellazione alla creazione di framework per settori specializzati.

Crea piattaforme di intelligenza artificiale generativa su EKS

Esegui framework di intelligenza artificiale generativa specializzati su EKS

Massimizza le prestazioni della GPU NVIDIA per ML su EKS

Esegui carichi di lavoro di codifica video su EKS

Accelera il caricamento delle immagini per i carichi di lavoro di inferenza

Monitoraggio dei carichi di lavoro ML