Aiutaci a migliorare questa pagina
Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Per contribuire a questa guida per l'utente, scegli il GitHub link Modifica questa pagina nel riquadro destro di ogni pagina.
Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Risorse per iniziare a usare AI/ML Amazon EKS
Per passare al Machine Learning su EKS, inizia scegliendo tra questi modelli prescrittivi per preparare rapidamente un cluster EKS e un software e hardware ML per iniziare a eseguire carichi di lavoro ML.
Workshop
Workshop sull'intelligenza artificiale generativa su Amazon EKS
Scopri come iniziare a usare le applicazioni e l'inferenza Large Language Model (LLM) su Amazon EKS. Scopri come implementare e gestire carichi di lavoro LLM di livello di produzione. Attraverso laboratori pratici, scoprirai come sfruttare Amazon EKS insieme a AWS servizi e strumenti open source per creare solide soluzioni LLM. L'ambiente del workshop fornisce tutta l'infrastruttura e gli strumenti necessari, consentendoti di concentrarti sull'apprendimento e sull'implementazione.
AI generativa su Amazon EKS con Neuron
Scopri come iniziare a usare le applicazioni e l'inferenza Large Language Model (LLM) su Amazon EKS. Scopri come implementare e gestire carichi di lavoro LLM di livello di produzione, implementare modelli RAG avanzati con database vettoriali e creare applicazioni LLM basate su dati utilizzando framework open source. Attraverso laboratori pratici, scoprirai come sfruttare Amazon EKS insieme a AWS servizi e strumenti open source per creare solide soluzioni LLM. L'ambiente del workshop fornisce tutta l'infrastruttura e gli strumenti necessari, consentendoti di concentrarti sull'apprendimento e sull'implementazione.
Best practice
Gli AI/ML argomenti specifici della guida Amazon EKS Best Practices forniscono consigli dettagliati nelle seguenti aree per ottimizzare i AI/ML carichi di lavoro su Amazon EKS.
Calcolo e scalabilità automatica AI/ML
Questa sezione descrive le best practice per l'ottimizzazione del AI/ML calcolo e della scalabilità automatica in Amazon EKS, concentrandosi sulla gestione delle risorse GPU, sulla resilienza dei nodi e sulla scalabilità delle applicazioni. Fornisce strategie come la pianificazione dei carichi di lavoro con etichette e affinità di nodi note, l'utilizzo di ML Capacity Blocks o On-Demand Capacity Reservations e l'implementazione di controlli dello stato dei nodi con strumenti come EKS Node Monitoring Agent.
Rete AI/ML
Questa sezione descrive le migliori pratiche per ottimizzare la AI/ML rete in Amazon EKS per migliorare le prestazioni e la scalabilità, incluse strategie come la selezione di istanze con una larghezza di banda di rete maggiore o Elastic Fabric Adapter (EFA) per la formazione distribuita, l'installazione di strumenti come MPI e NCCL e l'abilitazione della delega dei prefissi per aumentare gli indirizzi IP e migliorare i tempi di avvio dei pod.
Sicurezza AI/ML
Questa sezione si concentra sulla protezione dell'archiviazione dei dati e sulla garanzia della conformità per i AI/ML carichi di lavoro su Amazon EKS, incluse pratiche come l'utilizzo di Amazon S3 AWS con Key Management Service (KMS) per la crittografia lato server (SSE-KMS), la configurazione di bucket con chiavi KMS regionali e S3 Bucket Keys per ridurre i costi, la concessione di autorizzazioni IAM per azioni KMS come la decrittografia dei pod EKS e il controllo con i log. AWS CloudTrail
Archiviazione AI/ML
Questa sezione fornisce le migliori pratiche per ottimizzare lo storage nei AI/ML carichi di lavoro su Amazon EKS, incluse pratiche come la distribuzione di modelli che utilizzano driver CSI per montare servizi come S3, FSx for Lustre o EFS come Persistent Volumes, la selezione dello storage in base alle esigenze del carico di lavoro (ad esempio, FSx per Lustre per la formazione distribuita con opzioni come Scratch-SSD o Persistent-SSD) e l'abilitazione di funzionalità come la compressione e lo striping dei dati.
Osservabilità AI/ML
Questa sezione si concentra sul monitoraggio e l'ottimizzazione dell'utilizzo della GPU per i AI/ML carichi di lavoro su Amazon EKS per migliorare l'efficienza e ridurre i costi, incluse strategie come l'utilizzo elevato della GPU con strumenti CloudWatch come Container Insights e DCGM-Exporter di NVIDIA integrato con Prometheus e Grafana, e metriche che ti consigliamo di analizzare per i tuoi carichi di lavoro. AI/ML
Prestazioni AI/ML
Questa sezione si concentra sul miglioramento della scalabilità e delle prestazioni delle applicazioni per i AI/ML carichi di lavoro su Amazon EKS attraverso la gestione delle immagini dei container e l'ottimizzazione dell'avvio, incluse pratiche come l'utilizzo di immagini di base piccole e leggere o AWS Deep Learning Containers con build in più fasi, il precaricamento delle immagini tramite snapshot EBS o il preinserimento nella cache di runtime utilizzando o Deployments. DaemonSets
Architetture di riferimento
Esplora questi GitHub repository per architetture di riferimento, codice di esempio e utilità per implementare formazione e inferenza distribuite per carichi di lavoro AI/ML su Amazon EKS e altri servizi. AWS
AWSome Formazione distribuita
Questo repository offre una raccolta di best practice, architetture di riferimento, esempi di formazione su modelli e utilità su cui addestrare modelli di grandi dimensioni. AWS Supporta la formazione distribuita con Amazon EKS, inclusi CloudFormation modelli per cluster EKS, build AMI e container personalizzate, casi di test per framework come PyTorch (DDP/FSDP, MegatronLM NeMo) e JAX e strumenti per la convalida, l'osservabilità e il monitoraggio delle prestazioni come EFA Prometheus exporter e Nvidia Nsight Systems.
AWSome Inferenza
Questo repository fornisce architetture di riferimento e casi di test per ottimizzare le soluzioni di inferenza AWS, con particolare attenzione ad Amazon EKS e alle istanze accelerate. EC2 Include configurazioni di infrastruttura per cluster VPC ed EKS, progetti per framework come NIMs NVIDIA, Tensorrt-LLM, Triton Inference Server e, con esempi per modelli come Llama3-8B e Llama 3.1 405B. RayService Offre implementazioni multinodo che utilizzano K8s LeaderWorkerSet, scalabilità automatica EKS, Multi-Instance GPUs (MIG) e casi d'uso reali come un bot audio per ASR, inferenza e TTS.
Tutorial
Se sei interessato a configurare piattaforme e framework di Machine Learning in EKS, esplora i tutorial descritti in questa sezione. Questi tutorial coprono tutto, dai modelli per utilizzare al meglio i processori GPU alla scelta degli strumenti di modellazione alla creazione di framework per settori specializzati.
Crea piattaforme di intelligenza artificiale generativa su EKS
Esegui framework di intelligenza artificiale generativa specializzati su EKS
Massimizza le prestazioni della GPU NVIDIA per ML su EKS
-
Implementa la condivisione della GPU per utilizzare in modo efficiente NVIDIA GPUs per i tuoi cluster EKS:
Condivisione di GPU su Amazon EKS con istanze NVIDIA time-slicing e accelerate EC2
-
Usa i microservizi Multi-Instance GPUs (MIGs) e NIM per eseguire più pod per GPU sui tuoi cluster EKS:
-
Crea e distribuisci un sistema di machine learning scalabile su Kubernetes con Kubeflow su AWS