Aiutaci a migliorare questa pagina

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Per contribuire a questa guida per l'utente, scegli il GitHub link Modifica questa pagina nel riquadro destro di ogni pagina.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esecuzione di carichi di lavoro di inferenza online in tempo reale su Amazon EKS

Questa sezione è progettata per aiutarti a distribuire e gestire carichi di lavoro di inferenza online in tempo reale su Amazon Elastic Kubernetes Service (EKS). Troverai indicazioni sulla creazione di cluster ottimizzati con nodi accelerati da GPU, sull'integrazione di AWS servizi per lo storage e la scalabilità automatica, sull'implementazione di modelli di esempio per la convalida e su considerazioni architettoniche chiave come il disaccoppiamento delle attività di CPU e GPU, la selezione dei tipi di istanza appropriati AMIs e la garanzia di un'esposizione a bassa latenza degli endpoint di inferenza.

Argomenti

Guida alle best practice per la configurazione dei cluster per l'inferenza in tempo reale su Amazon EKS

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

AI/ML su EKS

Creazione di un cluster