Aiutaci a migliorare questa pagina
Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Per contribuire a questa guida per l'utente, scegli il GitHub link Modifica questa pagina nel riquadro destro di ogni pagina.
Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Esecuzione di carichi di lavoro di inferenza online in tempo reale su Amazon EKS
Questa sezione è progettata per aiutarti a distribuire e gestire carichi di lavoro di inferenza online in tempo reale su Amazon Elastic Kubernetes Service (EKS). Troverai indicazioni sulla creazione di cluster ottimizzati con nodi accelerati da GPU, sull'integrazione di AWS servizi per lo storage e la scalabilità automatica, sull'implementazione di modelli di esempio per la convalida e su considerazioni architettoniche chiave come il disaccoppiamento delle attività di CPU e GPU, la selezione dei tipi di istanza appropriati AMIs e la garanzia di un'esposizione a bassa latenza degli endpoint di inferenza.