Aidez à améliorer cette page
Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Pour contribuer à ce guide de l'utilisateur, cliquez sur le GitHub lien Modifier cette page sur qui se trouve dans le volet droit de chaque page.
Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Exécution de charges de travail d'inférence en ligne en temps réel sur Amazon EKS
Cette section est conçue pour vous aider à déployer et à exploiter des charges de travail d'inférence en ligne en temps réel sur Amazon Elastic Kubernetes Service (EKS). Vous y trouverez des conseils sur la création de clusters optimisés avec des nœuds accélérés par GPU, l'intégration de AWS services de stockage et de mise à l'échelle automatique, le déploiement d'exemples de modèles à des fins de validation, ainsi que des considérations architecturales clés telles que le découplage des tâches du processeur et du processeur graphique, la sélection des types d'instance appropriés AMIs et la garantie d'une exposition à faible latence des points de terminaison d'inférence.