Aidez à améliorer cette page

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Pour contribuer à ce guide de l'utilisateur, cliquez sur le GitHub lien Modifier cette page sur qui se trouve dans le volet droit de chaque page.

Exécution de charges de travail d'inférence en ligne en temps réel sur Amazon EKS

Cette section est conçue pour vous aider à déployer et à exploiter des charges de travail d'inférence en ligne en temps réel sur Amazon Elastic Kubernetes Service (EKS). Vous y trouverez des conseils sur la création de clusters optimisés avec des nœuds accélérés par GPU, l'intégration de AWS services de stockage et de mise à l'échelle automatique, le déploiement d'exemples de modèles à des fins de validation, ainsi que des considérations architecturales clés telles que le découplage des tâches du processeur et du processeur graphique, la sélection des types d'instance appropriés AMIs et la garantie d'une exposition à faible latence des points de terminaison d'inférence.

Rubriques

Guide de configuration de clusters basé sur les meilleures pratiques pour l'inférence en temps réel sur Amazon EKS

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

AI/ML sur EKS

Créer un cluster