Aidez à améliorer cette page
Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Pour contribuer à ce guide de l'utilisateur, cliquez sur le GitHub lien Modifier cette page sur qui se trouve dans le volet droit de chaque page.
Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Ressources pour démarrer AI/ML sur Amazon EKS
Pour vous lancer dans le Machine Learning sur EKS, commencez par choisir parmi ces modèles prescriptifs afin de préparer rapidement un cluster EKS ainsi que des logiciels et du matériel ML à exécuter des charges de travail ML.
Ateliers
Atelier EKS sur l'IA générative sur Amazon
Découvrez comment démarrer avec les applications LLM (Large Language Model) et l'inférence sur Amazon EKS. Découvrez comment déployer et gérer des charges de travail LLM de niveau production. Dans le cadre d'ateliers pratiques, vous découvrirez comment tirer parti d'Amazon EKS ainsi que des AWS services et des outils open source pour créer des solutions LLM robustes. L'environnement de l'atelier fournit toutes les infrastructures et tous les outils nécessaires, vous permettant de vous concentrer sur l'apprentissage et la mise en œuvre.
IA générative sur Amazon EKS à l'aide de Neuron
Découvrez comment démarrer avec les applications LLM (Large Language Model) et l'inférence sur Amazon EKS. Découvrez comment déployer et gérer des charges de travail LLM de niveau production, implémenter des modèles RAG avancés avec des bases de données vectorielles et créer des applications LLM basées sur des données à l'aide de frameworks open source. Dans le cadre d'ateliers pratiques, vous découvrirez comment tirer parti d'Amazon EKS ainsi que des AWS services et des outils open source pour créer des solutions LLM robustes. L'environnement de l'atelier fournit toutes les infrastructures et tous les outils nécessaires, vous permettant de vous concentrer sur l'apprentissage et la mise en œuvre.
Bonnes pratiques
Les AI/ML rubriques spécifiques du guide des meilleures pratiques Amazon EKS fournissent des recommandations détaillées dans les domaines suivants pour optimiser vos AI/ML charges de travail sur Amazon EKS.
Calcul AI/ML et mise à l'échelle automatique
Cette section décrit les meilleures pratiques pour optimiser le AI/ML calcul et le dimensionnement automatique dans Amazon EKS, en se concentrant sur la gestion des ressources GPU, la résilience des nœuds et le dimensionnement des applications. Il propose des stratégies telles que la planification des charges de travail avec des étiquettes et une affinité de nœuds bien connues, l'utilisation de blocs de capacité ML ou de réservations de capacité à la demande, et la mise en œuvre de contrôles de santé des nœuds à l'aide d'outils tels que l'agent de surveillance des nœuds EKS.
Mise en réseau AI/ML
Cette section décrit les meilleures pratiques pour optimiser le AI/ML réseau dans Amazon EKS afin d'améliorer les performances et l'évolutivité, notamment des stratégies telles que la sélection d'instances dotées d'une bande passante réseau plus élevée ou d'Elastic Fabric Adapter (EFA) pour la formation distribuée, l'installation d'outils tels que MPI et NCCL, et l'activation de la délégation de préfixes pour augmenter le nombre d'adresses IP et améliorer les temps de lancement des pods.
Sécurité de l'IA et du ML
Cette section se concentre sur la sécurisation du stockage des données et la garantie de la conformité des AI/ML charges de travail sur Amazon EKS, notamment des pratiques telles que l'utilisation d'Amazon S3 avec AWS Key Management Service (KMS) pour le chiffrement côté serveur (SSE-KMS), la configuration de compartiments avec des clés KMS régionales et des clés de compartiment S3 pour réduire les coûts, l'octroi d'autorisations IAM pour les actions KMS telles que le déchiffrement des pods EKS et l'audit avec des journaux. AWS CloudTrail
Stockage AI/ML
Cette section décrit les meilleures pratiques pour optimiser le stockage dans les AI/ML charges de travail sur Amazon EKS, notamment le déploiement de modèles utilisant des pilotes CSI pour monter des services tels que S3, FSx pour Lustre ou EFS sous forme de volumes persistants, la sélection du stockage en fonction des besoins de charge de travail (par exemple, FSx pour Lustre pour la formation distribuée avec des options telles que Scratch-SSD ou Persistent-SSD) et l'activation de fonctionnalités telles que la compression et le découpage des données.
Observabilité de l'AI/ML
Cette section se concentre sur la surveillance et l'optimisation de l'utilisation du GPU pour les AI/ML charges de travail sur Amazon EKS afin d'améliorer l'efficacité et de réduire les coûts, notamment des stratégies telles que le ciblage d'une utilisation élevée du GPU avec des outils tels que CloudWatch Container Insights et l'exportateur DCGM de NVIDIA intégré à Prometheus et Grafana, ainsi que des indicateurs que nous vous recommandons d'analyser pour vos charges de travail. AI/ML
Performances d'IA et d'apprentissage automatique
Cette section se concentre sur l'amélioration de la mise à l'échelle et des performances des applications pour les AI/ML charges de travail sur Amazon EKS grâce à la gestion des images de conteneur et à l'optimisation du démarrage, y compris des pratiques telles que l'utilisation de petites images de base légères ou de AWS Deep Learning Containers avec des versions en plusieurs étapes, le préchargement d'images via des instantanés EBS ou le pré-extraction dans le cache d'exécution à l'aide de déploiements. DaemonSets
Architectures de référence
Explorez ces GitHub référentiels pour trouver des architectures de référence, des exemples de code et des utilitaires permettant de mettre en œuvre une formation distribuée et une inférence pour les charges de AI/ML travail sur Amazon EKS et d'autres services. AWS
AWSome Formation distribuée
Ce référentiel propose un ensemble de bonnes pratiques, d'architectures de référence, d'exemples de formation de modèles et d'utilitaires pour l'entraînement de grands modèles AWS. Il prend en charge la formation distribuée avec Amazon EKS, notamment des CloudFormation modèles pour les clusters EKS, des versions personnalisées d'AMI et de conteneurs, des scénarios de test pour des frameworks tels que PyTorch (DDP/FSDP, MegatronLM NeMo) et JAX, ainsi que des outils de validation, d'observabilité et de surveillance des performances tels que EFA Prometheus Exporter et Nvidia Nsight Systems.
AWSome Inférence
Ce référentiel fournit des architectures de référence et des cas de test pour optimiser les solutions d'inférence AWS, en mettant l'accent sur Amazon EKS et les EC2 instances accélérées. Il inclut des configurations d'infrastructure pour les clusters VPC et EKS, des projets pour des frameworks tels que NIMs NVIDIA, TensorRT-LLM, Triton Inference Server et, avec des exemples pour des modèles tels que Llama3-8B RayService et Llama 3.1 405B. Propose des déploiements multi-nœuds utilisant K8s LeaderWorkerSet, l'autoscaling d'EKS, le multi-instance GPUs (MIG) et des cas d'utilisation réels tels qu'un bot audio pour l'ASR, l'inférence et le TTS.
Didacticiels
Si vous souhaitez configurer des plateformes et des frameworks de Machine Learning dans EKS, consultez les didacticiels décrits dans cette section. Ces didacticiels couvrent tout, des modèles permettant d'utiliser au mieux les processeurs GPU au choix des outils de modélisation en passant par la création de frameworks pour des industries spécialisées.
Créez des plateformes d'IA génératives sur EKS
Exécutez des frameworks d'IA générative spécialisés sur EKS
Optimisez les performances du GPU NVIDIA pour le ML sur EKS
-
Mettez en œuvre le partage de GPU pour utiliser efficacement NVIDIA GPUs pour vos clusters EKS :
Partage de GPU sur Amazon EKS avec le découpage temporel et les instances accélérées NVIDIA EC2
-
Utilisez les microservices Multi-Instance GPUs (MIGs) et NIM pour exécuter plus de pods par GPU sur vos clusters EKS :