Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Types d'instances pour les algorithmes intégrés
La plupart des algorithmes Amazon SageMaker AI ont été conçus pour tirer parti du calcul par GPU à des fins d'entraînement. Malgré des coûts par instance plus élevés, GPUs entraînez-vous plus rapidement, ce qui les rend plus rentables. Les exceptions sont notées dans ce guide.
Pour en savoir plus sur les EC2 instances prises en charge, consultez la section Détails des instances
La taille et le type des données peuvent jouer un rôle important dans la détermination de la configuration du matériel qui est la plus efficace. Lorsqu'un même modèle est entraîné de façon répétée, un test initial sur un éventail de types d'instances peut permettre de découvrir des configurations qui sont plus économiques à long terme. De plus, les algorithmes qui s'entraînent le plus efficacement GPUs peuvent ne pas nécessiter GPUs d'inférence efficace. Faites des tests pour déterminer quelle est la solution la plus rentable. Pour obtenir une recommandation d'instance automatique ou effectuer des tests de charge personnalisés, utilisez Amazon SageMaker Inference Recommender.
Pour plus d'informations sur les spécifications matérielles de l' SageMaker IA, consultez Amazon SageMaker AI ML Instance Types
UltraServers
UltraServers connectez plusieurs EC2 instances Amazon à l'aide d'une interconnexion accélératrice à faible latence et à bande passante élevée. Ils sont conçus pour gérer des AI/ML charges de travail à grande échelle nécessitant une puissance de traitement importante. Pour plus d'informations, consultez Amazon EC2 UltraServers
Pour commencer à utiliser UltraServers Amazon SageMaker AI, créez un plan de formation. Une fois que le vôtre UltraServer est disponible dans le plan de formation, créez un poste de formation avec l' AWS Management Console API Amazon SageMaker AI, ou AWS CLI. N'oubliez pas de spécifier le type d' UltraServer instance que vous avez acheté dans le plan de formation.
An UltraServer peut exécuter une ou plusieurs tâches à la fois. UltraServers regroupe les instances, ce qui vous donne une certaine flexibilité quant à la manière d'allouer vos UltraServer capacités au sein de votre organisation. Lorsque vous configurez vos tâches, n'oubliez pas non plus les directives de sécurité des données de votre organisation, car les instances d'une tâche UltraServer peuvent accéder aux données d'une autre tâche dans une autre instance de la même entreprise UltraServer.
Si vous rencontrez des défaillances matérielles dans le UltraServer, l' SageMaker IA essaie automatiquement de résoudre le problème. Au fur et à mesure que l' SageMaker IA enquête et résout le problème, vous pouvez recevoir des notifications et des actions par le biais d' AWS Health événements ou AWS Support.
Une fois votre tâche de formation terminée, l' SageMaker IA arrête les instances, mais elles restent disponibles dans votre plan de formation si celui-ci est toujours actif. Pour maintenir une instance en UltraServer cours d'exécution après la fin d'une tâche, vous pouvez utiliser des pools de chaleur gérés.
Si la capacité de votre plan de formation est suffisante, vous pouvez même exécuter plusieurs tâches de formation UltraServers. Par défaut, chacune UltraServer est fournie avec 18 instances, dont 17 instances et une instance de rechange. Si vous avez besoin de plus d'instances, vous devez en acheter davantage UltraServers. Lorsque vous créez une tâche de formation, vous pouvez configurer la manière dont les tâches sont réparties à UltraServers l'aide du InstancePlacementConfig
paramètre.
Si vous ne configurez pas le placement, l' SageMaker IA alloue automatiquement les emplois aux instances de votre. UltraServer Cette stratégie par défaut est basée sur le meilleur effort qui donne la priorité au remplissage de toutes les instances en une seule UltraServer avant d'en utiliser une autre. UltraServer Par exemple, si vous demandez 14 instances et que vous en avez 2 UltraServers dans votre plan de formation, SageMaker AI utilise toutes les instances de la première UltraServer. Si vous avez demandé 20 instances et que vous UltraServers en avez 2 dans votre plan de formation, SageMaker AI utilisera les 17 instances dans la première, UltraServer puis en utilisera 3 dans la seconde UltraServer. Les instances au sein d'un UltraServer même NVLink appareil servent à communiquer, mais les individus UltraServers utilisent Elastic Fabric Adapter (EFA), ce qui peut affecter les performances d'entraînement des modèles.