Configuration de la mise à l'échelle automatique d'un modèle avec la console

Pour configurer le dimensionnement automatique pour un modèle (console)

Ouvrez la console Amazon SageMaker AI à l'adresse https://console.aws.amazon.com/sagemaker/.
Dans le volet de navigation, choisissez Inference, puis Endpoints.
Choisissez votre point de terminaison, puis pour les paramètres d'exécution du point de terminaison, choisissez la variante.
Choisissez Configurer la scalabilité automatique.
Sur la page Configurer le dimensionnement automatique des variantes, pour le redimensionnement automatique des variantes, procédez comme suit :
1. Dans Nombre minimal d'instances, tapez le nombre minimum d'instances que vous souhaitez que la politique de dimensionnement maintienne. Au moins 1 instance est requise.
2. Dans Nombre maximal d'instances, tapez le nombre maximum d'instances que vous souhaitez que la politique de dimensionnement maintienne.
Pour la politique de dimensionnement intégrée, procédez comme suit :
1. Pour la métrique cible, elle SageMakerVariantInvocationsPerInstance est automatiquement sélectionnée pour la métrique et ne peut pas être modifiée.
2. Pour la valeur cible, saisissez le nombre moyen d'appels par instance et par minute pour le modèle. Pour déterminer cette valeur, suivez les instructions proposées dans Test de charge.
3. (Facultatif) Pour le refroidissement progressif (secondes) et le refroidissement progressif (secondes), entrez la durée, en secondes, pour chaque période de refroidissement.
4. (Facultatif) Sélectionnez Désactiver la mise à l'échelle si vous ne souhaitez pas que le dimensionnement automatique mette fin aux instances lorsque le trafic diminue.
Choisissez Enregistrer.

Cette procédure enregistre un modèle en tant que cible évolutive avec Application Auto Scaling. Lorsque vous enregistrez un modèle, Application Auto Scaling effectue les contrôles de validation pour garantir que :

Le modèle existe
Les autorisations sont suffisantes
Vous n'enregistrez pas une variante avec une instance qui est une instance à performances extensibles comme T2

Note
SageMaker L'IA ne prend pas en charge la mise à l'échelle automatique pour les instances instables telles que T2, car elles permettent déjà d'augmenter la capacité dans le cadre de charges de travail accrues. Pour plus d'informations sur les instances de performance burstable, consultez les types d' EC2 instances Amazon.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Prérequis

Enregistrement d'un modèle

Configuration de la mise à l'échelle automatique d'un modèle avec la console

Pour configurer le dimensionnement automatique pour un modèle (console)

Note