Configuration de la mise à l'échelle automatique d'un modèle avec la console - Amazon SageMaker

Configuration de la mise à l'échelle automatique d'un modèle avec la console

Pour configurer la mise à l'échelle automatique d'un modèle à l'aide de la console

  1. Ouvrez la console Amazon SageMaker à l'adresse https://console.aws.amazon.com/sagemaker/.

  2. Dans le volet de navigation, ouvrez Inference, puis choisissez Endpoints (Points de terminaison).

  3. Choisissez le point de terminaison que vous souhaitez configurer.

  4. Pour Paramètres d'exécution de point de terminaison, choisissez la variante de modèle que vous voulez configurer.

  5. Pour Paramètres d'exécution de point de terminaison, choisissez Configurer la scalabilité automatique.

    La page Configurer la scalabilité automatique d'une variante s'affiche.

  6. Pour Minimum capacity (Capacité minimale), saisissez le nombre minimal d'instances que la stratégie de mise à l'échelle doit gérer. Au moins 1 instance est requise.

  7. Pour Maximum capacity (Capacité maximale), saisissez le nombre maximal d'instances que la stratégie de mise à l'échelle doit gérer.

  8. Pour la valeur cible, saisissez le nombre moyen d'appels par instance et par minute pour le modèle. Pour déterminer cette valeur, suivez les instructions proposées dans Test de charge.

    Application Auto Scaling ajoute ou supprime des instances afin de maintenir la métrique proche de la valeur que vous spécifiez.

  9. Pour Scale-in cool down (seconds) (Diminuer le temps de stabilisation (secondes)) et Scale-out cool down (seconds) (Augmenter le temps de stabilisation (secondes)), entrez le nombre de secondes pour chaque temps de stabilisation. En supposant que l'ordre de la liste soit basé sur le plus important au moins important du premier appliqué au dernier appliqué.

  10. Sélectionnez Disable scale in (Désactiver la mise à l'échelle horizontale) pour empêcher la politique de mise à l'échelle de supprimer les instances de variantes si vous voulez vous assurer que vos variantes montent en puissance pour répondre à une augmentation du trafic, mais si vous n'êtes pas concerné par le retrait d'instances dans le but de réduire les coûts lorsque le trafic diminue, désactivez les activités de mise à l'échelle horizontale.

    Les activités de montée en puissance sont toujours activées afin que la politique de mise à l'échelle puisse créer des instances de point de terminaison si nécessaire.

  11. Choisissez Enregistrer.

Cette procédure enregistre un modèle en tant que cible évolutive avec Application Auto Scaling. Lorsque vous enregistrez un modèle, Application Auto Scaling effectue les contrôles de validation pour garantir que :

  • Le modèle existe

  • Les autorisations sont suffisantes

  • Vous n'enregistrez pas une variante avec une instance qui est une instance à performances extensibles comme T2

    Note

    SageMaker ne prend pas en charge la mise à l'échelle automatique des instances à capacité extensible, T2 par exemple, car elles autorisent déjà l'augmentation de capacité en cas d'augmentation des charges de travail. Pour plus d'informations sur les instances aux performances extensibles, consultez Types d'instances Amazon EC2.