Inférence asynchrone - Amazon SageMaker

Inférence asynchrone

L'inférence asynchrone d'Amazon SageMaker est une nouvelle fonctionnalité de SageMaker qui met en file d'attente les requêtes entrantes et les traite de manière asynchrone. Cette option est idéale pour les requêtes avec des charges utiles importantes allant jusqu'à 1 Go, des temps de traitement longs et des exigences de latence quasi en temps réel. L'inférence asynchrone vous permet d'économiser sur les coûts en faisant automatiquement passer le nombre d'instances à zéro lorsqu'il n'y a aucune requête à traiter. Ainsi, vous ne payez que lorsque votre point de terminaison traite les requêtes.

Fonctionnement

La création de points de terminaison d'inférence asynchrone est similaire à la création de points de terminaison d'inférence en temps réel. Vous pouvez utiliser vos modèles SageMaker existants et vous n'avez besoin que de spécifier l'objet AsyncInferenceConfig lors de la création de votre configuration de point de terminaison avec le champ EndpointConfig dans l'API CreateEndpointConfig. Pour appeler ce point de terminaison, vous devez placer la charge utile de la requête dans Amazon S3 et fournir un pointeur sur cette charge utile dans le cadre de la requête InvokeEndpointAsync. Lors de l'appel, SageMaker met en file d'attente la requête de traitement et renvoie un identifiant et un emplacement de sortie en tant que réponse. Lors du traitement, SageMaker place le résultat dans l'emplacement Amazon S3. Vous pouvez choisir de recevoir des notifications de réussite ou d'erreur avec Amazon SNS. Pour plus d'informations sur la configuration des notifications asynchrones, veuillez consulter Vérifier les résultats de la prédiction.

Note

En cas de configuration d'inférence asynchrone (AsyncInferenceConfig) dans la configuration des points de terminaison, le point de terminaison ne peut recevoir que des appels asynchrones.

Comment bénéficier du service ?

Si vous utilisez l'inférence asynchrone d'Amazon SageMaker pour la première fois, nous vous recommandons de procéder comme indiqué ci-dessous :

Notez que si votre point de terminaison utilise l'une des fonctions répertoriées sur la page Exclusions, vous ne pouvez pas utiliser l'inférence asynchrone.