Déploiement d'un modèle dans Amazon SageMaker - Amazon SageMaker

Déploiement d'un modèle dans Amazon SageMaker

Après avoir entraîné votre modèle de machine learning, vous pouvez le déployer à l'aide d'Amazon SageMaker afin d'obtenir des prédictions de l'une des façons suivantes, selon votre cas d'utilisation :

  • Pour les points de terminaison en temps réel persistants qui font une prédiction à la fois, utilisez les services d'hébergement en temps réel SageMaker. Veuillez consulter Inférence en temps réel.

  • Pour les charges de travail qui ont des périodes d'inactivité entre les pics de trafic et qui peuvent tolérer des démarrages à froid, utilisez Serverless Inference. Veuillez consulter .

  • Pour les demandes avec des charges utiles importantes allant jusqu'à 1 Go, des temps de traitement longs et des exigences de latence en temps quasi réel, utilisez Amazon SageMaker Asynchronous Inference. Veuillez consulter Inférence asynchrone.

  • Pour obtenir des prédictions pour un jeu de données tout entier, utilisez la transformation par lots SageMaker. Veuillez consulter Utilisation de la transformation par lots.

SageMaker propose également des fonctions permettant de gérer les ressources et d'optimiser les performances d'inférence lors du déploiement de modèles de machine learning :

  • Pour gérer les modèles pour dispositifs périphériques afin de vous permettre d'optimiser, de sécuriser, de contrôler et de maintenir des modèles de machine learning sur des flottes de périphériques tels que les caméras intelligentes, les robots, les ordinateurs personnels et les appareils mobiles, consultez Déployer des modèles en périphérie avec SageMaker Edge Manager.

  • Pour optimiser les modèles Gluon, Keras, MXNet, PyTorch, TensorFlow, TensorFlow-Lite et ONNX pour l'inférence sur les machines Android, Linux et Windows basées sur des processeurs Ambarella, ARM, Intel, Nvidia, NXP, Qualcomm, Texas Instruments et Xilinx, consultez Optimisez les performances du modèle avec Neo.

Pour plus d'informations sur l'ensemble de ces options de déploiement, consultez Déployer des modèles pour l'inférence.