Bonnes pratiques pour le déploiement de modèles sur les services d'hébergement SageMaker - Amazon SageMaker

Bonnes pratiques pour le déploiement de modèles sur les services d'hébergement SageMaker

Lors de l'hébergement de modèles à l'aide des services d'hébergement SageMaker, prenez en considération les éléments suivants :

  • En règle générale, une application client envoie des demandes au point de terminaison HTTPS SageMaker pour obtenir des inférences à partir d'un modèle déployé. Vous pouvez également envoyer des demandes à ce point de terminaison à partir de votre bloc-notes Jupyter pendant les tests.

  • Vous pouvez déployer un modèle entraîné avec SageMaker sur votre propre cible de déploiement. Pour ce faire, vous devez connaître le format d'algorithme spécifique des artefacts de modèle qui ont été générés par l'entraînement du modèle. Pour plus d'informations sur les formats de sortie, consultez la section correspondant à l'algorithme que vous utilisez dans Formats de données courants pour l'entraînement.

  • Vous pouvez déployer plusieurs variantes d'un modèle sur le même point de terminaison HTTPS SageMaker. Ceci est utile pour tester les variations d'un modèle en production. Supposons, par exemple, que vous avez déployé un modèle en production. Vous souhaitez tester une variation de ce modèle en dirigeant une petite quantité de trafic, disons 5 %, vers le nouveau modèle. Pour ce faire, créez une configuration de point de terminaison qui décrit les deux variantes du modèle. Vous spécifiez la variante ProductionVariant dans votre demande de configuration CreateEndPointConfig. Pour de plus amples informations, veuillez consulter ProductionVariant.

  • Vous pouvez configurer une ProductionVariant pour qu'elle utilise Application Auto Scaling. Pour plus d'informations sur la configuration de la mise à l'échelle automatique, consultez Scalabilité automatique des modèles Amazon SageMaker.

  • Vous pouvez modifier un point de terminaison sans mettre hors service les modèles qui sont déjà déployés en production. Par exemple, vous pouvez ajouter de nouvelles variantes au modèle, mettre à jour les configurations d'instance de calcul ML de variantes de modèle existantes ou modifier la répartition du trafic entre les variantes de modèle. Pour modifier un point de terminaison, vous devez fournir une nouvelle configuration de point de terminaison. SageMaker applique les modifications sans temps d'arrêt. Pour plus d'informations, veuillez consulter UpdateEndpoint et UpdateEndpointWeightsAndCapacities.

  • La modification ou la suppression d'artefacts de modèle ou la modification de code d'inférence après le déploiement d'un modèle entraîne des résultats imprévisibles. Si vous avez besoin de modifier ou de supprimer des artefacts de modèle ou de modifier du code d'inférence, modifiez le point de terminaison en fournissant une nouvelle configuration de point de terminaison. Après avoir fourni la nouvelle configuration de point de terminaison, vous pouvez modifier ou supprimer les artefacts de modèle qui correspondent à l'ancienne configuration de point de terminaison.

  • Si vous souhaitez obtenir des inférences sur des ensembles de données entiers, pensez à utiliser la transformation par lots comme équivalent aux services d'hébergement. Pour de plus amples informations, veuillez consulter Obtenir des inférences pour un ensemble de données tout entier à l'aide de la transformation par lots