Ressources pour utiliser le serveur d'inférence Triton avec Amazon SageMaker

SageMaker permet aux clients de déployer un modèle à l'aide d'un code personnalisé avec NVIDIA Triton Inference Server. Utilisez les ressources suivantes pour savoir comment utiliser le serveur d'inférence Triton avec. SageMaker

Pour accéder à cette fonctionnalité, développez Triton Inference Server Containers (Conteneurs de serveur d'inférence Triton). Ces conteneurs incluent le serveur d'inférence NVIDIA Triton, la prise en charge des frameworks ML courants et des variables d'environnement utiles qui vous permettent d'optimiser les performances. SageMaker Pour obtenir la liste des images de conteneurs Deep Learning Containers disponibles, veuillez consulter Available Deep Learning Containers Images. Ces images de conteneurs Deep Learning Containers sont conservées et régulièrement mises à jour avec des correctifs de sécurité.

Vous pouvez utiliser le conteneur du serveur d'inférence Triton avec SageMaker Python SDK comme n'importe quel autre conteneur dans vos SageMaker modèles. Cependant, l'utilisation du SageMaker Python SDK est facultative. Vous pouvez utiliser les conteneurs du serveur d'inférence Triton avec et. AWS CLI AWS SDK for Python (Boto3)

Pour plus d'informations sur le serveur d'inférence NVIDIA Triton, consultez la documentation Triton.

Inférence

Note

Le backend Triton Python utilise la mémoire partagée (SHMEM) pour connecter votre code à Triton. SageMaker L'inférence fournit jusqu'à la moitié de la mémoire de l'instance, de SHMEM sorte que vous pouvez utiliser une instance avec plus de mémoire pour une plus grande SHMEM taille.

À des fins d'inférence, vous pouvez utiliser vos modèles de machine learning entraînés avec Triton Inference Server pour déployer une tâche d'inférence avec. SageMaker

Voici quelques fonctions clés du conteneur de serveur d'inférence Triton :

Prise en charge de plusieurs cadres : Triton peut être utilisé pour déployer des modèles à partir de tous les principaux frameworks de ML. Triton prend en charge TensorFlow GraphDef et SavedModel, ONNX PyTorch TorchScript, TensorRT et les formats de modèles Python/C++ personnalisés.
Pipelines de modèles : l'ensemble des modèles Triton représente un pipeline d'un modèle avec une logique de pré/post-traitement et la connexion des tenseurs d'entrée et de sortie entre eux. Une seule demande d'inférence à un ensemble déclenche l'exécution du pipeline entier.
Exécution simultanée du modèle : plusieurs instances du même modèle peuvent être exécutées simultanément sur le même modèle GPU ou sur plusieursGPUs.
Traitement par lots dynamique : pour les modèles qui prennent en charge le traitement par lots, Triton dispose de plusieurs algorithmes de planification et de traitement par lots intégrés qui combinent des demandes d'inférence individuelles pour améliorer le débit d'inférence. Ces décisions de planification et de traitement par lots sont transparentes pour le client qui demande l'inférence.
Diversité CPU et GPU support : les modèles peuvent être exécutés sur CPUs ou GPUs pour une flexibilité maximale et pour répondre à des exigences informatiques hétérogènes.

Que souhaitez-vous faire ?

Je souhaite déployer mon PyTorch modèle entraîné dans SageMaker.: Pour un exemple de bloc-notes Jupyter, consultez l'exemple Déployez votre modèle PyTorch Resnet50 avec Triton Inference Server.
Je souhaite déployer mon modèle SageMaker Hugging Face entraîné dans.: Pour un exemple de bloc-notes Jupyter, consultez l'exemple Déployez votre PyTorch BERT modèle avec le serveur d'inférence Triton.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

TensorFlow

APIRéférence