Utilice el servidor de inferencias Triton con Amazon SageMaker

SageMaker permite a los clientes implementar un modelo mediante código personalizado con el servidor de inferencia NVIDIA Triton. Esta funcionalidad está disponible mediante el desarrollo de contenedores del servidor de inferencia Triton. Estos contenedores incluyen el servidor de inferencia NVIDIA Triton, la compatibilidad con los marcos de aprendizaje automático más comunes y variables de entorno útiles que permiten optimizar el rendimiento. SageMaker Para ver una lista completa de todas las imágenes disponibles de contenedores de aprendizaje profundo, consulte Available Deep Learning Containers Images. Las imágenes de contenedores de aprendizaje profundo se mantienen y actualizan periódicamente con parches de seguridad.

Puede usar el contenedor del servidor de inferencia Triton con el SDK de SageMaker Python como lo haría con cualquier otro contenedor de sus SageMaker modelos. Sin embargo, el uso del SDK de SageMaker Python es opcional. Puede utilizar los contenedores del servidor de inferencia Triton con las AWS CLI teclas y. AWS SDK for Python (Boto3)

Para obtener más información sobre el servidor de inferencia NVIDIA Triton, consulte la documentación de Triton.

Inferencia

nota

El backend Python de Triton usa memoria compartida (SHMEM) para conectar el código a Triton. SageMaker La inferencia proporciona hasta la mitad de la memoria de la instancia que proporciona SHMEM, por lo que puedes usar una instancia con más memoria para un SHMEM de mayor tamaño.

Para realizar inferencias, puede usar sus modelos de aprendizaje automático entrenados con Triton Inference Server para implementar un trabajo de inferencia con ellos. SageMaker

Algunas de las características clave del contenedor del servicios de inferencia Triton son:

Compatibilidad con varios marcos: Triton se puede usar para implementar modelos de todos los principales marcos de ML. Triton admite los formatos de SavedModel modelo Python/C++ personalizados TensorFlow GraphDef y ONNX, PyTorch TorchScript TensorRT.
Canalizaciones de modelos: el conjunto de modelos Triton representa una canalización de un modelo con una lógica de preprocesamiento y postprocesamiento y la conexión de tensores de entrada y salida entre ellas. Una sola solicitud de inferencia a un conjunto desencadena la ejecución de toda la canalización.
Ejecución simultánea del modelo: se pueden ejecutar varias instancias del mismo modelo simultáneamente en la misma GPU o en varias GPU.
Procesamiento dinámico por lotes: para los modelos que admiten el procesamiento por lotes, Triton tiene varios algoritmos integrados de programación y procesamiento por lotes que combinan las solicitudes de inferencia individuales para mejorar el rendimiento de las inferencias. Estas decisiones de programación y procesamiento por lotes son transparentes para el cliente que solicita la inferencia.
Compatibilidad diversa con CPU y GPU: los modelos se pueden ejecutar en CPU o GPU para obtener la máxima flexibilidad y adaptarse a requisitos de computación heterogéneos.

¿Qué quiere hacer?

Quiero implementar mi modelo entrenado en. PyTorch SageMaker: Para ver un ejemplo de Jupyter Notebook, consulte el ejemplo Implementación del modelo PyTorch Resnet50 con el servidor de inferencia Triton.
Quiero implementar mi modelo SageMaker entrenado de Hugging Face.: Para ver un ejemplo de Jupyter Notebook, consulte el ejemplo Implementación de un modelo PyTorch BERT con el servidor de inferencia Triton.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

TensorFlow

Referencia de la API