Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

SageMaker Parámetros de punto final de IA para inferencia de modelos grandes

Modo de enfoque
SageMaker Parámetros de punto final de IA para inferencia de modelos grandes - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Puede personalizar los siguientes parámetros para facilitar la inferencia de modelos grandes (LMI) de baja latencia con IA: SageMaker

  • Tamaño máximo del volumen de Amazon EBS en la instancia (VolumeSizeInGB): si el tamaño del modelo es superior a 30 GB y utiliza una instancia sin disco local, debe aumentar este parámetro para que sea ligeramente mayor que el tamaño del modelo.

  • Cuota de tiempo de espera de las comprobaciones de estado (ContainerStartupHealthCheckTimeoutInSeconds): si tu contenedor está configurado correctamente y los CloudWatch registros indican que se ha agotado el tiempo de espera de las comprobaciones de estado, debes aumentar esta cuota para que el contenedor tenga tiempo suficiente para responder a las comprobaciones de estado.

  • Cuota de tiempo de espera de descarga del modelo (ModelDataDownloadTimeoutInSeconds): si el tamaño del modelo es superior a 40 GB, debe aumentar esta cuota para disponer de tiempo suficiente para descargar el modelo de Amazon S3 a la instancia.

El siguiente fragmento de código muestra cómo configurar mediante programación los parámetros mencionados. italicized placeholder textSustitúyalo en el ejemplo por tu propia información.

import boto3 aws_region = "aws-region" sagemaker_client = boto3.client('sagemaker', region_name=aws_region) # The name of the endpoint. The name must be unique within an AWS Region in your AWS account. endpoint_name = "endpoint-name" # Create an endpoint config name. endpoint_config_name = "endpoint-config-name" # The name of the model that you want to host. model_name = "the-name-of-your-model" instance_type = "instance-type" sagemaker_client.create_endpoint_config( EndpointConfigName = endpoint_config_name ProductionVariants=[ { "VariantName": "variant1", # The name of the production variant. "ModelName": model_name, "InstanceType": instance_type, # Specify the compute instance type. "InitialInstanceCount": 1, # Number of instances to launch initially. "VolumeSizeInGB": 256, # Specify the size of the Amazon EBS volume. "ModelDataDownloadTimeoutInSeconds": 1800, # Specify the model download timeout in seconds. "ContainerStartupHealthCheckTimeoutInSeconds": 1800, # Specify the health checkup timeout in seconds }, ], ) sagemaker_client.create_endpoint(EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name)

Para obtener más información sobre las claves de ProductionVariants, consulte ProductionVariant.

Para ver ejemplos que demuestran cómo lograr inferencias de baja latencia con modelos grandes, consulte los ejemplos de inferencias generativas de IA en Amazon SageMaker AI en el repositorio aws-samples. GitHub

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.