Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Puede personalizar los siguientes parámetros para facilitar la inferencia de modelos grandes (LMI) de baja latencia con IA: SageMaker
-
Tamaño máximo del volumen de Amazon EBS en la instancia (
VolumeSizeInGB
): si el tamaño del modelo es superior a 30 GB y utiliza una instancia sin disco local, debe aumentar este parámetro para que sea ligeramente mayor que el tamaño del modelo. -
Cuota de tiempo de espera de las comprobaciones de estado (
ContainerStartupHealthCheckTimeoutInSeconds
): si tu contenedor está configurado correctamente y los CloudWatch registros indican que se ha agotado el tiempo de espera de las comprobaciones de estado, debes aumentar esta cuota para que el contenedor tenga tiempo suficiente para responder a las comprobaciones de estado. -
Cuota de tiempo de espera de descarga del modelo (
ModelDataDownloadTimeoutInSeconds
): si el tamaño del modelo es superior a 40 GB, debe aumentar esta cuota para disponer de tiempo suficiente para descargar el modelo de Amazon S3 a la instancia.
El siguiente fragmento de código muestra cómo configurar mediante programación los parámetros mencionados. italicized placeholder
text
Sustitúyalo en el ejemplo por tu propia información.
import boto3
aws_region = "aws-region
"
sagemaker_client = boto3.client('sagemaker', region_name=aws_region)
# The name of the endpoint. The name must be unique within an AWS Region in your AWS account.
endpoint_name = "endpoint-name
"
# Create an endpoint config name.
endpoint_config_name = "endpoint-config-name
"
# The name of the model that you want to host.
model_name = "the-name-of-your-model
"
instance_type = "instance-type
"
sagemaker_client.create_endpoint_config(
EndpointConfigName = endpoint_config_name
ProductionVariants=[
{
"VariantName": "variant1
", # The name of the production variant.
"ModelName": model_name,
"InstanceType": instance_type, # Specify the compute instance type.
"InitialInstanceCount": 1
, # Number of instances to launch initially.
"VolumeSizeInGB": 256
, # Specify the size of the Amazon EBS volume.
"ModelDataDownloadTimeoutInSeconds": 1800
, # Specify the model download timeout in seconds.
"ContainerStartupHealthCheckTimeoutInSeconds": 1800
, # Specify the health checkup timeout in seconds
},
],
)
sagemaker_client.create_endpoint(EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name)
Para obtener más información sobre las claves de ProductionVariants
, consulte ProductionVariant
.
Para ver ejemplos que demuestran cómo lograr inferencias de baja latencia con modelos grandes, consulte los ejemplos de inferencias generativas de IA en Amazon SageMaker AI en