As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
SageMaker parâmetros de endpoint para inferência de modelos grandes
Você pode personalizar os seguintes parâmetros para facilitar a inferência de modelos grandes (LMI) de baixa latência com: SageMaker
-
Tamanho máximo do volume do Amazon EBS na instância (
VolumeSizeInGB
): se o tamanho do modelo for maior que 30 GB e você estiver usando uma instância sem um disco local, aumente esse parâmetro para um pouco maior que o tamanho do seu modelo. -
Cota de tempo limite da verificação de saúde (
ContainerStartupHealthCheckTimeoutInSeconds
) — Se o contêiner estiver configurado corretamente e os CloudWatch registros indicarem um tempo limite da verificação de saúde, você deverá aumentar essa cota para que o contêiner tenha tempo suficiente para responder às verificações de saúde. -
Cota de tempo limite de download do modelo (
ModelDataDownloadTimeoutInSeconds
): se o tamanho do seu modelo for maior que 40 GB, você deverá aumentar essa cota para fornecer tempo suficiente para baixar o modelo do Amazon S3 para a instância.
O trecho de código a seguir demonstra como configurar programaticamente os parâmetros mencionados acima. Substitua o texto do espaço reservado em itálico
no exemplo por suas próprias informações.
import boto3 aws_region = "
aws-region
" sagemaker_client = boto3.client('sagemaker', region_name=aws_region) # The name of the endpoint. The name must be unique within an AWS Region in your AWS account. endpoint_name = "endpoint-name
" # Create an endpoint config name. endpoint_config_name = "endpoint-config-name
" # The name of the model that you want to host. model_name = "the-name-of-your-model
" instance_type = "instance-type
" sagemaker_client.create_endpoint_config( EndpointConfigName = endpoint_config_name ProductionVariants=[ { "VariantName": "variant1
", # The name of the production variant. "ModelName": model_name, "InstanceType": instance_type, # Specify the compute instance type. "InitialInstanceCount":1
, # Number of instances to launch initially. "VolumeSizeInGB":256
, # Specify the size of the Amazon EBS volume. "ModelDataDownloadTimeoutInSeconds":1800
, # Specify the model download timeout in seconds. "ContainerStartupHealthCheckTimeoutInSeconds":1800
, # Specify the health checkup timeout in seconds }, ], ) sagemaker_client.create_endpoint(EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name)
Para obter mais informações sobre as chaves paraProductionVariants
, consulte ProductionVariant
.
Para exemplos que demonstram como obter inferência de baixa latência com modelos grandes, consulte Exemplos de inferência de IA generativa na Amazon SageMaker no repositório