SageMaker parâmetros de endpoint para inferência de modelos grandes - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

SageMaker parâmetros de endpoint para inferência de modelos grandes

Você pode personalizar os seguintes parâmetros para facilitar a inferência de modelos grandes (LMI) de baixa latência com: SageMaker

  • Tamanho máximo do volume do Amazon EBS na instância (VolumeSizeInGB): se o tamanho do modelo for maior que 30 GB e você estiver usando uma instância sem um disco local, aumente esse parâmetro para um pouco maior que o tamanho do seu modelo.

  • Cota de tempo limite da verificação de saúde (ContainerStartupHealthCheckTimeoutInSeconds) — Se o contêiner estiver configurado corretamente e os CloudWatch registros indicarem um tempo limite da verificação de saúde, você deverá aumentar essa cota para que o contêiner tenha tempo suficiente para responder às verificações de saúde.

  • Cota de tempo limite de download do modelo (ModelDataDownloadTimeoutInSeconds): se o tamanho do seu modelo for maior que 40 GB, você deverá aumentar essa cota para fornecer tempo suficiente para baixar o modelo do Amazon S3 para a instância.

O trecho de código a seguir demonstra como configurar programaticamente os parâmetros mencionados acima. Substitua o texto do espaço reservado em itálico no exemplo por suas próprias informações.

import boto3 aws_region = "aws-region" sagemaker_client = boto3.client('sagemaker', region_name=aws_region) # The name of the endpoint. The name must be unique within an AWS Region in your AWS account. endpoint_name = "endpoint-name" # Create an endpoint config name. endpoint_config_name = "endpoint-config-name" # The name of the model that you want to host. model_name = "the-name-of-your-model" instance_type = "instance-type" sagemaker_client.create_endpoint_config( EndpointConfigName = endpoint_config_name ProductionVariants=[ { "VariantName": "variant1", # The name of the production variant. "ModelName": model_name, "InstanceType": instance_type, # Specify the compute instance type. "InitialInstanceCount": 1, # Number of instances to launch initially. "VolumeSizeInGB": 256, # Specify the size of the Amazon EBS volume. "ModelDataDownloadTimeoutInSeconds": 1800, # Specify the model download timeout in seconds. "ContainerStartupHealthCheckTimeoutInSeconds": 1800, # Specify the health checkup timeout in seconds }, ], ) sagemaker_client.create_endpoint(EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name)

Para obter mais informações sobre as chaves paraProductionVariants, consulte ProductionVariant.

Para exemplos que demonstram como obter inferência de baixa latência com modelos grandes, consulte Exemplos de inferência de IA generativa na Amazon SageMaker no repositório aws-samples. GitHub