SageMaker parametri di endpoint per l'inferenza di modelli di grandi dimensioni - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

SageMaker parametri di endpoint per l'inferenza di modelli di grandi dimensioni

Puoi personalizzare i seguenti parametri per facilitare l'inferenza di modelli di grandi dimensioni (LMI) a bassa latenza con: SageMaker

  • Dimensione massima del volume Amazon EBS sull'istanza (VolumeSizeInGB): se la dimensione del modello è superiore a 30 GB e stai utilizzando un'istanza senza un disco locale, devi aumentare questo parametro in modo che sia leggermente superiore alla dimensione del tuo modello.

  • Quota di timeout per il controllo dello stato di salute (ContainerStartupHealthCheckTimeoutInSeconds): se il contenitore è configurato correttamente e CloudWatch i registri indicano un timeout per il controllo dello stato di salute, è necessario aumentare questa quota in modo che il contenitore abbia abbastanza tempo per rispondere ai controlli di integrità.

  • Quota di timeout per il download del modello (ModelDataDownloadTimeoutInSeconds): se la dimensione del modello è superiore a 40 GB, devi aumentare questa quota per avere tempo sufficiente per scaricare il modello da Amazon S3 sull'istanza.

Il seguente frammento di codice mostra come configurare in modo programmatico i parametri sopra menzionati. Sostituisci il testo segnaposto in corsivo nell’esempio con le tue informazioni.

import boto3 aws_region = "aws-region" sagemaker_client = boto3.client('sagemaker', region_name=aws_region) # The name of the endpoint. The name must be unique within an AWS Region in your AWS account. endpoint_name = "endpoint-name" # Create an endpoint config name. endpoint_config_name = "endpoint-config-name" # The name of the model that you want to host. model_name = "the-name-of-your-model" instance_type = "instance-type" sagemaker_client.create_endpoint_config( EndpointConfigName = endpoint_config_name ProductionVariants=[ { "VariantName": "variant1", # The name of the production variant. "ModelName": model_name, "InstanceType": instance_type, # Specify the compute instance type. "InitialInstanceCount": 1, # Number of instances to launch initially. "VolumeSizeInGB": 256, # Specify the size of the Amazon EBS volume. "ModelDataDownloadTimeoutInSeconds": 1800, # Specify the model download timeout in seconds. "ContainerStartupHealthCheckTimeoutInSeconds": 1800, # Specify the health checkup timeout in seconds }, ], ) sagemaker_client.create_endpoint(EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name)

Per ulteriori informazioni sui tasti perProductionVariants, vedere. ProductionVariant

Per esempi che dimostrano come ottenere un'inferenza a bassa latenza con modelli di grandi dimensioni, consulta Esempi di inferenza AI generativa su Amazon SageMaker nel repository aws-samples. GitHub