SageMaker Paramètres des points de terminaison de l'IA pour l'inférence de grands modèles

Vous pouvez personnaliser les paramètres suivants pour faciliter l'inférence de grands modèles (LMI) à faible latence avec l'IA : SageMaker

Taille maximale du volume Amazon EBS sur l'instance (VolumeSizeInGB) : si la taille du modèle est supérieure à 30 Go et que vous utilisez une instance sans disque local, vous devez augmenter ce paramètre pour qu'il soit légèrement supérieur à la taille de votre modèle.
Quota d'expiration du délai de vérification de l'état (ContainerStartupHealthCheckTimeoutInSeconds) : si votre conteneur est correctement configuré et que les CloudWatch journaux indiquent un délai d'expiration pour le contrôle de santé, vous devez augmenter ce quota afin que le conteneur dispose de suffisamment de temps pour répondre aux contrôles de santé.
Quota d'expiration de téléchargement de modèle (ModelDataDownloadTimeoutInSeconds) : si la taille de votre modèle est supérieure à 40 Go, vous devez augmenter ce quota afin de disposer de suffisamment de temps pour télécharger le modèle depuis Amazon S3 vers l'instance.

L'extrait de code suivant montre comment configurer par programmation les paramètres susmentionnés. Remplacez le italicized placeholder text dans l'exemple par vos propres informations.


import boto3

aws_region = "aws-region"
sagemaker_client = boto3.client('sagemaker', region_name=aws_region)

# The name of the endpoint. The name must be unique within an AWS Region in your AWS account.
endpoint_name = "endpoint-name"

# Create an endpoint config name.
endpoint_config_name = "endpoint-config-name"

# The name of the model that you want to host.
model_name = "the-name-of-your-model"

instance_type = "instance-type"

sagemaker_client.create_endpoint_config(
    EndpointConfigName = endpoint_config_name
    ProductionVariants=[
        {
            "VariantName": "variant1", # The name of the production variant.
            "ModelName": model_name,
            "InstanceType": instance_type, # Specify the compute instance type.
            "InitialInstanceCount": 1, # Number of instances to launch initially.
            "VolumeSizeInGB": 256, # Specify the size of the Amazon EBS volume.
            "ModelDataDownloadTimeoutInSeconds": 1800, # Specify the model download timeout in seconds.
            "ContainerStartupHealthCheckTimeoutInSeconds": 1800, # Specify the health checkup timeout in seconds
        },
    ],
)

sagemaker_client.create_endpoint(EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name)

Pour plus d'informations sur les touches deProductionVariants, voir ProductionVariant.

Pour des exemples illustrant comment obtenir une inférence à faible latence avec de grands modèles, consultez la section Exemples d'inférence par IA générative sur Amazon SageMaker AI dans le référentiel GitHub aws-samples.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

La documentation du conteneur LMI

Déploiement de modèles non compressés