Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

SageMaker Paramètres des points de terminaison de l'IA pour l'inférence de grands modèles

Mode de mise au point
SageMaker Paramètres des points de terminaison de l'IA pour l'inférence de grands modèles - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Vous pouvez personnaliser les paramètres suivants pour faciliter l'inférence de grands modèles (LMI) à faible latence avec l'IA : SageMaker

  • Taille maximale du volume Amazon EBS sur l'instance (VolumeSizeInGB) : si la taille du modèle est supérieure à 30 Go et que vous utilisez une instance sans disque local, vous devez augmenter ce paramètre pour qu'il soit légèrement supérieur à la taille de votre modèle.

  • Quota d'expiration du délai de vérification de l'état (ContainerStartupHealthCheckTimeoutInSeconds) : si votre conteneur est correctement configuré et que les CloudWatch journaux indiquent un délai d'expiration pour le contrôle de santé, vous devez augmenter ce quota afin que le conteneur dispose de suffisamment de temps pour répondre aux contrôles de santé.

  • Quota d'expiration de téléchargement de modèle (ModelDataDownloadTimeoutInSeconds) : si la taille de votre modèle est supérieure à 40 Go, vous devez augmenter ce quota afin de disposer de suffisamment de temps pour télécharger le modèle depuis Amazon S3 vers l'instance.

L'extrait de code suivant montre comment configurer par programmation les paramètres susmentionnés. Remplacez le italicized placeholder text dans l'exemple par vos propres informations.

import boto3 aws_region = "aws-region" sagemaker_client = boto3.client('sagemaker', region_name=aws_region) # The name of the endpoint. The name must be unique within an AWS Region in your AWS account. endpoint_name = "endpoint-name" # Create an endpoint config name. endpoint_config_name = "endpoint-config-name" # The name of the model that you want to host. model_name = "the-name-of-your-model" instance_type = "instance-type" sagemaker_client.create_endpoint_config( EndpointConfigName = endpoint_config_name ProductionVariants=[ { "VariantName": "variant1", # The name of the production variant. "ModelName": model_name, "InstanceType": instance_type, # Specify the compute instance type. "InitialInstanceCount": 1, # Number of instances to launch initially. "VolumeSizeInGB": 256, # Specify the size of the Amazon EBS volume. "ModelDataDownloadTimeoutInSeconds": 1800, # Specify the model download timeout in seconds. "ContainerStartupHealthCheckTimeoutInSeconds": 1800, # Specify the health checkup timeout in seconds }, ], ) sagemaker_client.create_endpoint(EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name)

Pour plus d'informations sur les touches deProductionVariants, voir ProductionVariant.

Pour des exemples illustrant comment obtenir une inférence à faible latence avec de grands modèles, consultez la section Exemples d'inférence par IA générative sur Amazon SageMaker AI dans le référentiel GitHub aws-samples.

ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.