SageMaker KI-Endpunktparameter für große Modellinferenz

Sie können die folgenden Parameter anpassen, um die Inferenz großer Modelle (LMI) mit niedriger Latenz mit KI zu ermöglichen: SageMaker

Maximale Amazon EBS-Volume-Größe auf der Instance (VolumeSizeInGB) – Wenn die Größe des Modells größer als 30 GB ist und Sie eine Instance ohne lokale Festplatte verwenden, sollten Sie diesen Parameter erhöhen, sodass er etwas größer als die Größe Ihres Modells ist.
Timeout-Kontingent für ContainerStartupHealthCheckTimeoutInSeconds Integritätsprüfungen () — Wenn Ihr Container korrekt eingerichtet ist und die CloudWatch Protokolle auf ein Timeout für Integritätsprüfungen hinweisen, sollten Sie dieses Kontingent erhöhen, damit der Container genügend Zeit hat, um auf Integritätsprüfungen zu reagieren.
Timeout-Kontingent für Modell-Downloads (ModelDataDownloadTimeoutInSeconds) – Wenn die Größe Ihres Modells größer als 40 GB ist, sollten Sie dieses Kontingent erhöhen, um genügend Zeit für das Herunterladen des Modells von Amazon S3 auf die Instance zur Verfügung zu haben.

Der folgende Codeausschnitt zeigt, wie die oben genannten Parameter programmatisch konfiguriert werden. Ersetzen Sie das italicized placeholder text im Beispiel durch Ihre eigenen Informationen.


import boto3

aws_region = "aws-region"
sagemaker_client = boto3.client('sagemaker', region_name=aws_region)

# The name of the endpoint. The name must be unique within an AWS Region in your AWS account.
endpoint_name = "endpoint-name"

# Create an endpoint config name.
endpoint_config_name = "endpoint-config-name"

# The name of the model that you want to host.
model_name = "the-name-of-your-model"

instance_type = "instance-type"

sagemaker_client.create_endpoint_config(
    EndpointConfigName = endpoint_config_name
    ProductionVariants=[
        {
            "VariantName": "variant1", # The name of the production variant.
            "ModelName": model_name,
            "InstanceType": instance_type, # Specify the compute instance type.
            "InitialInstanceCount": 1, # Number of instances to launch initially.
            "VolumeSizeInGB": 256, # Specify the size of the Amazon EBS volume.
            "ModelDataDownloadTimeoutInSeconds": 1800, # Specify the model download timeout in seconds.
            "ContainerStartupHealthCheckTimeoutInSeconds": 1800, # Specify the health checkup timeout in seconds
        },
    ],
)

sagemaker_client.create_endpoint(EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name)

Weitere Informationen zu den Schlüsseln für ProductionVariants finden Sie unter ProductionVariant.

Beispiele, die zeigen, wie Inferenzen mit niedriger Latenz mit großen Modellen erreicht werden können, finden Sie unter Generative KI-Inferenzbeispiele auf Amazon SageMaker AI im GitHub aws-samples Repository.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Die Dokumentation zum LMI-Container

Bereitstellung unkomprimierter Modelle