SageMaker Endpunktparameter für große Modellinferenz - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

SageMaker Endpunktparameter für große Modellinferenz

Sie können die folgenden Parameter anpassen, um die Inferenz großer Modelle (LMI) mit niedriger Latenz zu ermöglichen: SageMaker

  • Maximale Amazon EBS-Volume-Größe auf der Instance (VolumeSizeInGB) – Wenn die Größe des Modells größer als 30 GB ist und Sie eine Instance ohne lokale Festplatte verwenden, sollten Sie diesen Parameter erhöhen, sodass er etwas größer als die Größe Ihres Modells ist.

  • Timeout-Kontingent für ContainerStartupHealthCheckTimeoutInSeconds Integritätsprüfungen () — Wenn Ihr Container korrekt eingerichtet ist und die CloudWatch Protokolle auf ein Timeout für Integritätsprüfungen hinweisen, sollten Sie dieses Kontingent erhöhen, damit der Container genügend Zeit hat, um auf Integritätsprüfungen zu reagieren.

  • Timeout-Kontingent für Modell-Downloads (ModelDataDownloadTimeoutInSeconds) – Wenn die Größe Ihres Modells größer als 40 GB ist, sollten Sie dieses Kontingent erhöhen, um genügend Zeit für das Herunterladen des Modells von Amazon S3 auf die Instance zur Verfügung zu haben.

Der folgende Codeausschnitt zeigt, wie die oben genannten Parameter programmatisch konfiguriert werden. Um diese Richtlinie zu verwenden, ersetzen Sie den kursiv gedruckten Platzhaltertext in der Beispielrichtlinie durch Ihre eigenen Informationen.

import boto3 aws_region = "aws-region" sagemaker_client = boto3.client('sagemaker', region_name=aws_region) # The name of the endpoint. The name must be unique within an AWS Region in your AWS account. endpoint_name = "endpoint-name" # Create an endpoint config name. endpoint_config_name = "endpoint-config-name" # The name of the model that you want to host. model_name = "the-name-of-your-model" instance_type = "instance-type" sagemaker_client.create_endpoint_config( EndpointConfigName = endpoint_config_name ProductionVariants=[ { "VariantName": "variant1", # The name of the production variant. "ModelName": model_name, "InstanceType": instance_type, # Specify the compute instance type. "InitialInstanceCount": 1, # Number of instances to launch initially. "VolumeSizeInGB": 256, # Specify the size of the Amazon EBS volume. "ModelDataDownloadTimeoutInSeconds": 1800, # Specify the model download timeout in seconds. "ContainerStartupHealthCheckTimeoutInSeconds": 1800, # Specify the health checkup timeout in seconds }, ], ) sagemaker_client.create_endpoint(EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name)

Weitere Informationen zu den Schlüsseln für finden Sie ProductionVariants unter. ProductionVariant

Beispiele, die zeigen, wie Inferenzen mit niedriger Latenz mit großen Modellen erreicht werden können, finden Sie unter Generative KI-Inferenzbeispiele auf Amazon SageMaker im GitHub aws-samples Repository.