Implementieren Sie Modelle für Inferenz in Echtzeit - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Implementieren Sie Modelle für Inferenz in Echtzeit

Wichtig

Benutzerdefinierte IAM-Richtlinien, die es Amazon SageMaker Studio oder Amazon SageMaker Studio Classic ermöglichen, SageMaker Amazon-Ressourcen zu erstellen, müssen auch Berechtigungen zum Hinzufügen von Tags zu diesen Ressourcen gewähren. Die Berechtigung zum Hinzufügen von Tags zu Ressourcen ist erforderlich, da Studio und Studio Classic automatisch alle von ihnen erstellten Ressourcen taggen. Wenn eine IAM-Richtlinie Studio und Studio Classic das Erstellen von Ressourcen, aber kein Tagging erlaubt, können "AccessDenied" Fehler auftreten, wenn versucht wird, Ressourcen zu erstellen. Weitere Informationen finden Sie unter Erteilen Sie Berechtigungen für das Markieren von Ressourcen SageMaker.

AWS Verwaltete Richtlinien für Amazon SageMakerdie Berechtigungen zum Erstellen von SageMaker Ressourcen gewähren, beinhalten bereits Berechtigungen zum Hinzufügen von Tags beim Erstellen dieser Ressourcen.

Es gibt mehrere Möglichkeiten, ein Modell mithilfe von SageMaker Hosting-Diensten bereitzustellen. Sie können ein Modell interaktiv mit SageMaker Studio bereitstellen. Oder Sie können ein Modell mithilfe eines AWS SDK programmgesteuert bereitstellen, z. B. mit dem Python-SDK oder dem SDK für SageMaker Python (Boto3). Sie können die Bereitstellung auch mit dem durchführen. AWS CLI

Bevor Sie beginnen

Bevor Sie ein SageMaker Modell bereitstellen, suchen und notieren Sie sich Folgendes:

  • AWS-Region Wo sich Ihr Amazon S3 S3-Bucket befindet

  • Der Amazon S3 S3-URI-Pfad, in dem die Modellartefakte gespeichert sind

  • Die IAM-Rolle für SageMaker

  • Der Docker Amazon ECR URI-Registrierungspfad für das benutzerdefinierte Image, das den Inferenzcode enthält, oder das Framework und die Version eines integrierten Docker-Images, das unterstützt wird und von AWS

Eine Liste der jeweils AWS-Services verfügbaren Netzwerke finden Sie unter Regionskarten AWS-Region und Edge-Netzwerke. Weitere Informationen zum Erstellen von IAM-Rollen finden Sie unter Erstellen von IAM-Rollen.

Wichtig

Der Amazon S3 S3-Bucket, in dem die Modellartefakte gespeichert sind, muss sich in demselben Modell befinden AWS-Region wie das Modell, das Sie erstellen.

Gemeinsame Ressourcennutzung mit mehreren Modellen

Sie können mit Amazon ein oder mehrere Modelle auf einem Endpunkt bereitstellen SageMaker. Wenn sich mehrere Modelle einen Endpunkt teilen, nutzen sie gemeinsam die Ressourcen, die dort gehostet werden, wie z. B. die ML-Recheninstanzen, CPUs und Beschleuniger. Die flexibelste Methode, mehrere Modelle auf einem Endpunkt bereitzustellen, besteht darin, jedes Modell als Inferenzkomponente zu definieren.

Inferenzkomponenten

Eine Inferenzkomponente ist ein SageMaker Hosting-Objekt, mit dem Sie ein Modell auf einem Endpunkt bereitstellen können. In den Einstellungen für die Inferenzkomponente geben Sie das Modell, den Endpunkt und die Art und Weise an, wie das Modell die Ressourcen nutzt, die der Endpunkt hostet. Um das Modell zu spezifizieren, können Sie ein SageMaker Model-Objekt angeben, oder Sie können die Modellartefakte und das Bild direkt angeben.

In den Einstellungen können Sie die Ressourcennutzung optimieren, indem Sie anpassen, wie die erforderlichen CPU-Kerne, Beschleuniger und Speicher dem Modell zugewiesen werden. Sie können mehrere Inferenzkomponenten für einen Endpunkt bereitstellen, wobei jede Inferenzkomponente ein Modell und die für dieses Modell erforderliche Ressourcennutzung enthält.

Nachdem Sie eine Inferenzkomponente bereitgestellt haben, können Sie das zugehörige Modell direkt aufrufen, wenn Sie die InvokeEndpoint Aktion in der API verwenden. SageMaker

Inferenzkomponenten bieten die folgenden Vorteile:

Flexibilität

Die Inferenzkomponente entkoppelt die Details des Hostings des Modells vom Endpunkt selbst. Dies bietet mehr Flexibilität und Kontrolle darüber, wie Modelle über einen Endpunkt gehostet und bereitgestellt werden. Sie können mehrere Modelle auf derselben Infrastruktur hosten und je nach Bedarf Modelle zu einem Endpunkt hinzufügen oder daraus entfernen. Sie können jedes Modell unabhängig aktualisieren.

Skalierbarkeit

Sie können angeben, wie viele Kopien jedes Modells bereitgestellt werden sollen, und Sie können eine Mindestanzahl von Kopien festlegen, um sicherzustellen, dass das Modell in der Menge geladen wird, die Sie für die Bearbeitung von Anfragen benötigen. Sie können jede Kopie einer Inferenzkomponente auf Null herunterskalieren, sodass Platz für eine weitere Kopie zur Vergrößerung geschaffen wird.

SageMaker verpackt Ihre Modelle als Inferenzkomponenten, wenn Sie sie bereitstellen, indem Sie Folgendes verwenden:

  • SageMaker Studio Classic.

  • Das SageMaker Python-SDK zur Bereitstellung eines Model-Objekts (wobei Sie den Endpunkttyp auf festlegenEndpointType.INFERENCE_COMPONENT_BASED).

  • Das AWS SDK for Python (Boto3) zur Definition von InferenceComponent Objekten, die Sie auf einem Endpunkt bereitstellen.

Stellen Sie Modelle mit SageMaker Studio bereit

Führen Sie die folgenden Schritte aus, um Ihr Modell interaktiv über SageMaker Studio zu erstellen und bereitzustellen. Weitere Informationen zu Studio finden Sie in der Studio-Dokumentation. Weitere Anleitungen zu verschiedenen Bereitstellungsszenarien finden Sie im Blog Einfache Paketierung und Bereitstellung klassischer ML-Modelle und LLMs mit Amazon SageMaker — Teil 2.

Bereiten Sie Ihre Artefakte und Berechtigungen vor

Füllen Sie diesen Abschnitt aus, bevor Sie ein Modell in SageMaker Studio erstellen.

Sie haben zwei Möglichkeiten, Ihre Artefakte mitzunehmen und ein Modell in Studio zu erstellen:

  1. Sie können ein vorgefertigtes tar.gz Archiv mitbringen, das Ihre Modellartefakte, beliebigen benutzerdefinierten Inferenzcode und alle in einer requirements.txt Datei aufgelisteten Abhängigkeiten enthalten sollte.

  2. SageMaker kann Ihre Artefakte für Sie verpacken. Sie müssen nur Ihre Rohmodellartefakte und alle Abhängigkeiten in einer requirements.txt Datei zusammenfügen und SageMaker können den Standard-Inferenzcode für Sie bereitstellen (oder Sie können den Standardcode mit Ihrem eigenen benutzerdefinierten Inferenzcode überschreiben). SageMakerunterstützt diese Option für die folgenden Frameworks: PyTorch, XGBoost.

Sie müssen nicht nur Ihr Modell, Ihre AWS Identity and Access Management (IAM-) Rolle und einen Docker-Container (oder das gewünschte Framework und die Version, für die es einen vorgefertigten Container SageMaker gibt) mitbringen, sondern auch Berechtigungen zum Erstellen und Bereitstellen von Modellen über Studio erteilen. SageMaker

Sie sollten die AmazonSageMakerFullZugriffsrichtlinie mit Ihrer IAM-Rolle verknüpfen, damit Sie auf andere relevante Dienste zugreifen SageMaker können. Um die Preise der Instanztypen in Studio zu sehen, müssen Sie auch die AWS PriceListServiceFullZugriffsrichtlinie anhängen (oder, wenn Sie nicht die gesamte Richtlinie anhängen möchten, genauer gesagt die pricing:GetProducts Aktion).

Wenn Sie beim Erstellen eines Modells Ihre Modellartefakte hochladen möchten (oder eine Beispiel-Payload-Datei für Inferenzempfehlungen hochladen), müssen Sie einen Amazon S3 S3-Bucket erstellen. Dem Bucket-Namen muss das Wort vorangestellt werden. SageMaker Alternative Groß-/Kleinschreibung von ist SageMaker ebenfalls zulässig: Sagemaker oder. sagemaker

Wir empfehlen, die Benennungskonvention sagemaker-{Region}-{accountID} für Buckets zu verwenden. Dieser Bucket wird verwendet, um die Artefakte zu speichern, die Sie hochladen.

Nachdem Sie den Bucket erstellt haben, fügen Sie dem Bucket die folgende CORS-Richtlinie (Cross-Origin Resource Sharing) hinzu:

[ { "AllowedHeaders": ["*"], "ExposeHeaders": ["Etag"], "AllowedMethods": ["PUT", "POST"], "AllowedOrigins": ['https://*.sagemaker.aws'], } ]

Sie können eine CORS-Richtlinie mit einer der folgenden Methoden an einen Amazon S3 S3-Bucket anhängen:

Erstellen Sie ein einsatzfähiges Modell

In diesem Schritt erstellen Sie eine bereitstellbare Version Ihres Modells, SageMaker indem Sie Ihre Artefakte zusammen mit zusätzlichen Spezifikationen angeben, z. B. den gewünschten Container und das Framework, beliebigen benutzerdefinierten Inferenzcode und Netzwerkeinstellungen.

Erstellen Sie ein bereitstellbares Modell in SageMaker Studio, indem Sie wie folgt vorgehen:

  1. Öffnen Sie die SageMaker Studio-Anwendung.

  2. Wählen Sie im linken Navigationsbereich Models (Modelle) aus.

  3. Wählen Sie die Registerkarte Bereitstellbare Modelle.

  4. Wählen Sie auf der Seite Bereitstellbare Modelle die Option Erstellen aus.

  5. Geben Sie auf der Seite Bereitstellbares Modell erstellen in das Feld Modellname einen Namen für das Modell ein.

Auf der Seite Bereitstellbares Modell erstellen gibt es mehrere weitere Abschnitte, die Sie ausfüllen müssen.

Der Abschnitt mit der Container-Definition sieht wie der folgende Screenshot aus:

Screenshot des Abschnitts mit der Container-Definition zum Erstellen eines Modells in Studio.
Gehen Sie für den Abschnitt Container-Definition wie folgt vor:
  1. Wählen Sie als Containertyp die Option Vorgefertigter Container aus, wenn Sie einen SageMaker verwalteten Container verwenden möchten, oder wählen Sie Bring your own container aus, wenn Sie Ihren eigenen Container haben.

  2. Wenn Sie Vorgefertigte Container ausgewählt haben, wählen Sie das Container-Framework, die Framework-Version und den Hardwaretyp aus, den Sie verwenden möchten.

  3. Wenn Sie Bring your own container ausgewählt haben, geben Sie einen Amazon ECR-Pfad für den ECR-Pfad zum Container-Image ein.

Füllen Sie dann den Abschnitt Artefakte aus, der wie der folgende Screenshot aussieht:

Screenshot des Abschnitts Artefakte zum Erstellen eines Modells in Studio.
Gehen Sie für den Abschnitt Artefakte wie folgt vor:
  1. Wenn Sie eines der Frameworks verwenden, das Modellartefakte (PyTorch oder XGBoost) SageMaker unterstützt, können Sie für Artefakte die Option Artefakte hochladen wählen. Mit dieser Option können Sie einfach Ihre Rohmodellartefakte, jeden benutzerdefinierten Inferenzcode, den Sie haben, und Ihre Datei requirements.txt angeben und das Packen des Archivs für Sie übernehmen. SageMaker Gehen Sie wie folgt vor:

    1. Wählen Sie unter Artefakte die Option Artefakte hochladen aus, um Ihre Dateien weiterhin bereitzustellen. Andernfalls, wenn Sie bereits über ein tar.gz Archiv verfügen, das Ihre Modelldateien, Ihren Inferenzcode und Ihre requirements.txt Datei enthält, wählen Sie S3-URI für vorverpackte Artefakte eingeben.

    2. Wenn Sie Ihre Artefakte hochladen möchten, geben Sie für S3-Bucket den Amazon S3 S3-Pfad zu einem Bucket ein, in dem Sie Ihre Artefakte speichern SageMaker möchten, nachdem Sie sie für Sie verpackt haben. Führen Sie dann die folgenden Schritte aus.

    3. Laden Sie unter Modellartefakte hochladen Ihre Modelldateien hoch.

    4. Wählen Sie unter Inferenzcode die Option Standard-Inferenzcode verwenden aus, wenn Sie Standardcode verwenden möchten, der die Bereitstellung von Inferenzen SageMaker ermöglicht. Wählen Sie andernfalls Benutzerdefinierten Inferenzcode hochladen aus, um Ihren eigenen Inferenzcode zu verwenden.

    5. Laden Sie für Upload requirements.txt eine Textdatei hoch, in der alle Abhängigkeiten aufgeführt sind, die Sie zur Laufzeit installieren möchten.

  2. Wenn Sie kein Framework verwenden, das das Verpacken von Modellartefakten SageMaker unterstützt, zeigt Ihnen Studio die Option Vorgepackte Artefakte an, und Sie müssen alle Ihre Artefakte, die bereits verpackt sind, als tar.gz Archiv bereitstellen. Gehen Sie wie folgt vor:

    1. Wählen Sie für vorverpackte Artefakte die Option S3-URI eingeben für vorverpackte Modellartefakte aus, wenn Sie Ihr tar.gz Archiv bereits auf Amazon S3 hochgeladen haben. Wählen Sie Vorverpackte Modellartefakte hochladen aus, wenn Sie Ihr Archiv direkt hochladen möchten. SageMaker

    2. Wenn Sie Input S3-URI für vorverpackte Modellartefakte ausgewählt haben, geben Sie den Amazon S3 S3-Pfad zu Ihrem Archiv für S3-URI ein. Andernfalls wählen Sie das Archiv aus und laden Sie es von Ihrem lokalen Computer hoch.

Der nächste Abschnitt ist Sicherheit, der wie der folgende Screenshot aussieht:

Screenshot des Sicherheitsbereichs zum Erstellen eines Modells in Studio.
Gehen Sie für den Abschnitt Sicherheit wie folgt vor:
  1. Geben Sie für die IAM-Rolle den ARN für eine IAM-Rolle ein.

  2. (Optional) Für Virtual Private Cloud (VPC) können Sie eine Amazon-VPC zum Speichern Ihrer Modellkonfiguration und Ihrer Artefakte auswählen.

  3. (Optional) Aktivieren Sie den Schalter Netzwerkisolierung, wenn Sie den Internetzugang Ihres Containers einschränken möchten.

Schließlich können Sie optional den Abschnitt Erweiterte Optionen ausfüllen, der wie der folgende Screenshot aussieht:

Screenshot des Abschnitts mit den erweiterten Optionen zum Erstellen eines Modells in Studio.
(Optional) Gehen Sie im Abschnitt Erweiterte Optionen wie folgt vor:
  1. Aktivieren Sie die Option Benutzerdefinierte Instanzempfehlungen, wenn Sie nach der Erstellung einen Amazon SageMaker Inference Recommender-Job für Ihr Modell ausführen möchten. Inference Recommender ist eine Funktion, die Ihnen empfohlene Instance-Typen zur Optimierung der Leistung und der Kosten von Inferenzen bietet. Sie können sich diese Instanzempfehlungen ansehen, wenn Sie sich auf die Bereitstellung Ihres Modells vorbereiten.

  2. Geben Sie unter Umgebungsvariablen hinzufügen eine Umgebungsvariable für Ihren Container als Schlüssel-Wert-Paare ein.

  3. Geben Sie für Tags beliebige Tags als Schlüssel-Wert-Paare ein.

  4. Nachdem Sie Ihre Modell- und Container-Konfiguration abgeschlossen haben, wählen Sie Create Deployable Model aus.

Sie sollten jetzt über ein Modell in SageMaker Studio verfügen, das für die Bereitstellung bereit ist.

Bereitstellen Ihres Modells

Schließlich stellen Sie das Modell, das Sie im vorherigen Schritt konfiguriert haben, auf einem HTTPS-Endpunkt bereit. Sie können entweder ein einzelnes Modell oder mehrere Modelle auf dem Endpunkt bereitstellen.

Modell- und Endpunktkompatibilität

Bevor Sie ein Modell auf einem Endpunkt bereitstellen können, müssen Modell und Endpunkt kompatibel sein und dieselben Werte für die folgenden Einstellungen aufweisen:

  • Die IAM-Rolle

  • Die Amazon VPC, einschließlich ihrer Subnetze und Sicherheitsgruppen

  • Die Netzwerkisolierung (aktiviert oder deaktiviert)

Studio verhindert auf folgende Weise, dass Sie Modelle auf inkompatiblen Endpunkten bereitstellen:

  • Wenn Sie versuchen, ein Modell auf einem neuen Endpunkt bereitzustellen, SageMaker konfiguriert Sie den Endpunkt mit kompatiblen Anfangseinstellungen. Wenn Sie die Kompatibilität durch Ändern dieser Einstellungen beeinträchtigen, zeigt Studio eine Warnung an und verhindert Ihre Bereitstellung.

  • Wenn Sie versuchen, eine Bereitstellung auf einem vorhandenen Endpunkt durchzuführen und dieser Endpunkt nicht kompatibel ist, zeigt Studio eine Warnung an und verhindert Ihre Bereitstellung.

  • Wenn Sie versuchen, einer Bereitstellung mehrere Modelle hinzuzufügen, verhindert Studio, dass Sie Modelle bereitstellen, die nicht miteinander kompatibel sind.

Wenn Studio die Warnung zur Modell- und Endpunktinkompatibilität anzeigt, können Sie in der Warnung Details anzeigen wählen, um zu sehen, welche Einstellungen nicht kompatibel sind.

Eine Möglichkeit, ein Modell bereitzustellen, besteht darin, in Studio wie folgt vorzugehen:

  1. Öffnen Sie die SageMaker Studio-Anwendung.

  2. Wählen Sie im linken Navigationsbereich Models (Modelle) aus.

  3. Wählen Sie auf der Seite Modelle ein oder mehrere Modelle aus der SageMaker Modellliste aus.

  4. Wählen Sie Bereitstellen.

  5. Öffnen Sie für den Endpunktnamen das Dropdownmenü. Sie können entweder einen vorhandenen Endpunkt auswählen oder einen neuen Endpunkt erstellen, auf dem Sie das Modell bereitstellen.

  6. Wählen Sie unter Instanztyp den Instanztyp aus, den Sie für den Endpunkt verwenden möchten. Wenn Sie zuvor einen Inference Recommender-Job für das Modell ausgeführt haben, werden Ihre empfohlenen Instance-Typen in der Liste unter dem Titel Recommended angezeigt. Andernfalls werden Ihnen einige potenzielle Instanzen angezeigt, die möglicherweise für Ihr Modell geeignet sind.

    Kompatibilität mit dem Instanztyp für JumpStart

    Wenn Sie ein JumpStart Modell bereitstellen, zeigt Studio nur Instanztypen an, die das Modell unterstützt.

  7. Geben Sie unter Anzahl der ersten Instanzen die anfängliche Anzahl der Instanzen ein, die Sie für Ihren Endpunkt bereitstellen möchten.

  8. Geben Sie unter Maximale Anzahl von Instanzen die maximale Anzahl von Instanzen an, die der Endpunkt bereitstellen kann, wenn er entsprechend einem Anstieg des Datenverkehrs skaliert wird.

  9. Wenn es sich bei dem Modell, das Sie bereitstellen, um eines der am häufigsten verwendeten JumpStart LLMs aus dem Model Hub handelt, wird die Option Alternative Konfigurationen hinter den Feldern Instanztyp und Instanzanzahl angezeigt.

    Bei den gängigsten JumpStart LLMs wurden Instance-Typen vorab mit Benchmarks verglichen, AWS um entweder Kosten oder Leistung zu optimieren. Diese Daten können Ihnen bei der Entscheidung helfen, welchen Instance-Typ Sie für die Bereitstellung Ihres LLM verwenden möchten. Wählen Sie Alternative Konfigurationen, um ein Dialogfeld zu öffnen, das die vorab getesteten Daten enthält. Das Panel sieht wie der folgende Screenshot aus:

    Screenshot des Felds Alternative Konfigurationen

    Gehen Sie im Feld Alternative Konfigurationen wie folgt vor:

    1. Auswahl von Instance-Typen Sie können „Kosten pro Stunde“ oder „Beste Leistung“ wählen, um Instance-Typen anzuzeigen, die entweder die Kosten oder die Leistung für das angegebene Modell optimieren. Sie können auch Andere unterstützte Instances wählen, um eine Liste anderer Instance-Typen anzuzeigen, die mit dem JumpStart Modell kompatibel sind. Beachten Sie, dass die Auswahl eines Instanztyps hier alle vorherigen Instanzauswahlen überschreibt, die in Schritt 6 angegeben wurden.

    2. (Optional) Aktivieren Sie den Schalter Ausgewählte Konfiguration anpassen, um Max. Token-Gesamtzahl (die maximale Anzahl von Tokens, die Sie zulassen möchten, d. h. die Summe Ihrer Eingabe-Token und der generierten Ausgabe des Modells), Max. Länge des Eingabe-Tokens (die maximale Anzahl von Tokens, die Sie für die Eingabe jeder Anforderung zulassen möchten) und Max Concurrent Requests (die maximale Anzahl von Anfragen, die das Modell gleichzeitig verarbeiten kann) anzugeben.

    3. Wählen Sie Select, um Ihren Instance-Typ und Ihre Konfigurationseinstellungen zu bestätigen.

  10. Das Feld Modell sollte bereits mit dem Namen des Modells oder der Modelle gefüllt sein, die Sie bereitstellen. Sie können Modell hinzufügen wählen, um der Bereitstellung weitere Modelle hinzuzufügen. Füllen Sie für jedes Modell, das Sie hinzufügen, die folgenden Felder aus:

    1. Geben Sie unter Anzahl der CPU-Kerne die CPU-Kerne ein, die Sie für die Nutzung des Modells reservieren möchten.

    2. Geben Sie unter Mindestanzahl an Kopien die Mindestanzahl von Modellkopien ein, die Sie zu einem bestimmten Zeitpunkt auf dem Endpunkt hosten möchten.

    3. Geben Sie unter Min. CPU-Arbeitsspeicher (MB) die Mindestmenge an Arbeitsspeicher (in MB) ein, die das Modell benötigt.

    4. Geben Sie für Max. CPU-Speicher (MB) die maximale Speichermenge (in MB) ein, die das Modell verwenden darf.

  11. (Optional) Gehen Sie für die erweiterten Optionen wie folgt vor:

    1. Verwenden Sie für die IAM-Rolle entweder die standardmäßige SageMaker IAM-Ausführungsrolle, oder geben Sie Ihre eigene Rolle an, die über die erforderlichen Berechtigungen verfügt. Beachten Sie, dass diese IAM-Rolle mit der Rolle identisch sein muss, die Sie bei der Erstellung des bereitstellbaren Modells angegeben haben.

    2. Für Virtual Private Cloud (VPC) können Sie eine VPC angeben, in der Sie Ihren Endpunkt hosten möchten.

    3. Wählen Sie für Encryption KMS Key einen AWS KMS Schlüssel aus, um Daten auf dem Speichervolume zu verschlüsseln, das an die ML-Compute-Instanz angehängt ist, die den Endpunkt hostet.

    4. Aktivieren Sie den Schalter Netzwerkisolierung aktivieren, um den Internetzugang Ihres Containers einzuschränken.

    5. Geben Sie für die Timeout-Konfiguration Werte für die Felder Timeout für den Download von Modelldaten (Sekunden) und Timeout für die Integritätsprüfung beim Container-Start (Sekunden) ein. Diese Werte bestimmen die maximale Zeitspanne, die für das SageMaker Herunterladen des Modells in den Container bzw. das Starten des Containers zur Verfügung steht.

    6. Geben Sie für Tags beliebige Tags als Schlüssel-Wert-Paare ein.

    Anmerkung

    SageMaker konfiguriert die IAM-Rollen-, VPC- und Netzwerkisolationseinstellungen mit Anfangswerten, die mit dem Modell kompatibel sind, das Sie bereitstellen. Wenn Sie die Kompatibilität durch Ändern dieser Einstellungen beeinträchtigen, zeigt Studio eine Warnung an und verhindert Ihre Bereitstellung.

Nach der Konfiguration Ihrer Optionen sollte die Seite wie im folgenden Screenshot aussehen.

Screenshot der Deploy-Modellseite in Studio.

Nachdem Sie Ihre Bereitstellung konfiguriert haben, wählen Sie Deploy, um den Endpunkt zu erstellen und Ihr Modell bereitzustellen.

Modelle mit den Python-SDKs bereitstellen

Mit dem SageMaker Python-SDK können Sie Ihr Modell auf zwei Arten erstellen. Die erste besteht darin, ein Modellobjekt aus der ModelBuilder Klasse Model or zu erstellen. Wenn Sie die Model Klasse verwenden, um Ihr Model Objekt zu erstellen, müssen Sie das Modellpaket oder den Inferenzcode (abhängig von Ihrem Modellserver), Skripten für die Serialisierung und Deserialisierung von Daten zwischen dem Client und dem Server sowie alle Abhängigkeiten angeben, die zur Nutzung auf Amazon S3 hochgeladen werden sollen. Die zweite Möglichkeit, Ihr Modell zu erstellen, besteht darin, die von Ihnen bereitgestellten Modellartefakte oder Inferenzcode zu verwendenModelBuilder. ModelBuildererfasst automatisch Ihre Abhängigkeiten, leitet die benötigten Serialisierungs- und Deserialisierungsfunktionen ab und packt Ihre Abhängigkeiten, um Ihr Objekt zu erstellen. Model Mehr über ModelBuilder erfahren Sie unter Erstellen eines Modells in Amazon SageMaker mit ModelBuilder.

Im folgenden Abschnitt werden beide Methoden beschrieben, mit denen Sie Ihr Modell erstellen und Ihr Modellobjekt bereitstellen können.

Einrichten

Die folgenden Beispiele bereiten den Prozess der Modellbereitstellung vor. Sie importieren die erforderlichen Bibliotheken und definieren die S3-URL, die die Modellartefakte lokalisiert.

SageMaker Python SDK
Beispiel Anweisungen importieren

Im folgenden Beispiel werden Module aus dem SageMaker Python-SDK, dem SDK für Python (Boto3) und der Python-Standardbibliothek importiert. Diese Module bieten nützliche Methoden, die Ihnen bei der Bereitstellung von Modellen helfen, und sie werden in den übrigen folgenden Beispielen verwendet.

import boto3 from datetime import datetime from sagemaker.compute_resource_requirements.resource_requirements import ResourceRequirements from sagemaker.predictor import Predictor from sagemaker.enums import EndpointType from sagemaker.model import Model from sagemaker.session import Session
boto3 inference components
Beispiel Anweisungen importieren

Das folgende Beispiel importiert Module aus dem SDK for Python (Boto3) und der Python Standard Library. Diese Module bieten nützliche Methoden, die Ihnen bei der Bereitstellung von Modellen helfen, und sie werden in den übrigen folgenden Beispielen verwendet.

import boto3 import botocore import sys import time
boto3 models (without inference components)
Beispiel Anweisungen importieren

Das folgende Beispiel importiert Module aus dem SDK for Python (Boto3) und der Python Standard Library. Diese Module bieten nützliche Methoden, die Ihnen bei der Bereitstellung von Modellen helfen, und sie werden in den übrigen folgenden Beispielen verwendet.

import boto3 import botocore import datetime from time import gmtime, strftime
Beispiel URL des Modellartefakts

Der folgende Code erstellt eine Amazon S3 S3-Beispiel-URL. Die URL sucht nach den Modellartefakten für ein vortrainiertes Modell in einem Amazon S3 S3-Bucket.

# Create a variable w/ the model S3 URL # The name of your S3 bucket: s3_bucket = "DOC-EXAMPLE-BUCKET" # The directory within your S3 bucket your model is stored in: bucket_prefix = "sagemaker/model/path" # The file name of your model artifact: model_filename = "my-model-artifact.tar.gz" # Relative S3 path: model_s3_key = f"{bucket_prefix}/"+model_filename # Combine bucket name, model file name, and relate S3 path to create S3 model URL: model_url = f"s3://{s3_bucket}/{model_s3_key}"

Die vollständige Amazon S3 S3-URL wird in der Variablen gespeichertmodel_url, die in den folgenden Beispielen verwendet wird.

Übersicht

Es gibt mehrere Möglichkeiten, Modelle mit dem SageMaker Python-SDK oder dem SDK für Python (Boto3) bereitzustellen. In den folgenden Abschnitten werden die Schritte zusammengefasst, die Sie für verschiedene mögliche Ansätze ausführen. Diese Schritte werden anhand der folgenden Beispiele veranschaulicht.

SageMaker Python SDK

Mit dem SageMaker Python-SDK können Sie Ihr Modell auf eine der folgenden Arten erstellen:

  • Erstellen Sie ein Modellobjekt aus der Model Klasse — Sie müssen das Modellpaket oder den Inferenzcode (abhängig von Ihrem Modellserver), Skripten für die Serialisierung und Deserialisierung von Daten zwischen dem Client und dem Server sowie alle Abhängigkeiten angeben, die zur Nutzung auf Amazon S3 hochgeladen werden sollen.

  • Erstellen Sie ein Modellobjekt aus der ModelBuilder Klasse — Sie stellen Modellartefakte oder Inferenzcode bereit und erfassen ModelBuilder automatisch Ihre Abhängigkeiten, leiten die benötigten Serialisierungs- und Deserialisierungsfunktionen ab und packen Ihre Abhängigkeiten, um Ihr Model Objekt zu erstellen.

    Mehr über ModelBuilder erfahren Sie unter Erstellen eines Modells in Amazon SageMaker mit ModelBuilder. Weitere Informationen finden Sie auch im Blog Package and Deploy Classical ML Models und LLMs easy with SageMaker — Teil 1.

In den folgenden Beispielen werden beide Methoden beschrieben, mit denen Sie Ihr Modell erstellen und Ihr Modellobjekt bereitstellen können. Um ein Modell auf diese Weise bereitzustellen, führen Sie die folgenden Schritte aus:

  1. Definieren Sie die Endpunktressourcen, die dem Modell mit einem ResourceRequirements Objekt zugewiesen werden sollen.

  2. Erstellen Sie ein Modellobjekt aus den ModelBuilder Klassen Model oder. Das ResourceRequirements Objekt ist in den Modelleinstellungen angegeben.

  3. Stellen Sie das Modell mithilfe der deploy Methode des Model Objekts auf einem Endpunkt bereit.

boto3 inference components

Die folgenden Beispiele zeigen, wie Sie einer Inferenzkomponente ein Modell zuweisen und die Inferenzkomponente dann auf einem Endpunkt bereitstellen. Um ein Modell auf diese Weise bereitzustellen, führen Sie die folgenden Schritte aus:

  1. (Optional) Erstellen Sie mithilfe der create_modelMethode ein SageMaker Modellobjekt.

  2. Geben Sie die Einstellungen für Ihren Endpunkt an, indem Sie ein Endpunktkonfigurationsobjekt erstellen. Um eines zu erstellen, verwenden Sie die create_endpoint_configMethode.

  3. Erstellen Sie Ihren Endpunkt mithilfe der create_endpointMethode und geben Sie in Ihrer Anfrage die Endpunktkonfiguration an, die Sie erstellt haben.

  4. Erstellen Sie mithilfe der create_inference_component Methode eine Inferenzkomponente. In den Einstellungen geben Sie ein Modell an, indem Sie einen der folgenden Schritte ausführen:

    • Ein SageMaker Modellobjekt angeben

    • Angabe des Modellbild-URI und der S3-URL

    Sie weisen dem Modell auch Endpunktressourcen zu. Durch die Erstellung der Inferenzkomponente stellen Sie das Modell auf dem Endpunkt bereit. Sie können mehrere Modelle auf einem Endpunkt bereitstellen, indem Sie mehrere Inferenzkomponenten erstellen — eine für jedes Modell.

boto3 models (without inference components)

Die folgenden Beispiele zeigen, wie Sie ein Modellobjekt erstellen und das Modell anschließend auf einem Endpunkt bereitstellen. Um ein Modell auf diese Weise bereitzustellen, führen Sie die folgenden Schritte aus:

  1. Erstellen Sie mithilfe der create_modelMethode ein SageMaker Modell.

  2. Geben Sie die Einstellungen für Ihren Endpunkt an, indem Sie ein Endpunktkonfigurationsobjekt erstellen. Um eines zu erstellen, verwenden Sie die create_endpoint_configMethode. In der Endpunktkonfiguration weisen Sie das Modellobjekt einer Produktionsvariante zu.

  3. Erstellen Sie Ihren Endpunkt mithilfe der create_endpointMethode. Geben Sie in Ihrer Anfrage die Endpunktkonfiguration an, die Sie erstellt haben.

    Wenn Sie den Endpunkt erstellen, werden SageMaker die Endpunktressourcen bereitgestellt und das Modell wird auf dem Endpunkt bereitgestellt.

Konfiguration

In den folgenden Beispielen werden die Ressourcen konfiguriert, die Sie für die Bereitstellung eines Modells auf einem Endpunkt benötigen.

SageMaker Python SDK

Im folgenden Beispiel werden einem Modell mit einem ResourceRequirements Objekt Endpunktressourcen zugewiesen. Zu diesen Ressourcen gehören CPU-Kerne, Beschleuniger und Speicher. Anschließend erstellt das Beispiel ein Modellobjekt aus der Model Klasse. Alternativ können Sie ein Modellobjekt erstellen, indem Sie die ModelBuilderKlasse instanziieren und ausführen build — diese Methode wird auch im Beispiel gezeigt. ModelBuilderbietet eine einheitliche Schnittstelle für das Paketieren von Modellen und bereitet in diesem Fall ein Modell für eine umfangreiche Modellbereitstellung vor. Das Beispiel verwendet, ModelBuilder um ein Hugging Face Face-Modell zu konstruieren. (Sie können auch ein JumpStart Modell übergeben). Sobald Sie das Modell erstellt haben, können Sie die Ressourcenanforderungen im Modellobjekt angeben. Im nächsten Schritt verwenden Sie dieses Objekt, um das Modell auf einem Endpunkt bereitzustellen.

resources = ResourceRequirements( requests = { "num_cpus": 2, # Number of CPU cores required: "num_accelerators": 1, # Number of accelerators required "memory": 8192, # Minimum memory required in Mb (required) "copies": 1, }, limits = {}, ) now = datetime.now() dt_string = now.strftime("%d-%m-%Y-%H-%M-%S") model_name = "my-sm-model"+dt_string # build your model with Model class model = Model( name = "model-name", image_uri = "image-uri", model_data = model_url, role = "arn:aws:iam::111122223333:role/service-role/role-name", resources = resources, predictor_cls = Predictor, ) # Alternate mechanism using ModelBuilder # uncomment the following section to use ModelBuilder /* model_builder = ModelBuilder( model="<HuggingFace-ID>", # like "meta-llama/Llama-2-7b-hf" schema_builder=SchemaBuilder(sample_input,sample_output), env_vars={ "HUGGING_FACE_HUB_TOKEN": "<HuggingFace_token>}" } ) # build your Model object model = model_builder.build() # create a unique name from string 'mb-inference-component' model.model_name = unique_name_from_base("mb-inference-component") # assign resources to your model model.resources = resources */
boto3 inference components

Im folgenden Beispiel wird ein Endpunkt mit der create_endpoint_config Methode konfiguriert. Sie weisen diese Konfiguration einem Endpunkt zu, wenn Sie ihn erstellen. In der Konfiguration definieren Sie eine oder mehrere Produktionsvarianten. Für jede Variante können Sie den Instance-Typ auswählen, den Amazon bereitstellen SageMaker soll, und Sie können die verwaltete Instance-Skalierung aktivieren.

endpoint_config_name = "endpoint-config-name" endpoint_name = "endpoint-name" inference_component_name = "inference-component-name" variant_name = "variant-name" sagemaker_client.create_endpoint_config( EndpointConfigName = endpoint_config_name, ExecutionRoleArn = "arn:aws:iam::111122223333:role/service-role/role-name", ProductionVariants = [ { "VariantName": variant_name, "InstanceType": "ml.p4d.24xlarge", "InitialInstanceCount": 1, "ManagedInstanceScaling": { "Status": "ENABLED", "MinInstanceCount": 1, "MaxInstanceCount": 2, }, } ], )
boto3 models (without inference components)
Beispiel Modelldefinition

Das folgende Beispiel definiert ein SageMaker Modell mit der create_model Methode in AWS SDK for Python (Boto3).

model_name = "model-name" create_model_response = sagemaker_client.create_model( ModelName = model_name, ExecutionRoleArn = "arn:aws:iam::111122223333:role/service-role/role-name", PrimaryContainer = { "Image": "image-uri", "ModelDataUrl": model_url, } )

Dieses Beispiel spezifiziert Folgendes:

  • ModelName: Ein Name für Ihr Modell (in diesem Beispiel wird es als String-variable namens model_name gespeichert).

  • ExecutionRoleArn: Der Amazon-Ressourcenname (ARN) der IAM-Rolle, die Amazon für den Zugriff auf Modellartefakte und Docker-Images für die Bereitstellung auf ML-Compute-Instances oder für Batch-Transformationsjobs übernehmen SageMaker kann.

  • PrimaryContainer: Der Speicherort des primären Docker-Image mit Inferenzcode, zugehörigen Artefakten und benutzerdefinierter Umgebungs-Map, die der Inferenz-Code verwendet, wenn das Modell für die Voraussagen bereitgestellt wird.

Beispiel Endpunktkonfiguration

Im folgenden Beispiel wird ein Endpunkt mit der Methode konfiguriert. create_endpoint_config Amazon SageMaker verwendet diese Konfiguration zur Bereitstellung von Modellen. In der Konfiguration identifizieren Sie ein oder mehrere Modelle, die mit der create_model Methode erstellt wurden, um die Ressourcen bereitzustellen, die Amazon SageMaker bereitstellen soll.

endpoint_config_response = sagemaker_client.create_endpoint_config( EndpointConfigName = "endpoint-config-name", # List of ProductionVariant objects, one for each model that you want to host at this endpoint: ProductionVariants = [ { "VariantName": "variant-name", # The name of the production variant. "ModelName": model_name, "InstanceType": "ml.p4d.24xlarge", "InitialInstanceCount": 1 # Number of instances to launch initially. } ] )

In diesem Beispiel werden die folgenden Schlüssel für das ProductionVariants Feld angegeben:

Bereitstellen

In den folgenden Beispielen wird ein Modell auf einem Endpunkt bereitgestellt.

SageMaker Python SDK

Im folgenden Beispiel wird das Modell mit der deploy Methode des Modellobjekts auf einem Echtzeit-HTTPS-Endpunkt bereitgestellt. Wenn Sie einen Wert für das resources Argument sowohl für die Modellerstellung als auch für die Bereitstellung angeben, haben die Ressourcen, die Sie für die Bereitstellung angeben, Vorrang.

predictor = model.deploy( initial_instance_count = 1, instance_type = "ml.p4d.24xlarge", endpoint_type = EndpointType.INFERENCE_COMPONENT_BASED, resources = resources, )

Für das instance_type Feld gibt das Beispiel den Namen des Amazon EC2 EC2-Instance-Typs für das Modell an. Für das initial_instance_count Feld gibt es die anfängliche Anzahl von Instances an, auf denen der Endpunkt ausgeführt werden soll.

Das folgende Codebeispiel zeigt einen weiteren Fall, in dem Sie ein Modell auf einem Endpunkt und dann ein anderes Modell auf demselben Endpunkt bereitstellen. In diesem Fall müssen Sie denselben Endpunktnamen für die deploy Methoden beider Modelle angeben.

# Deploy the model to inference-component-based endpoint falcon_predictor = falcon_model.deploy( initial_instance_count = 1, instance_type = "ml.p4d.24xlarge", endpoint_type = EndpointType.INFERENCE_COMPONENT_BASED, endpoint_name = "<endpoint_name>" resources = resources, ) # Deploy another model to the same inference-component-based endpoint llama2_predictor = llama2_model.deploy( # resources already set inside llama2_model endpoint_type = EndpointType.INFERENCE_COMPONENT_BASED, endpoint_name = "<endpoint_name>" # same endpoint name as for falcon model )
boto3 inference components

Sobald Sie eine Endpunktkonfiguration haben, verwenden Sie die Methode create_endpoint, um Ihren Endpunkt zu erstellen. Der Endpunktname muss innerhalb und AWS-Region in Ihrem AWS Konto eindeutig sein.

Im folgenden Beispiel wird ein Endpunkt mithilfe der in der Anfrage angegebenen Endpunktkonfiguration erstellt. Amazon SageMaker verwendet den Endpunkt zur Bereitstellung von Ressourcen.

sagemaker_client.create_endpoint( EndpointName = endpoint_name, EndpointConfigName = endpoint_config_name, )

Nachdem Sie einen Endpunkt erstellt haben, können Sie ihm einen oder mehrere Modelle bereitstellen, indem Sie Inferenzkomponenten erstellen. Das folgende Beispiel erstellt einen mit der create_inference_component Methode.

sagemaker_client.create_inference_component( InferenceComponentName = inference_component_name, EndpointName = endpoint_name, VariantName = variant_name, Specification = { "Container": { "Image": "image-uri", "ArtifactUrl": model_url, }, "ComputeResourceRequirements": { "NumberOfCpuCoresRequired": 1, "MinMemoryRequiredInMb": 1024 } }, RuntimeConfig = {"CopyCount": 2} )
boto3 models (without inference components)
Beispiel Bereitstellung

Stellen Sie die Endpunktkonfiguration für bereit SageMaker. Der Service startet die ML-Compute-Instances und stellt die Modelle gemäß der Konfiguration bereit.

Sobald Sie Ihr Modell und Ihre Endpunktkonfiguration haben, verwenden Sie die Methode create_endpoint, um Ihren Endpunkt zu erstellen. Der Endpunktname muss innerhalb und AWS-Region in Ihrem AWS Konto eindeutig sein.

Im folgenden Beispiel wird ein Endpunkt mithilfe der in der Anfrage angegebenen Endpunktkonfiguration erstellt. Amazon SageMaker verwendet den Endpunkt, um Ressourcen bereitzustellen und Modelle bereitzustellen.

create_endpoint_response = sagemaker_client.create_endpoint( # The endpoint name must be unique within an AWS Region in your AWS account: EndpointName = "endpoint-name" # The name of the endpoint configuration associated with this endpoint: EndpointConfigName = "endpoint-config-name")

Stellen Sie Modelle bereit mit dem AWS CLI

Sie können ein Modell auf einem Endpunkt bereitstellen, indem Sie den verwenden AWS CLI.

Übersicht

Wenn Sie ein Modell mit dem bereitstellen AWS CLI, können Sie es mit oder ohne Verwendung einer Inferenzkomponente bereitstellen. In den folgenden Abschnitten werden die Befehle zusammengefasst, die Sie für beide Ansätze ausführen. Diese Befehle werden anhand der folgenden Beispiele veranschaulicht.

With inference components

Gehen Sie wie folgt vor, um ein Modell mit einer Inferenzkomponente bereitzustellen:

  1. (Optional) Erstellen Sie ein Modell mit dem create-modelBefehl.

  2. Geben Sie die Einstellungen für Ihren Endpunkt an, indem Sie eine Endpunktkonfiguration erstellen. Um einen zu erstellen, führen Sie den create-endpoint-configBefehl aus.

  3. Erstellen Sie Ihren Endpunkt mithilfe des create-endpointBefehls. Geben Sie im Befehlstext die Endpunktkonfiguration an, die Sie erstellt haben.

  4. Erstellen Sie mit dem create-inference-component Befehl eine Inferenzkomponente. In den Einstellungen geben Sie ein Modell an, indem Sie einen der folgenden Schritte ausführen:

    • Ein SageMaker Modellobjekt angeben

    • Angabe des Modellbild-URI und der S3-URL

    Sie weisen dem Modell auch Endpunktressourcen zu. Durch die Erstellung der Inferenzkomponente stellen Sie das Modell auf dem Endpunkt bereit. Sie können mehrere Modelle auf einem Endpunkt bereitstellen, indem Sie mehrere Inferenzkomponenten erstellen — eine für jedes Modell.

Without inference components

Gehen Sie wie folgt vor, um ein Modell ohne Verwendung einer Inferenzkomponente bereitzustellen:

  1. Erstellen Sie mit dem create-modelBefehl ein SageMaker Modell.

  2. Geben Sie die Einstellungen für Ihren Endpunkt an, indem Sie ein Endpunktkonfigurationsobjekt erstellen. Um eines zu erstellen, verwenden Sie den create-endpoint-configBefehl. In der Endpunktkonfiguration weisen Sie das Modellobjekt einer Produktionsvariante zu.

  3. Erstellen Sie Ihren Endpunkt mit dem create-endpointBefehl. Geben Sie in Ihrem Befehlstext die Endpunktkonfiguration an, die Sie erstellt haben.

    Wenn Sie den Endpunkt erstellen, werden SageMaker die Endpunktressourcen bereitgestellt und das Modell wird auf dem Endpunkt bereitgestellt.

Konfiguration

In den folgenden Beispielen werden die Ressourcen konfiguriert, die Sie für die Bereitstellung eines Modells auf einem Endpunkt benötigen.

With inference components
Beispiel create-endpoint-config Befehl

Im folgenden Beispiel wird eine Endpunktkonfiguration mit dem Befehl create-endpoint-config erstellt.

aws sagemaker create-endpoint-config \ --endpoint-config-name endpoint-config-name \ --execution-role-arn arn:aws:iam::111122223333:role/service-role/role-name\ --production-variants file://production-variants.json

In diesem Beispiel production-variants.json definiert die Datei eine Produktionsvariante mit dem folgenden JSON:

[ { "VariantName": "variant-name", "ModelName": "model-name", "InstanceType": "ml.p4d.24xlarge", "InitialInstanceCount": 1 } ]

Wenn der Befehl erfolgreich ist, AWS CLI antwortet der mit dem ARN für die von Ihnen erstellte Ressource.

{ "EndpointConfigArn": "arn:aws:sagemaker:us-west-2:111122223333:endpoint-config/endpoint-config-name" }
Without inference components
Beispiel Befehl create-model

Im folgenden Beispiel wird ein Modell mit dem Befehl create-model erstellt.

aws sagemaker create-model \ --model-name model-name \ --execution-role-arn arn:aws:iam::111122223333:role/service-role/role-name \ --primary-container "{ \"Image\": \"image-uri\", \"ModelDataUrl\": \"model-s3-url\"}"

Wenn der Befehl erfolgreich ist, AWS CLI antwortet der mit dem ARN für die von Ihnen erstellte Ressource.

{ "ModelArn": "arn:aws:sagemaker:us-west-2:111122223333:model/model-name" }
Beispiel create-endpoint-config Befehl

Im folgenden Beispiel wird eine Endpunktkonfiguration mit dem Befehl create-endpoint-config erstellt.

aws sagemaker create-endpoint-config \ --endpoint-config-name endpoint-config-name \ --production-variants file://production-variants.json

In diesem Beispiel production-variants.json definiert die Datei eine Produktionsvariante mit dem folgenden JSON:

[ { "VariantName": "variant-name", "ModelName": "model-name", "InstanceType": "ml.p4d.24xlarge", "InitialInstanceCount": 1 } ]

Wenn der Befehl erfolgreich ist, AWS CLI antwortet der mit dem ARN für die von Ihnen erstellte Ressource.

{ "EndpointConfigArn": "arn:aws:sagemaker:us-west-2:111122223333:endpoint-config/endpoint-config-name" }

Bereitstellen

In den folgenden Beispielen wird ein Modell auf einem Endpunkt bereitgestellt.

With inference components
Beispiel Befehl create-endpoint

Im folgenden Beispiel wird mit dem Befehl create-endpoint ein Endpunkt erstellt.

aws sagemaker create-endpoint \ --endpoint-name endpoint-name \ --endpoint-config-name endpoint-config-name

Wenn der Befehl erfolgreich ist, AWS CLI antwortet der mit dem ARN für die von Ihnen erstellte Ressource.

{ "EndpointArn": "arn:aws:sagemaker:us-west-2:111122223333:endpoint/endpoint-name" }
Beispiel create-inference-component Befehl

Im folgenden Beispiel wird mit dem create-inference-component Befehl eine Inferenzkomponente erstellt.

aws sagemaker create-inference-component \ --inference-component-name inference-component-name \ --endpoint-name endpoint-name \ --variant-name variant-name \ --specification file://specification.json \ --runtime-config "{\"CopyCount\": 2}"

In diesem Beispiel specification.json definiert die Datei den Container und die Rechenressourcen mit dem folgenden JSON:

{ "Container": { "Image": "image-uri", "ArtifactUrl": "model-s3-url" }, "ComputeResourceRequirements": { "NumberOfCpuCoresRequired": 1, "MinMemoryRequiredInMb": 1024 } }

Wenn der Befehl erfolgreich ist, AWS CLI antwortet der mit dem ARN für die von Ihnen erstellte Ressource.

{ "InferenceComponentArn": "arn:aws:sagemaker:us-west-2:111122223333:inference-component/inference-component-name" }
Without inference components
Beispiel Befehl create-endpoint

Im folgenden Beispiel wird mit dem Befehl create-endpoint ein Endpunkt erstellt.

aws sagemaker create-endpoint \ --endpoint-name endpoint-name \ --endpoint-config-name endpoint-config-name

Wenn der Befehl erfolgreich ist, AWS CLI antwortet der mit dem ARN für die von Ihnen erstellte Ressource.

{ "EndpointArn": "arn:aws:sagemaker:us-west-2:111122223333:endpoint/endpoint-name" }