Verwenden Ihres eigenen Inferenzcodes mit Stapeltransformation - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden Ihres eigenen Inferenzcodes mit Stapeltransformation

In diesem Abschnitt wird erläutert, wie Amazon mit einem Docker-Container SageMaker interagiert, der Ihren eigenen Inferenzcode für die Batch-Transformation ausführt. Verwenden Sie diese Informationen zum Schreiben von Inferenzcode und zum Erstellen eines Docker-Images.

So SageMaker führt Ihr Inferenzbild aus

Um einen Container so zu konfigurieren, dass er als ausführbare Datei ausgeführt wird, verwenden Sie eine ENTRYPOINT-Anweisung in einer Dockerfile. Beachten Sie Folgendes:

  • Bei Batch-Transformationen SageMaker ruft das Modell in Ihrem Namen auf. SageMaker führt den Container wie folgt aus:

    docker run image serve

    Die Eingabe für Batch-Transformationen muss ein Format haben, das in kleinere Dateien aufgeteilt werden kann, um sie parallel zu verarbeiten. Zu diesen Formaten gehören CSV, JSON, JSON-Zeilen, TFRecord und RecordIO.

    SageMaker überschreibt CMD Standardanweisungen in einem Container, indem das serve Argument hinter dem Image-Namen angegeben wird. Das serve-Argument überschreibt Argumente, die Sie mit dem CMD-Befehl in der Dockerfile bereitstellen.

     

  • Es wird empfohlen, das exec-Formular der ENTRYPOINT-Anleitung zu verwenden:

    ENTRYPOINT ["executable", "param1", "param2"]

    Beispielsweise:

    ENTRYPOINT ["python", "k_means_inference.py"]

     

  • SageMaker legt Umgebungsvariablen fest, die in CreateModel und CreateTransformJob auf Ihrem Container angegeben sind. Zusätzlich werden die folgenden Umgebungsvariablen ausgefüllt:

    • SAGEMAKER_BATCH wird auf true gesetzt, wenn der Container Batch-Transformationen durchführt.

    • SAGEMAKER_MAX_PAYLOAD_IN_MB wird auf die größte Nutzlast gesetzt, die über HTTP an den Container gesendet wird.

    • SAGEMAKER_BATCH_STRATEGY wird auf SINGLE_RECORD gesetzt, wenn der Container einen einzigen Datensatz pro Aufruf erhält, und auf MULTI_RECORD, wenn der Container so viele Datensätze erhält, wie in die Nutzlast passen.

    • SAGEMAKER_MAX_CONCURRENT_TRANSFORMS ist auf die maximale Anzahl von /invocations-Anfragen festgelegt, die gleichzeitig geöffnet werden können.

    Anmerkung

    Die letzten drei Umgebungsvariablen stammen aus dem API-Aufruf durch den Benutzer. Wenn der Benutzer hierfür keine Werte festlegt, werden sie nicht übergeben. In diesem Fall werden entweder die Standardwerte oder die vom Algorithmus (als Antwort auf /execution-parameters) angeforderten Werte verwendet.

  • Wenn Sie planen, GPU-Geräte für Modellinferenzen zu verwenden (durch Angabe GPU-basierter ML-Datenverarbeitungs-Instances in Ihrer CreateTransformJob-Anforderung), stellen Sie sicher, dass Ihre Container nvidia-docker-kompatibel sind. Bündeln Sie NVIDIA-Treiber nicht mit dem Abbild. Mehr Informationen über nvidia-docker finden Sie unter NVIDIA/nvidia-docker.

     

  • Sie können den init-Initialisierer nicht als Ihren Eintrittspunkt in SageMaker-Containern verwenden, da er durch die Schulungs- und Bereitstellungsargumente irregeführt wird.

So SageMaker lädt Ihre Modellartefakte

In einer CreateModel-Anforderung enthalten Containerdefinitionen den ModelDataUrl-Parameter, der den Speicherort in Amazon S3 angibt, an dem die Modellartefakte gespeichert werden. Wenn Sie verwenden, SageMaker um Inferenzen auszuführen, werden diese Informationen verwendet, um zu bestimmen, woher die Modellartefakte kopiert werden sollen. Es kopiert die Artefakte für die Verwendung durch Ihren Inferenzcode in das /opt/ml/model-Verzeichnis im Docker-Container.

Der ModelDataUrl-Parameter muss auf eine tar.gz-Datei verweisen. Ansonsten kann SageMaker die Datei nicht herunterladen. Wenn Sie ein Modell in trainieren SageMaker, speichert es die Artefakte als einzelne komprimierte tar-Datei in Amazon S3. Wenn Sie ein Modell in einem anderen Framework trainieren, müssen Sie die Modellartefakte in Amazon S3 als komprimierte tar-Datei speichern. SageMaker dekomprimiert diese tar-Datei und speichert sie im -/opt/ml/modelVerzeichnis im Container, bevor der Batch-Transformationsauftrag beginnt.

So bearbeiten Container Anforderungen

Für Container muss ein Webserver implementiert werden, der auf Aufrufe und Ping-Anfragen auf Port 8080 reagiert. Bei Batch-Transformationen haben Sie die Möglichkeit, Algorithmen festzulegen, um Ausführungsparameteranforderungen zu implementieren, um eine dynamische Laufzeitkonfiguration für bereitzustellen SageMaker. SageMaker verwendet die folgenden Endpunkte:

  • ping– Wird verwendet, um den Zustand des containers regelmäßig zu überprüfen. SageMaker wartet auf einen HTTP-200Statuscode und einen leeren Text für eine erfolgreiche Ping-Anforderung, bevor eine Aufrufanforderung gesendet wird. Sie können eine Ping-Anfrage senden, um ein Modell in den Speicher zu laden und Interferenzen zu erzeugen, wenn Aufrufanforderungen gesendet werden.

  • (Optional) execution-parameters – Ermöglicht es dem Algorithmus, die optimalen Abstimmungsparameter für einen Auftrag zur Laufzeit bereitzustellen. Basierend auf dem für einen Container verfügbaren Speicher und den CPUs wählt der Algorithmus die entsprechenden MaxConcurrentTransforms-, BatchStrategy- und MaxPayloadInMB-Werte für den Auftrag aus.

Bevor die Aufrufanforderung aufgerufen wird, SageMaker versucht , die Ausführungsparameteranforderung aufzurufen. Wenn Sie einen Batch-Transformationsauftrag erstellen, können Sie Werte für die MaxPayloadInMB Parameter MaxConcurrentTransformsBatchStrategy, und angeben. SageMaker bestimmt die Werte für diese Parameter mit dieser Rangfolge:

  1. Die Parameterwerte, die Sie beim Erstellen der CreateTransformJob-Anforderung angeben.

  2. Die Werte, die der Modellcontainer zurückgibt, wenn den Endpunkt der Ausführungsparameter SageMaker aufruft>

  3. Die Standardparameterwerte sind in der folgenden Tabelle aufgeführt.

    Parameter Standardwerte
    MaxConcurrentTransforms

    1

    BatchStrategy

    MULTI_RECORD

    MaxPayloadInMB

    6

Die Antwort auf eine GET-Ausführungsparameter-Anforderung ist ein JSON-Objekt mit Schlüsseln für die MaxConcurrentTransforms-, BatchStrategy- und MaxPayloadInMB-Parameter. Dies ist ein Beispiel für eine gültige Antwort:

{ “MaxConcurrentTransforms”: 8, “BatchStrategy": "MULTI_RECORD", "MaxPayloadInMB": 6 }

So sollte Ihr Container auf Inferenzanforderungen reagieren

Um Inferenzen zu erhalten, SageMaker sendet Amazon eine POST-Anforderung an den Inferenzcontainer. Der POST-Anforderungstext enthält Daten aus Amazon S3. Amazon SageMaker übergibt die Anforderung an den Container und gibt das Inferenzergebnis aus dem Container zurück, wobei die Daten aus der Antwort in Amazon S3 gespeichert werden.

Zum Empfangen von Inferenzanforderungen muss der Container über einen Webserver verfügen, der den Port 8080 überwacht, und muss POST-Anforderungen an den /invocations-Endpunkt akzeptieren. Das Timeout für Inferenzanforderungen und die maximale Anzahl an Wiederholungen können über ModelClientConfigkonfiguriert werden.

So sollte Ihr Container auf Zustandsprüfungsanforderungen (Ping-Anforderungen) reagieren

Die einfachste Anforderung für den Container besteht darin, mit einem HTTP 200-Statuscode ohne Text zu antworten. Dies weist darauf hin SageMaker , dass der Container bereit ist, Inferenzanfragen am /invocations Endpunkt zu akzeptieren.

Die Mindestgrenze besteht darin, dass der Container statische 200 zurückgibt, ein Containerentwickler kann diese Funktionalität jedoch nutzen, um umfassendere Prüfungen durchzuführen. Das Anforderungstimeout bei /ping-Versuchen beträgt 2 Sekunden.