Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Inferenz-Pipeline-Protokolle und -Metriken
Überwachung ist wichtig, um die Zuverlässigkeit, Verfügbarkeit und Leistung von Amazon aufrechtzuerhalten SageMaker Ressourcen schätzen. Verwenden Sie Amazon, um die Leistung von Inferenz-Pipelines zu überwachen und zu beheben CloudWatch Protokolle und Fehlermeldungen. Weitere Informationen zu den Überwachungstools, die SageMaker bereitstellt, finden Sie unterÜberwachung von Amazon SageMakeraus.
Verwenden von Metriken zum Überwachen von Multicontainer-Modellen
Verwenden Sie Amazon CloudWatch, um die Modelle mit mehreren Containern in Inference Pipelines zu überwachen. CloudWatch sammelt Rohdaten und verarbeitet sie zu lesbaren Metriken, die nahezu in Echtzeit erfolgen. SageMakerSchreiben von Trainingsaufträgen und -Endpunkten CloudWatch Metriken und -Protokolle imAWS/SageMaker
Namensraumaus.
Die folgenden Tabellen listen die Metriken und Dimensionen für Folgendes auf:
-
Endpunkt-Aufrufe
-
Schulungsaufträge, Stapeltransformationsaufträge und Endpunkt-Instances
Eine Dimension ist ein Name-Wert-Paar, durch das eine Metrik eindeutig identifiziert wird. Sie können einer Metrik bis zu 10 Dimensionen zuweisen. Weitere Informationen zur Überwachung mit CloudWatch finden Sie unterÜberwachen von Amazon SageMaker mit Amazon CloudWatchaus.
Endpoint Invocation Metrics (Metriken für Endpunktaufrufe)
Die AWS/SageMaker
Der -Namespace enthält die folgendenAnfordern von Metriken von -AufrufenInvokeEndpoint
aus.
Metriken werden in Intervallen von einer Minute gemeldet.
Metrik | Beschreibung |
---|---|
Invocation4XXErrors |
Die Anzahl der Einheiten: Keine Gültige Statistiken: |
Invocation5XXErrors |
Die Anzahl der Einheiten: Keine Gültige Statistiken: |
Invocations |
Die an einen Modellendpunkt gesendeten Mit der Einheiten: Keine Gültige Statistiken: |
InvocationsPerInstance |
Die Anzahl der an ein Modell gesendeten EndpunktaufrufeNormalisiert durch Einheiten: Keine Gültige Statistiken: |
ModelLatency |
Die Zeit, die das/die Modell(e) für die Antwort gebraucht hat/haben. Dies umfasst die Zeit, die zum Senden der Anforderung, zum Abrufen der Antwort vom Modell-Container und zum Abschluss der Inferenz in dem Container benötigt wurde. ModelLatency ist die Gesamtzeit von allen Containern in einer Inferenz-Pipeline.Einheiten: Mikrosekunden Gültige Statistiken: |
OverheadLatency |
Die Zeit, die zu der Zeit für die Reaktion auf eine Client-Anforderung von SageMaker Für Overhead. Einheiten: Mikrosekunden Gültige Statistiken: |
ContainerLatency |
Die Zeit, die ein Container von Inferenz-Pipelines benötigt, um zu antwortenwie von SageMaker angesehenaus.ContainerLatency enthält die Zeit, die zum Senden der Anforderung, zum Abrufen der Antwort aus dem Container des Modells und zum Abschluss der Inferenz im Container benötigt wird.Einheiten: Mikrosekunden Gültige Statistiken: |
Dimensions for Endpoint Invocation Metrics (Dimensionen der Metriken für Endpunktaufrufe)
Dimension | Beschreibung |
---|---|
EndpointName, VariantName, ContainerName |
Filtert Metriken für den Endpunktaufruf einer |
Für einen Endpunkt der Inferenz-Pipeline CloudWatch listet Latenzmetriken pro Container in Ihrem Konto auf alsMetriken für Endpunktcontainerund-Endpunktvarianten MetrikenimSageMakerNamespace wie folgt. Die ContainerLatency
-Metrik wird nur für Inferenz-Pipelines angezeigt.

Für jeden Endpunkt und jeden Container zeigen Latenzmetriken Namen fürDer Container, der Endpunkt, die Variante und die Metrik.

Schulungsauftrag-, Stapeltransformationsauftrag- und Endpunkt-Instance-Metriken
Die Namespaces /aws/sagemaker/TrainingJobs
, /aws/sagemaker/TransformJobs
und /aws/sagemaker/Endpoints
beinhalten die folgenden Metriken für die Schulungsaufträge und Endpunkt-Instances.
Metriken werden in Intervallen von einer Minute gemeldet.
Metrik | Beschreibung |
---|---|
CPUUtilization |
Der Prozentsatz der CPU-Einheiten, die von den Containern auf einer Instance verwendet werden. Der Wert reicht von 0 % bis 100 % und wird mit der Anzahl der CPUs multipliziert. Wenn beispielsweise vier CPUs genutzt werden, kann Bei Schulungsaufträgen ist Bei Stapeltransformationsaufträgen ist Bei Multi-Container-Modellen ist Für-Endpunktvarianten, Einheiten: Prozent |
MemoryUtilization |
Der Prozentsatz des Speichers, der von den Containern auf einer Instance belegt wird. Dieser Wert reicht von 0 bis 100 %. Bei Schulungsaufträgen ist Bei Stapeltransformationsaufträgen ist MemoryUtilization ist die Summe des Speichers für alle Container, die auf der Instance ausgeführt werden.Bei Endpunkt-Varianten ist Einheiten: Prozent |
GPUUtilization |
Der Prozentsatz der GPU-Einheiten, die von den Containern verwendet werden, die auf einer Instance ausgeführt werden. Bei Schulungsaufträgen ist Bei Stapeltransformationsaufträgen ist Bei Multi-Container-Modellen ist Bei Endpunkt-Varianten ist Einheiten: Prozent |
GPUMemoryUtilization |
Der Prozentsatz des GPU-Speichers, der von den Containern auf einer Instance belegt wird. GPUMemoryUtilization reicht von 0 % bis 100 % und wird mit der Anzahl der GPUs multipliziert. Wenn beispielsweise vier GPUs genutzt werden, kann Bei Schulungsaufträgen ist Bei Stapeltransformationsaufträgen ist Bei Multi-Container-Modellen ist Bei Endpunkt-Varianten ist Einheiten: Prozent |
DiskUtilization |
Der Prozentsatz des Speicherplatzes, der von den Containern auf einer Instance verwendet wird. DiskUtilization reicht von 0% bis 100%. Diese Metrik wird für Stapeltransformationsaufträge nicht unterstützt. Bei Schulungsaufträgen ist Für -Endpunktvarianten Einheiten: Prozent |
Dimensions for Training Job, Batch Transform Job, and Endpoint Instance Metrics (Dimensionen für Instance-Metriken für Schulungsaufträge, Stapeltransformationsaufträge und Endpunkte)
Dimension | Beschreibung |
---|---|
Host |
Bei Schulungsaufträgen hat Bei Stapeltransformationsaufträgen hat Bei Endpunkten hat |
Damit Sie Ihre Schulungsaufträge, Endpunkte und Lebenszykluskonfigurationen von Notebook-Instances leichter debuggen können, SageMaker sendet alles, was von einem Algorithmus-Container, einem Modell-Container oder der Lebenszykluskonfiguration einer Notebook-Instance an gesendet wirdstdout
oderstderr
nach Amazon CloudWatch Protokolle. Sie können diese Informationen zum Debugging und zur Fortschrittanalyse verwenden.
Verwenden von Protokollen zum Überwachen einer Inferenz-Pipeline
Die folgende Tabelle gibt die Protokollgruppen und Protokollstreams auf SageMaker.sendet an Amazon CloudWatch
Ein Protokollstream ist eine Abfolge von Protokollereignissen, die dieselbe Quelle nutzen. Jede separate Quelle für Protokolle in CloudWatch bildet einen separaten Protokollstream. Eine Protokollgruppe ist eine Gruppe von Protokollstreams, die dieselben Einstellungen für die Aufbewahrung, Überwachung und Zugriffskontrolle besitzen.
Protokolle
Protokollgruppenname | Protokollstreamname |
---|---|
/aws/sagemaker/TrainingJobs |
|
/aws/sagemaker/Endpoints/[EndpointName] |
|
|
|
|
|
/aws/sagemaker/NotebookInstances |
|
/aws/sagemaker/TransformJobs |
|
|
|
|
SageMaker erstellt das/aws/sagemaker/NotebookInstances
-Protokollgruppe, wenn Sie eine Notebook-Instance mit einer Lebenszykluskonfiguration erstellen. Weitere Informationen finden Sie unter Anpassen einer Notebook-Instances mithilfe eines Lifecycle-Konfigurationsskripts .
Weitere Informationen zu SageMaker protokollieren, sieheAmazon-SageMaker-Ereignisse mit Amazon CloudWatch protokollierenaus.