Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Inferenz-Pipeline-Protokolle und -Metriken
Die Überwachung ist wichtig für die Aufrechterhaltung der Zuverlässigkeit, Verfügbarkeit und Leistung von Amazon SageMaker Resources gewährleistet. Verwenden Sie CloudWatch Amazon-Protokolle und Fehlermeldungen, um die Leistung der Inferenzpipeline zu überwachen und Fehler zu beheben. Weitere Informationen zu den Überwachungstools, die SageMaker bereitstellt, finden Sie unter Überwachen Sie AWS Ressourcen, die während der Nutzung von Amazon bereitgestellt werden SageMaker.
Verwenden von Metriken zum Überwachen von Multicontainer-Modellen
Verwenden Sie Amazon, um die Multicontainer-Modelle in Inference Pipelines zu überwachen CloudWatch. CloudWatchsammelt Rohdaten sammelt und verarbeitet sie in lesbare Metriken verarbeitet werden, die nahezu in Echtzeit zur Verfügung stehen. SageMakerTrainingsjobs und Endpoints schreiben CloudWatch Metriken und Protokolle in denAWS/SageMaker
Namespace.
Die folgenden Tabellen listen die Metriken und Dimensionen für Folgendes auf:
-
Endpunkt-Aufrufe
-
Schulungsaufträge, Stapeltransformationsaufträge und Endpunkt-Instances
Eine Dimension ist ein Name-Wert-Paar, durch das eine Metrik eindeutig identifiziert wird. Sie können einer Metrik bis zu 10 Dimensionen zuweisen. Weitere Informationen zur Überwachung mit CloudWatch finden Sie unterÜberwachen Sie Amazon SageMaker mit Amazon CloudWatch.
Endpoint Invocation Metrics (Metriken für Endpunktaufrufe)
Der AWS/SageMaker
-Namespace enthält die folgenden Anforderungsmetriken von InvokeEndpoint
-Aufrufen.
Metriken werden in Intervallen von einer Minute gemeldet.
Metrik | Beschreibung |
---|---|
Invocation4XXErrors |
Die Anzahl der Einheiten: keine Gültige Statistiken: |
Invocation5XXErrors |
Die Anzahl der Einheiten: keine Gültige Statistiken: |
Invocations |
Die an einen Modellendpunkt gesendeten Mit der Einheiten: keine Gültige Statistiken: |
InvocationsPerInstance |
Die Anzahl der Endpunktaufrufe, die an ein Modell gesendet wurden, normalisiert Einheiten: keine Gültige Statistiken: |
ModelLatency |
Die Zeit, die das/die Modell(e) für die Antwort gebraucht hat/haben. Dies umfasst die Zeit, die zum Senden der Anforderung, zum Abrufen der Antwort vom Modell-Container und zum Abschluss der Inferenz in dem Container benötigt wurde. ModelLatency ist die Gesamtzeit von allen Containern in einer Inferenz-Pipeline.Einheiten: Mikrosekunden Gültige Statistiken: |
OverheadLatency |
Die Zeit, die zur Beantwortung einer SageMaker Kundenanfrage von Overhead hinzugefügt wurde. Einheiten: Mikrosekunden Gültige Statistiken: |
ContainerLatency |
Die Zeit, die ein Inference Pipelines-Container benötigte, um zu antworten, aus gesehen SageMaker. ContainerLatency beinhaltet die Zeit, die benötigt wurde, um die Anfrage zu senden, die Antwort aus dem Container des Modells abzurufen und die Inferenz im Container abzuschließen.Einheiten: Mikrosekunden Gültige Statistiken: |
Dimensions for Endpoint Invocation Metrics (Dimensionen der Metriken für Endpunktaufrufe)
Dimension | Beschreibung |
---|---|
EndpointName, VariantName, ContainerName |
Filtert Endpunktaufrufmetriken für ein |
CloudWatch Listet für einen Inferenz-Pipeline-Endpunkt die Latenzmetriken pro Container in Ihrem Konto als Endpoint Container Metrics und Endpoint Variant Metrics im SageMakerNamespace wie folgt auf. Die ContainerLatency
-Metrik wird nur für Inferenz-Pipelines angezeigt.

Für jeden Endpunkt und jeden Container zeigen die Latenzmetriken die Namen für den Container, den Endpunkt, die Variante und die Metrik an.

Schulungsauftrag-, Stapeltransformationsauftrag- und Endpunkt-Instance-Metriken
Die Namespaces /aws/sagemaker/TrainingJobs
, /aws/sagemaker/TransformJobs
und /aws/sagemaker/Endpoints
beinhalten die folgenden Metriken für die Schulungsaufträge und Endpunkt-Instances.
Metriken werden in Intervallen von einer Minute gemeldet.
Metrik | Beschreibung |
---|---|
CPUUtilization |
Der Prozentsatz der CPU-Einheiten, die von den Containern auf einer Instance verwendet werden. Der Wert reicht von 0 % bis 100 % und wird mit der Anzahl der CPUs multipliziert. Wenn beispielsweise vier CPUs genutzt werden, kann Bei Schulungsaufträgen ist Bei Stapeltransformationsaufträgen ist Bei Multi-Container-Modellen ist Bei Endpunkt-Varianten ist Einheiten: Prozent |
MemoryUtilization |
Der Prozentsatz des Speichers, der von den Containern auf einer Instance belegt wird. Dieser Wert reicht von 0 bis 100 %. Bei Schulungsaufträgen ist Bei Stapeltransformationsaufträgen ist MemoryUtilization ist die Summe des Speichers für alle Container, die auf der Instance ausgeführt werden.Bei Endpunkt-Varianten ist Einheiten: Prozent |
GPUUtilization |
Der Prozentsatz der GPU-Einheiten, die von den Containern verwendet werden, die auf einer Instance ausgeführt werden. Bei Schulungsaufträgen ist Bei Stapeltransformationsaufträgen ist Bei Multi-Container-Modellen ist Bei Endpunkt-Varianten ist Einheiten: Prozent |
GPUMemoryUtilization |
Der Prozentsatz des GPU-Speichers, der von den Containern auf einer Instance belegt wird. MemoryUtilization Die GPU liegt zwischen 0 und 100% und wird mit der Anzahl der GPUs multipliziert. Wenn beispielsweise vier GPUs genutzt werden, kann Bei Schulungsaufträgen ist Bei Stapeltransformationsaufträgen ist Bei Multi-Container-Modellen ist Bei Endpunkt-Varianten ist Einheiten: Prozent |
DiskUtilization |
Der Anteil des Festplattenspeichers belegt wird, der von den Containern belegt wird, die auf einer Instance ausgeführt werden. DiskUtilization im Bereich von 0 bis 100 bis 100 bis 100 bis 100 bis Diese Metrik wird für Stapeltransformationsaufträge nicht unterstützt. Bei Schulungsaufträgen ist Bei Endpunkt-Varianten ist Einheiten: Prozent |
Dimensions for Training Job, Batch Transform Job, and Endpoint Instance Metrics (Dimensionen für Instance-Metriken für Schulungsaufträge, Stapeltransformationsaufträge und Endpunkte)
Dimension | Beschreibung |
---|---|
Host |
Bei Schulungsaufträgen hat Bei Stapeltransformationsaufträgen hat Bei Endpunkten hat |
Sendet SageMaker außerdem alles, was ein Algorithmuscontainer, ein Modellcontainer oder eine Notebook-Instance-Lebenszykluskonfiguration sendet, an oder an Amazon CloudWatch Logs, umstdout
Ihnen beim Debuggen Ihrer Trainingsjobs, Endpunkte und Notebook-Instance-Lebenszykluskonfigurationenstderr
zu helfen. Sie können diese Informationen zum Debugging und zur Fortschrittanalyse verwenden.
Verwenden von Protokollen zum Überwachen einer Inferenz-Pipeline
In der folgenden Tabelle sind die Protokollgruppen und Log-Streams aufgeführt SageMaker. sendet an Amazon CloudWatch
Ein Protokollstream ist eine Abfolge von Protokollereignissen, die dieselbe Quelle nutzen. Jede separate Quelle für Logins CloudWatch bildet einen separaten Protokollstream bildet einen separaten Protokollstream. Eine Protokollgruppe ist eine Gruppe von Protokollstreams, die dieselben Einstellungen für die Aufbewahrung, Überwachung und Zugriffskontrolle besitzen.
Protokolle
Protokollgruppenname | Protokollstreamname |
---|---|
/aws/sagemaker/TrainingJobs |
|
/aws/sagemaker/Endpoints/[EndpointName] |
|
|
|
|
|
/aws/sagemaker/NotebookInstances |
|
/aws/sagemaker/TransformJobs |
|
|
|
|
Anmerkung
SageMaker erstellt die /aws/sagemaker/NotebookInstances
-Protokollgruppe, wenn Sie eine Notebook-Instance mit einer Lebenszykluskonfiguration erstellen. Weitere Informationen finden Sie unter Anpassen einer Notebook-Instances mithilfe eines Lifecycle-Konfigurationsskripts.
Weitere Informationen zur SageMaker Protokollierung finden Sie unterSageMakerAmazon-Ereignisse mit Amazon protokollieren CloudWatch.