Seleziona le tue preferenze relative ai cookie

Utilizziamo cookie essenziali e strumenti simili necessari per fornire il nostro sito e i nostri servizi. Utilizziamo i cookie prestazionali per raccogliere statistiche anonime in modo da poter capire come i clienti utilizzano il nostro sito e apportare miglioramenti. I cookie essenziali non possono essere disattivati, ma puoi fare clic su \"Personalizza\" o \"Rifiuta\" per rifiutare i cookie prestazionali.

Se sei d'accordo, AWS e le terze parti approvate utilizzeranno i cookie anche per fornire utili funzionalità del sito, ricordare le tue preferenze e visualizzare contenuti pertinenti, inclusa la pubblicità pertinente. Per continuare senza accettare questi cookie, fai clic su \"Continua\" o \"Rifiuta\". Per effettuare scelte più dettagliate o saperne di più, fai clic su \"Personalizza\".

CloudWatch Metriche per le implementazioni di endpoint multimodello

Modalità Focus
CloudWatch Metriche per le implementazioni di endpoint multimodello - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Amazon SageMaker AI fornisce parametri per gli endpoint in modo da poter monitorare la frequenza di accesso alla cache, il numero di modelli caricati e i tempi di attesa dei modelli per il caricamento, il download e il caricamento su un endpoint multimodello. Alcune metriche sono diverse per gli endpoint multimodello basati su CPU e GPU, pertanto le sezioni seguenti descrivono i CloudWatch parametri Amazon che puoi utilizzare per ogni tipo di endpoint multimodello.

Per maggiori informazioni sui parametri, consulta Parametri di caricamento del modello di endpoint a più modelli e Parametri dell'istanza del modello di endpoint a più modelli in Metriche per il monitoraggio di Amazon SageMaker AI con Amazon CloudWatch. I parametri per modello non sono supportati.

CloudWatch metriche per endpoint multimodello supportati da CPU

Puoi monitorare i seguenti parametri sugli endpoint a più modelli basati su CPU.

Il AWS/SageMaker namespace include il seguente modello di caricamento delle metriche dalle chiamate a. InvokeEndpoint

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta GetMetricStatisticsAmazon CloudWatch API Reference.

Parametri di caricamento del modello di endpoint multi-modello

Parametro Descrizione
ModelLoadingWaitTime

L'intervallo di tempo in cui una richiesta di invocazione ha atteso il download o il caricamento del modello di destinazione o entrambi per eseguire l'inferenza.

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelUnloadingTime

L'intervallo di tempo necessario per scaricare il modello tramite la chiamata API UnloadModel del container.

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelDownloadingTime

L'intervallo di tempo impiegato per scaricare il modello da Amazon Simple Storage Service (Amazon S3).

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelLoadingTime

L'intervallo di tempo necessario per caricare il modello tramite la chiamata API LoadModel del container.

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelCacheHit

Numero di richieste InvokeEndpoint inviate all'endpoint a più modelli per cui il modello è già stato caricato.

La statistica media mostra il rapporto tra richieste per le quali il modello è già stato caricato.

Unità: nessuna

Statistiche valide: media, somma, numero di esempi

Dimensioni per i parametri di caricamento del modello endpoint a più modelli

Dimensione Descrizione
EndpointName, VariantName

Filtra i parametri di invocazione dell'endpoint per il valore ProductionVariant dell'endpoint e della variante specificati.

Gli spazi dei nomi /aws/sagemaker/Endpoints includono i seguenti parametri di istanza dalle chiamate a InvokeEndpoint.

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta GetMetricStatisticsAmazon CloudWatch API Reference.

Parametri dell'istanza del modello endpoint a più modelli

Parametro Descrizione
LoadedModelCount

Numero di modelli caricati nei container dell'endpoint a più modelli. Questo parametro viene emesso per istanza.

La statistica media con un periodo di 1 minuto indica il numero medio di modelli caricati per istanza.

La statistica somma indica il numero totale di modelli caricati in tutte le istanze dell'endpoint.

I modelli tracciati da questo parametro non sono necessariamente univoci perché un modello potrebbe essere caricato in più container dell'endpoint.

Unità: nessuna

Statistiche valide: media, somma, minimo, massimo, numero di esempi

CPUUtilization

La somma dell'utilizzo di ogni singolo core della CPU. L'utilizzo della CPU di ciascun core è compreso tra 0 e 100. Ad esempio, se ce ne sono quattro CPUs, l'CPUUtilizationintervallo è compreso tra 0% e 400%.

Per le varianti dell'endpoint, il valore è la somma dell'utilizzo delle CPU dei container principali e supplementari sull'istanza.

Unità: percentuale

MemoryUtilization

Percentuale di memoria utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%.

Per le varianti dell'endpoint, il valore è la somma dell'utilizzo di memoria dei container principali e supplementari sull'istanza.

Unità: percentuale

DiskUtilization

Percentuale di spazio su disco utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%.

Per le varianti dell'endpoint, il valore è la somma dell'utilizzo dello spazio su disco dei container principali e supplementari sull'istanza.

Unità: percentuale

CloudWatch metriche per le implementazioni di endpoint multimodello con GPU

Puoi monitorare i seguenti parametri sugli endpoint a più modelli basati su GPU.

Il AWS/SageMaker namespace include il seguente modello di caricamento delle metriche dalle chiamate a. InvokeEndpoint

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta GetMetricStatisticsAmazon CloudWatch API Reference.

Parametri di caricamento del modello di endpoint multi-modello

Parametro Descrizione
ModelLoadingWaitTime

L'intervallo di tempo in cui una richiesta di invocazione ha atteso il download o il caricamento del modello di destinazione o entrambi per eseguire l'inferenza.

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelUnloadingTime

L'intervallo di tempo necessario per scaricare il modello tramite la chiamata API UnloadModel del container.

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelDownloadingTime

L'intervallo di tempo impiegato per scaricare il modello da Amazon Simple Storage Service (Amazon S3).

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelLoadingTime

L'intervallo di tempo necessario per caricare il modello tramite la chiamata API LoadModel del container.

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelCacheHit

Numero di richieste InvokeEndpoint inviate all'endpoint a più modelli per cui il modello è già stato caricato.

La statistica media mostra il rapporto tra richieste per le quali il modello è già stato caricato.

Unità: nessuna

Statistiche valide: media, somma, numero di esempi

Dimensioni per i parametri di caricamento del modello endpoint a più modelli

Dimensione Descrizione
EndpointName, VariantName

Filtra i parametri di invocazione dell'endpoint per il valore ProductionVariant dell'endpoint e della variante specificati.

Gli spazi dei nomi /aws/sagemaker/Endpoints includono i seguenti parametri di istanza dalle chiamate a InvokeEndpoint.

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta GetMetricStatisticsAmazon CloudWatch API Reference.

Parametri dell'istanza del modello endpoint a più modelli

Parametro Descrizione
LoadedModelCount

Numero di modelli caricati nei container dell'endpoint a più modelli. Questo parametro viene emesso per istanza.

La statistica media con un periodo di 1 minuto indica il numero medio di modelli caricati per istanza.

La statistica somma indica il numero totale di modelli caricati in tutte le istanze dell'endpoint.

I modelli tracciati da questo parametro non sono necessariamente univoci perché un modello potrebbe essere caricato in più container dell'endpoint.

Unità: nessuna

Statistiche valide: media, somma, minimo, massimo, numero di esempi

CPUUtilization

La somma dell'utilizzo di ogni singolo core della CPU. L'utilizzo della CPU di ciascun core è compreso tra 0 e 100. Ad esempio, se ce ne sono quattro CPUs, l'CPUUtilizationintervallo è compreso tra 0% e 400%.

Per le varianti dell'endpoint, il valore è la somma dell'utilizzo delle CPU dei container principali e supplementari sull'istanza.

Unità: percentuale

MemoryUtilization

Percentuale di memoria utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%.

Per le varianti dell'endpoint, il valore è la somma dell'utilizzo di memoria dei container principali e supplementari sull'istanza.

Unità: percentuale

GPUUtilization

Percentuale di unità GPU utilizzata dai container su un'istanza. Il valore può variare tra 0 e 100 e viene moltiplicato per il numero di. GPUs Ad esempio, se ce ne sono quattro GPUs, l'GPUUtilizationintervallo è compreso tra 0% e 400%.

Per le varianti dell'endpoint, il valore è la somma dell'utilizzo delle GPU dei container principali e supplementari sull'istanza.

Unità: percentuale

GPUMemoryUtilization

Percentuale di memoria GPU utilizzata dai container su un'istanza. L'intervallo di valori è 0‐100 e viene moltiplicato per il numero di. GPUs Ad esempio, se ce ne sono quattro GPUs, l'GPUMemoryUtilizationintervallo è 0%-400%.

Per le varianti dell'endpoint, il valore è la somma dell'utilizzo di memoria GPU dei container principali e supplementari sull'istanza.

Unità: percentuale

DiskUtilization

Percentuale di spazio su disco utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%.

Per le varianti dell'endpoint, il valore è la somma dell'utilizzo dello spazio su disco dei container principali e supplementari sull'istanza.

Unità: percentuale

PrivacyCondizioni del sitoPreferenze cookie
© 2025, Amazon Web Services, Inc. o società affiliate. Tutti i diritti riservati.