Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Amazon SageMaker AI fornisce parametri per gli endpoint in modo da poter monitorare la frequenza di accesso alla cache, il numero di modelli caricati e i tempi di attesa dei modelli per il caricamento, il download e il caricamento su un endpoint multimodello. Alcune metriche sono diverse per gli endpoint multimodello basati su CPU e GPU, pertanto le sezioni seguenti descrivono i CloudWatch parametri Amazon che puoi utilizzare per ogni tipo di endpoint multimodello.
Per maggiori informazioni sui parametri, consulta Parametri di caricamento del modello di endpoint a più modelli e Parametri dell'istanza del modello di endpoint a più modelli in Metriche per il monitoraggio di Amazon SageMaker AI con Amazon CloudWatch. I parametri per modello non sono supportati.
CloudWatch metriche per endpoint multimodello supportati da CPU
Puoi monitorare i seguenti parametri sugli endpoint a più modelli basati su CPU.
Il AWS/SageMaker
namespace include il seguente modello di caricamento delle metriche dalle chiamate a. InvokeEndpoint
I parametri sono disponibili a una frequenza di 1 minuto.
Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta GetMetricStatisticsAmazon CloudWatch API Reference.
Parametri di caricamento del modello di endpoint multi-modello
Parametro | Descrizione |
---|---|
ModelLoadingWaitTime |
L'intervallo di tempo in cui una richiesta di invocazione ha atteso il download o il caricamento del modello di destinazione o entrambi per eseguire l'inferenza. Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi |
ModelUnloadingTime |
L'intervallo di tempo necessario per scaricare il modello tramite la chiamata API Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi |
ModelDownloadingTime |
L'intervallo di tempo impiegato per scaricare il modello da Amazon Simple Storage Service (Amazon S3). Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi |
ModelLoadingTime |
L'intervallo di tempo necessario per caricare il modello tramite la chiamata API Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi |
ModelCacheHit |
Numero di richieste La statistica media mostra il rapporto tra richieste per le quali il modello è già stato caricato. Unità: nessuna Statistiche valide: media, somma, numero di esempi |
Dimensioni per i parametri di caricamento del modello endpoint a più modelli
Dimensione | Descrizione |
---|---|
EndpointName, VariantName |
Filtra i parametri di invocazione dell'endpoint per il valore |
Gli spazi dei nomi /aws/sagemaker/Endpoints
includono i seguenti parametri di istanza dalle chiamate a InvokeEndpoint.
I parametri sono disponibili a una frequenza di 1 minuto.
Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta GetMetricStatisticsAmazon CloudWatch API Reference.
Parametri dell'istanza del modello endpoint a più modelli
Parametro | Descrizione |
---|---|
LoadedModelCount |
Numero di modelli caricati nei container dell'endpoint a più modelli. Questo parametro viene emesso per istanza. La statistica media con un periodo di 1 minuto indica il numero medio di modelli caricati per istanza. La statistica somma indica il numero totale di modelli caricati in tutte le istanze dell'endpoint. I modelli tracciati da questo parametro non sono necessariamente univoci perché un modello potrebbe essere caricato in più container dell'endpoint. Unità: nessuna Statistiche valide: media, somma, minimo, massimo, numero di esempi |
CPUUtilization |
La somma dell'utilizzo di ogni singolo core della CPU. L'utilizzo della CPU di ciascun core è compreso tra 0 e 100. Ad esempio, se ce ne sono quattro CPUs, l' Per le varianti dell'endpoint, il valore è la somma dell'utilizzo delle CPU dei container principali e supplementari sull'istanza. Unità: percentuale |
MemoryUtilization |
Percentuale di memoria utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%. Per le varianti dell'endpoint, il valore è la somma dell'utilizzo di memoria dei container principali e supplementari sull'istanza. Unità: percentuale |
DiskUtilization |
Percentuale di spazio su disco utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%. Per le varianti dell'endpoint, il valore è la somma dell'utilizzo dello spazio su disco dei container principali e supplementari sull'istanza. Unità: percentuale |
CloudWatch metriche per le implementazioni di endpoint multimodello con GPU
Puoi monitorare i seguenti parametri sugli endpoint a più modelli basati su GPU.
Il AWS/SageMaker
namespace include il seguente modello di caricamento delle metriche dalle chiamate a. InvokeEndpoint
I parametri sono disponibili a una frequenza di 1 minuto.
Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta GetMetricStatisticsAmazon CloudWatch API Reference.
Parametri di caricamento del modello di endpoint multi-modello
Parametro | Descrizione |
---|---|
ModelLoadingWaitTime |
L'intervallo di tempo in cui una richiesta di invocazione ha atteso il download o il caricamento del modello di destinazione o entrambi per eseguire l'inferenza. Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi |
ModelUnloadingTime |
L'intervallo di tempo necessario per scaricare il modello tramite la chiamata API Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi |
ModelDownloadingTime |
L'intervallo di tempo impiegato per scaricare il modello da Amazon Simple Storage Service (Amazon S3). Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi |
ModelLoadingTime |
L'intervallo di tempo necessario per caricare il modello tramite la chiamata API Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi |
ModelCacheHit |
Numero di richieste La statistica media mostra il rapporto tra richieste per le quali il modello è già stato caricato. Unità: nessuna Statistiche valide: media, somma, numero di esempi |
Dimensioni per i parametri di caricamento del modello endpoint a più modelli
Dimensione | Descrizione |
---|---|
EndpointName, VariantName |
Filtra i parametri di invocazione dell'endpoint per il valore |
Gli spazi dei nomi /aws/sagemaker/Endpoints
includono i seguenti parametri di istanza dalle chiamate a InvokeEndpoint.
I parametri sono disponibili a una frequenza di 1 minuto.
Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta GetMetricStatisticsAmazon CloudWatch API Reference.
Parametri dell'istanza del modello endpoint a più modelli
Parametro | Descrizione |
---|---|
LoadedModelCount |
Numero di modelli caricati nei container dell'endpoint a più modelli. Questo parametro viene emesso per istanza. La statistica media con un periodo di 1 minuto indica il numero medio di modelli caricati per istanza. La statistica somma indica il numero totale di modelli caricati in tutte le istanze dell'endpoint. I modelli tracciati da questo parametro non sono necessariamente univoci perché un modello potrebbe essere caricato in più container dell'endpoint. Unità: nessuna Statistiche valide: media, somma, minimo, massimo, numero di esempi |
CPUUtilization |
La somma dell'utilizzo di ogni singolo core della CPU. L'utilizzo della CPU di ciascun core è compreso tra 0 e 100. Ad esempio, se ce ne sono quattro CPUs, l' Per le varianti dell'endpoint, il valore è la somma dell'utilizzo delle CPU dei container principali e supplementari sull'istanza. Unità: percentuale |
MemoryUtilization |
Percentuale di memoria utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%. Per le varianti dell'endpoint, il valore è la somma dell'utilizzo di memoria dei container principali e supplementari sull'istanza. Unità: percentuale |
GPUUtilization |
Percentuale di unità GPU utilizzata dai container su un'istanza. Il valore può variare tra 0 e 100 e viene moltiplicato per il numero di. GPUs Ad esempio, se ce ne sono quattro GPUs, l' Per le varianti dell'endpoint, il valore è la somma dell'utilizzo delle GPU dei container principali e supplementari sull'istanza. Unità: percentuale |
GPUMemoryUtilization |
Percentuale di memoria GPU utilizzata dai container su un'istanza. L'intervallo di valori è 0‐100 e viene moltiplicato per il numero di. GPUs Ad esempio, se ce ne sono quattro GPUs, l' Per le varianti dell'endpoint, il valore è la somma dell'utilizzo di memoria GPU dei container principali e supplementari sull'istanza. Unità: percentuale |
DiskUtilization |
Percentuale di spazio su disco utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%. Per le varianti dell'endpoint, il valore è la somma dell'utilizzo dello spazio su disco dei container principali e supplementari sull'istanza. Unità: percentuale |