Il servizio gestito da Amazon per Apache Flink era precedentemente noto come Analisi dei dati Amazon Kinesis per Apache Flink.
Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Visualizzazione di metriche e dimensioni in Managed Service for Apache Flink
Questo argomento contiene le sezioni seguenti:
- Parametri di applicazione
- Metriche del connettore Kinesis Data Streams
- Metriche MSK del connettore Amazon
- Metriche di Apache Zeppelin
- CloudWatch Visualizzazione delle metriche
- Impostazione dei livelli di CloudWatch report sulle metriche
- Utilizzo di metriche personalizzate con Amazon Managed Service per Apache Flink
- Utilizzo degli CloudWatch allarmi con Amazon Managed Service per Apache Flink
Quando il tuo Managed Service per Apache Flink elabora un'origine dati, Managed Service for Apache Flink riporta le seguenti metriche e dimensioni ad Amazon. CloudWatch
Parametri di applicazione
Parametro | Unità | Descrizione | Livello | Note per l'utilizzo |
---|---|---|---|---|
backPressuredTimeMsPerSecond* |
Millisecondi | Il tempo (in millisecondi) in cui questa attività o questo operatore vengono sottoposti a contropressione al secondo. | Attività, operatore, parallelismo | *Disponibile solo per le applicazioni del servizio gestito per Apache Flink che eseguono la versione 1.13 di Flink. Questi parametri possono essere utili per identificare i rallentamenti in un'applicazione. |
busyTimeMsPerSecond* |
Millisecondi | Il tempo (in millisecondi) occupato dall'attività o dall'operatore (né inattivo né in contropressione) al secondo. Può essere NaN, se il valore non può essere calcolato. | Attività, operatore, parallelismo | *Disponibile solo per le applicazioni del servizio gestito per Apache Flink che eseguono la versione 1.13 di Flink. Questi parametri possono essere utili per identificare i rallentamenti in un'applicazione. |
cpuUtilization |
Percentuale | Percentuale complessiva di utilizzo tra i task managerCPU. Ad esempio, se sono presenti cinque task manager, il servizio gestito per Apache Flink pubblica cinque esempi di questa metrica per intervallo di report. | Applicazione | È possibile utilizzare questa metrica per monitorare l'CPUutilizzo minimo, medio e massimo dell'applicazione. La CPUUtilization metrica tiene conto solo dell'CPUutilizzo del TaskManager JVM processo in esecuzione all'interno del contenitore. |
containerCPUUtilization |
Percentuale | Percentuale complessiva di CPU utilizzo tra i contenitori del task manager nel cluster di applicazioni Flink. Ad esempio, se ci sono cinque task manager, corrispondenti sono cinque TaskManager contenitori e Managed Service for Apache Flink pubblica 2* cinque esempi di questa metrica per intervallo di report di 1 minuto. | Applicazione | Il calcolo per container viene svolto come segue: CPUTempo totale (in secondi) consumato dal contenitore * 100/Limite del contenitore (in /secondi) CPU CPUs La |
containerMemoryUtilization |
Percentuale | Percentuale complessiva di utilizzo della memoria tra i container del task manager nel cluster di applicazioni Flink. Ad esempio, se ci sono cinque task manager, corrispondenti sono cinque TaskManager contenitori e Managed Service for Apache Flink pubblica 2* cinque esempi di questa metrica per intervallo di report di 1 minuto. | Applicazione | Il calcolo per container viene svolto come segue: Utilizzo della memoria del container (byte) * 100/limite di memoria del container in base alle specifiche di implementazione del pod (in byte) Le metriche |
containerDiskUtilization |
Percentuale | Percentuale complessiva di utilizzo del disco tra i container del task manager nel cluster di applicazioni Flink. Ad esempio, se ci sono cinque task manager, corrispondenti sono cinque TaskManager contenitori e Managed Service for Apache Flink pubblica 2* cinque esempi di questa metrica per intervallo di report di 1 minuto. | Applicazione | Il calcolo per container viene svolto come segue: Utilizzo del disco in byte * 100/limite del disco per il container in byte Per i container, rappresenta l'utilizzo del filesystem su cui è impostato il volume root del container. |
currentInputWatermark |
Millisecondi | L'ultimo watermark ricevuto da questa applicazione/operatore/attività/thread | Applicazione, operatore, attività, parallelismo | Questo record viene generato solo per dimensioni con due input. Questo è il valore minimo degli ultimi watermark ricevuti. |
currentOutputWatermark |
Millisecondi | L'ultimo watermark generato da questa applicazione/operatore/task/thread | Applicazione, operatore, attività, parallelismo | |
downtime |
Millisecondi | Per i processi attualmente in una situazione di guasto/ripristino, il tempo trascorso durante questa interruzione. | Applicazione | Questo parametro misura il tempo trascorso durante la mancata riuscita o il ripristino di un processo. Questo parametro restituisce 0 per i processi in esecuzione e -1 per i processi completati. Se questo parametro non è 0 o -1, significa che il processo di Apache Flink per l'applicazione non è stato eseguito. |
fullRestarts |
Conteggio | Il numero totale di volte in cui questo processo è stato riavviato completamente da quando è stato inviato. Questo parametro non misura i riavvii granulari. | Applicazione | È possibile utilizzare questa metrica per valutare lo stato generale delle applicazioni. I riavvii possono verificarsi durante la manutenzione interna del servizio gestito per Apache Flink. Un numero di riavvii superiore al normale può indicare un problema con l'applicazione. |
heapMemoryUtilization |
Percentuale | Utilizzo complessivo della memoria heap tra i task manager. Ad esempio, se sono presenti cinque task manager, il servizio gestito per Apache Flink pubblica cinque esempi di questa metrica per intervallo di report. | Applicazione | È possibile utilizzare questa metrica per monitorare l'utilizzo minimo, medio e massimo della memoria heap nell'applicazione. Gli HeapMemoryUtilization unici tengono conto di metriche di memoria specifiche come Heap Memory Usage di. TaskManager JVM |
idleTimeMsPerSecond* |
Millisecondi | Il tempo (in millisecondi) di inattività (nessun dato da elaborare) di questa attività o di questo operatore al secondo. Il tempo di inattività esclude il tempo di contropressione, quindi se l'attività è in contropressione non è inattiva. | Attività, operatore, parallelismo | *Disponibile solo per le applicazioni del servizio gestito per Apache Flink che eseguono la versione 1.13 di Flink. Questi parametri possono essere utili per identificare i rallentamenti in un'applicazione. |
lastCheckpointSize |
Byte | La dimensione totale dell'ultimo checkpoint | Applicazione | È possibile utilizzare questo parametro per determinare l'utilizzo dello storage delle applicazioni in esecuzione. Se il valore di questo parametro aumenta, ciò potrebbe indicare la presenza di un problema con l'applicazione, ad esempio una perdita di memoria o un collo di bottiglia. |
lastCheckpointDuration |
Millisecondi | Il tempo impiegato per completare l'ultimo checkpoint | Applicazione | Questo parametro misura il tempo impiegato per completare il checkpoint più recente. Se il valore di questo parametro aumenta, ciò potrebbe indicare la presenza di un problema con l'applicazione, ad esempio una perdita di memoria o un collo di bottiglia. In alcuni casi, è possibile risolvere questo problema disabilitando il checkpoint. |
managedMemoryUsed* |
Byte | La quantità di memoria attualmente in uso. | Applicazione, operatore, attività, parallelismo | *Disponibile solo per le applicazioni del servizio gestito per Apache Flink che eseguono la versione 1.13 di Flink. Si riferisce alla memoria gestita da Flink all'esterno dell'heap Java. Viene utilizzato per il backend di stato RocksDB ed è disponibile anche per le applicazioni. |
managedMemoryTotal* |
Byte | La quantità totale di memoria gestita. | Applicazione, operatore, attività, parallelismo | *Disponibile solo per le applicazioni del servizio gestito per Apache Flink che eseguono la versione 1.13 di Flink. Si riferisce alla memoria gestita da Flink all'esterno dell'heap Java. Viene utilizzato per il backend di stato RocksDB ed è disponibile anche per le applicazioni. La |
managedMemoryUtilization* |
Percentuale | managedMemoryUsedDerivato da/managedMemoryTotal | Applicazione, operatore, attività, parallelismo | *Disponibile solo per le applicazioni del servizio gestito per Apache Flink che eseguono la versione 1.13 di Flink. Si riferisce alla memoria gestita da Flink all'esterno dell'heap Java. Viene utilizzato per il backend di stato RocksDB ed è disponibile anche per le applicazioni. |
numberOfFailedCheckpoints |
Conteggio | Il numero di volte in cui il checkpoint non è andato a buon fine. | Applicazione | È possibile utilizzare questo parametro per monitorare lo stato e l'avanzamento delle applicazioni. I checkpoint potrebbero non riuscire a causa di problemi dell'applicazione, come problemi di throughput o di autorizzazioni. |
numRecordsIn* |
Conteggio | Il numero totale di record ricevuti da questa applicazione, operatore o attività. | Applicazione, operatore, attività, parallelismo | *Per applicare la SUM statistica su un periodo di tempo (secondi/minuto):
Il livello del parametro specifica se questo parametro misura il numero totale di record ricevuti dall'intera applicazione, da un operatore specifico o da un'attività specifica. |
numRecordsInPerSecond* |
Numero/secondo | Il numero totale di record ricevuti da questa applicazione, operatore o attività al secondo. | Applicazione, operatore, attività, parallelismo | *Per applicare la statistica su un periodo di tempo (secondi/minuto): SUM
Il livello del parametro specifica se questo parametro misura il numero totale di record ricevuti dall'intera applicazione, da un operatore specifico o da un'attività specifica. |
numRecordsOut* |
Conteggio | Il numero totale di record generati da questa applicazione, operatore o attività. | Applicazione, operatore, attività, parallelismo |
*Per applicare la statistica su un periodo di tempo (secondi/minuto): SUM
Il livello del parametro specifica se questo parametro misura il numero totale di record ricevuti dall'intera applicazione, da un operatore specifico o da un'attività specifica. |
numLateRecordsDropped* |
Conteggio | Applicazione, operatore, attività, parallelismo | *Per applicare la statistica su un periodo di tempo (secondi/minuto): SUM
Il numero di record di questo operatore o attività è diminuito a causa dell'arrivo in ritardo. |
|
numRecordsOutPerSecond* |
Numero/secondo | Il numero totale di record generati da questa applicazione, operatore o attività al secondo. | Applicazione, operatore, attività, parallelismo |
*Per applicare la statistica su un periodo di tempo (secondi/minuto): SUM
Il livello del parametro specifica se questo parametro misura il numero totale di record ricevuti dall'intera applicazione, da un operatore specifico o da un'attività specifica. |
oldGenerationGCCount |
Conteggio | Il numero totale di vecchie operazioni di rimozione di oggetti inutili (garbage collection) che si sono verificate in tutti i task manager. | Applicazione | |
oldGenerationGCTime |
Millisecondi | Il tempo totale impiegato per eseguire le vecchie operazioni di rimozione di oggetti inutili (garbage collection). | Applicazione | È possibile utilizzare questo parametro per monitorare la somma, la media e il tempo massimo di rimozione di oggetti inutili (garbage collection). |
threadCount |
Conteggio | Il numero totale di thread live utilizzati dall'applicazione. | Applicazione | Questo parametro misura il numero di thread utilizzati dal codice dell'applicazione. È diverso dal parallelismo dell’applicazione. |
uptime |
Millisecondi | Il tempo in cui il processo è stato eseguito senza interruzioni. | Applicazione | È possibile utilizzare questo parametro per determinare se un processo viene eseguito correttamente. Questo parametro restituisce -1 per i processi completati. |
KPUs* |
Conteggio | KPUsIl numero totale di dati utilizzati dall'applicazione. | Applicazione | *Questa metrica riceve un campione per periodo di fatturazione (un'ora). Per visualizzare il numero di interruzioni KPUs nel tempo, utilizza MAX o AVG in un periodo di almeno una (1) ora. Il KPU conteggio include il. |
Metriche del connettore Kinesis Data Streams
AWS emette tutti i record per Kinesis Data Streams oltre ai seguenti:
Parametro | Unità | Descrizione | Livello | Note per l'utilizzo |
---|---|---|---|---|
millisbehindLatest |
Millisecondi | Il numero di millisecondi in cui il consumatore si trova rispetto all'estremità del flusso, a indicare il ritardo rispetto all'ora corrente del consumatore. | Applicazione (per Stream), Parallelismo (per) ShardId |
|
bytesRequestedPerFetch |
Byte | I byte richiesti in una singola chiamata a getRecords . |
Applicazione (per Stream), Parallelismo (per) ShardId |
Metriche MSK del connettore Amazon
AWS emette tutti i record per Amazon MSK oltre ai seguenti:
Parametro | Unità | Descrizione | Livello | Note per l'utilizzo |
---|---|---|---|---|
currentoffsets |
N/D | L'offset di lettura corrente del consumer, per ogni partizione. Il parametro di una particolare partizione può essere specificato in base al nome dell'argomento e all'ID della partizione. | Applicazione (per argomento), parallelismo (per) PartitionId | |
commitsFailed |
N/D | Il numero totale di errori di commit di offset su Kafka, se il commit di offset e la creazione di checkpoint sono abilitati. | Applicazione, operatore, attività, parallelismo | Restituire le compensazioni a Kafka è solo un modo per esporre i progressi dei consumer, quindi un errore di commit non pregiudica l'integrità degli offset delle partizioni bloccati di Flink. |
commitsSucceeded |
N/D | Il numero totale di commit di offset riusciti verso Kafka, se il commit di offset e la creazione di checkpoint sono abilitati. | Applicazione, operatore, attività, parallelismo | |
committedoffsets |
N/D | Gli ultimi offset eseguiti con successo su Kafka, per ogni partizione. Il parametro di una particolare partizione può essere specificato in base al nome dell'argomento e all'ID della partizione. | Applicazione (per argomento), parallelismo (per) PartitionId | |
records_lag_max |
Conteggio | Il ritardo massimo in termini di numero di record per ogni partizione in questa finestra | Applicazione, operatore, attività, parallelismo | |
bytes_consumed_rate |
Byte | Il numero medio di byte consumati al secondo per un argomento | Applicazione, operatore, attività, parallelismo |
Metriche di Apache Zeppelin
Per i notebook Studio, AWS emette le seguenti metriche a livello di applicazione:,,,, e. KPUs
cpuUtilization
heapMemoryUtilization
oldGenerationGCTime
oldGenerationGCCount
threadCount
Inoltre, genera i parametri mostrati nella tabella seguente, anche a livello di applicazione.
Parametro | Unità | Descrizione | Nome Prometheus |
---|---|---|---|
zeppelinCpuUtilization |
Percentuale | Percentuale complessiva di CPU utilizzo nel server Apache Zeppelin. | process_cpu_usage |
zeppelinHeapMemoryUtilization |
Percentuale | Percentuale complessiva di utilizzo della memoria heap per il server Apache Zeppelin. | jvm_memory_used_bytes |
zeppelinThreadCount |
Conteggio | Il numero totale di thread live utilizzati dal server Apache Zeppelin. | jvm_threads_live_threads |
zeppelinWaitingJobs |
Conteggio | Il numero di processi di Apache Zeppelin in coda in attesa di un thread. | jetty_threads_jobs |
zeppelinServerUptime |
Secondi | Il tempo totale in cui il server è stato attivo e in funzione. | process_uptime_seconds |
CloudWatch Visualizzazione delle metriche
Puoi visualizzare i CloudWatch parametri per la tua applicazione utilizzando la CloudWatch console Amazon o il AWS CLI.
Per visualizzare le metriche utilizzando la console CloudWatch
Apri la CloudWatch console all'indirizzo https://console.aws.amazon.com/cloudwatch/
. -
Nel pannello di navigazione, seleziona Parametri.
-
Nel riquadro CloudWatch Metriche per categoria per Managed Service for Apache Flink, scegli una categoria di metriche.
-
Nel riquadro superiore, scorri verso il basso per visualizzare l'elenco completo dei parametri.
Per visualizzare le metriche utilizzando il AWS CLI
-
Al prompt dei comandi utilizza il comando seguente.
aws cloudwatch list-metrics --namespace "AWS/KinesisAnalytics" --region
region
Impostazione dei livelli di CloudWatch report sulle metriche
Puoi controllare il livello dei parametri dell'applicazione creati dall'applicazione. Il servizio gestito per Apache Flink supporta i seguenti livelli di parametri:
-
Applicazione: l'applicazione riporta solo il livello più elevato dei parametri per ogni applicazione. I parametri del servizio gestito per Apache Flink vengono pubblicati al livello di Applicazione per impostazione predefinita.
-
Attività: l'applicazione riporta le dimensioni dei parametri specifiche dell'attività per i parametri definiti con il livello di report del parametro Attività, ad esempio il numero di record in entrata e in uscita dall'applicazione al secondo.
-
Operatore: l'applicazione riporta le dimensioni dei parametri specifiche dell'operatore per i parametri definiti con il livello di report del parametro Operatore, ad esempio i parametri per ogni operazione di filtro o mappa.
-
Parallelismo: l'applicazione riporta i livelli parametri
Task
eOperator
per ciascun thread di esecuzione. Tale livello di report non è consigliato per applicazioni con un parallelismo superiore a 64 a causa di costi eccessivi.Nota
È necessario utilizzare questo livello di parametri solo per la risoluzione dei problemi a causa della quantità di dati relativi ai parametri generati dal servizio. Puoi impostare questo livello di metrica solo utilizzando. CLI Questo livello di parametri non è disponibile nella console.
Il livello predefinito è Applicazione. L'applicazione riporta i parametri al livello corrente e a tutti i livelli superiori. Ad esempio, se il livello di reporting è impostato su Operatore l'applicazione riporta i parametri Applicazione, Attività e Operatore.
È possibile impostare il livello di rendicontazione delle CloudWatch metriche utilizzando il MonitoringConfiguration
parametro dell'CreateApplication
azione o il MonitoringConfigurationUpdate
parametro dell'UpdateApplication
azione. L'esempio seguente di richiesta per l'UpdateApplication
azione imposta il livello di segnalazione delle CloudWatch metriche su Task:
{ "ApplicationName": "MyApplication", "CurrentApplicationVersionId": 4, "ApplicationConfigurationUpdate": { "FlinkApplicationConfigurationUpdate": { "MonitoringConfigurationUpdate": { "ConfigurationTypeUpdate": "CUSTOM", "MetricsLevelUpdate": "TASK" } } } }
Puoi anche configurare il livello di registrazione utilizzando il parametro LogLevel
dell'operazione CreateApplication
o il parametro LogLevelUpdate
dell'operazione UpdateApplication
. Puoi utilizzare i seguenti livelli di log:
-
ERROR
: registra gli eventi di errore potenzialmente recuperabili. -
WARN
: registra gli eventi di avviso che potrebbero causare un errore. -
INFO
: registra gli eventi informativi. -
DEBUG
: registra gli eventi di debug generali.
Per ulteriori informazioni sui livelli di registrazione di Log4j, consulta Livelli di registro personalizzati