Visualizzazione di metriche e dimensioni in Managed Service for Apache Flink - Servizio gestito per Apache Flink

Il servizio gestito da Amazon per Apache Flink era precedentemente noto come Analisi dei dati Amazon Kinesis per Apache Flink.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Visualizzazione di metriche e dimensioni in Managed Service for Apache Flink

Quando il tuo Managed Service per Apache Flink elabora un'origine dati, Managed Service for Apache Flink riporta le seguenti metriche e dimensioni ad Amazon. CloudWatch

Parametri di applicazione

Parametro Unità Descrizione Livello Note per l'utilizzo
backPressuredTimeMsPerSecond* Millisecondi Il tempo (in millisecondi) in cui questa attività o questo operatore vengono sottoposti a contropressione al secondo. Attività, operatore, parallelismo

*Disponibile solo per le applicazioni del servizio gestito per Apache Flink che eseguono la versione 1.13 di Flink.

Questi parametri possono essere utili per identificare i rallentamenti in un'applicazione.

busyTimeMsPerSecond* Millisecondi Il tempo (in millisecondi) occupato dall'attività o dall'operatore (né inattivo né in contropressione) al secondo. Può essere NaN, se il valore non può essere calcolato. Attività, operatore, parallelismo

*Disponibile solo per le applicazioni del servizio gestito per Apache Flink che eseguono la versione 1.13 di Flink.

Questi parametri possono essere utili per identificare i rallentamenti in un'applicazione.

cpuUtilization Percentuale Percentuale complessiva di utilizzo tra i task managerCPU. Ad esempio, se sono presenti cinque task manager, il servizio gestito per Apache Flink pubblica cinque esempi di questa metrica per intervallo di report. Applicazione È possibile utilizzare questa metrica per monitorare l'CPUutilizzo minimo, medio e massimo dell'applicazione. La CPUUtilization metrica tiene conto solo dell'CPUutilizzo del TaskManager JVM processo in esecuzione all'interno del contenitore.
containerCPUUtilization Percentuale Percentuale complessiva di CPU utilizzo tra i contenitori del task manager nel cluster di applicazioni Flink. Ad esempio, se ci sono cinque task manager, corrispondenti sono cinque TaskManager contenitori e Managed Service for Apache Flink pubblica 2* cinque esempi di questa metrica per intervallo di report di 1 minuto. Applicazione

Il calcolo per container viene svolto come segue:

CPUTempo totale (in secondi) consumato dal contenitore * 100/Limite del contenitore (in /secondi) CPU CPUs

La CPUUtilization metrica tiene conto solo dell'CPUutilizzo del TaskManager JVM processo in esecuzione all'interno del contenitore. Esistono altri componenti che funzionano all'esterno dello JVM stesso contenitore. La containerCPUUtilization metrica offre un quadro più completo, compresi tutti i processi in termini di CPU esaurimento del container e guasti che ne derivano.

containerMemoryUtilization Percentuale Percentuale complessiva di utilizzo della memoria tra i container del task manager nel cluster di applicazioni Flink. Ad esempio, se ci sono cinque task manager, corrispondenti sono cinque TaskManager contenitori e Managed Service for Apache Flink pubblica 2* cinque esempi di questa metrica per intervallo di report di 1 minuto. Applicazione

Il calcolo per container viene svolto come segue:

Utilizzo della memoria del container (byte) * 100/limite di memoria del container in base alle specifiche di implementazione del pod (in byte)

Le metriche HeapMemoryUtilization and tengono conto solo di ManagedMemoryUtilzations metriche di memoria specifiche come Heap Memory Usage of TaskManager JVM o Managed Memory (utilizzo della memoria al di fuori di processi nativi come RockSDB State Backend). JVM Il parametro containerMemoryUtilization fornisce un quadro più completo, includendo la memoria del set di lavoro, che monitora meglio l'esaurimento della memoria totale. Una volta esaurito, si riattiverà il pod. Out of Memory Error TaskManager

containerDiskUtilization Percentuale Percentuale complessiva di utilizzo del disco tra i container del task manager nel cluster di applicazioni Flink. Ad esempio, se ci sono cinque task manager, corrispondenti sono cinque TaskManager contenitori e Managed Service for Apache Flink pubblica 2* cinque esempi di questa metrica per intervallo di report di 1 minuto. Applicazione

Il calcolo per container viene svolto come segue:

Utilizzo del disco in byte * 100/limite del disco per il container in byte

Per i container, rappresenta l'utilizzo del filesystem su cui è impostato il volume root del container.

currentInputWatermark Millisecondi L'ultimo watermark ricevuto da questa applicazione/operatore/attività/thread Applicazione, operatore, attività, parallelismo Questo record viene generato solo per dimensioni con due input. Questo è il valore minimo degli ultimi watermark ricevuti.
currentOutputWatermark Millisecondi L'ultimo watermark generato da questa applicazione/operatore/task/thread Applicazione, operatore, attività, parallelismo
downtime Millisecondi Per i processi attualmente in una situazione di guasto/ripristino, il tempo trascorso durante questa interruzione. Applicazione Questo parametro misura il tempo trascorso durante la mancata riuscita o il ripristino di un processo. Questo parametro restituisce 0 per i processi in esecuzione e -1 per i processi completati. Se questo parametro non è 0 o -1, significa che il processo di Apache Flink per l'applicazione non è stato eseguito.
fullRestarts Conteggio Il numero totale di volte in cui questo processo è stato riavviato completamente da quando è stato inviato. Questo parametro non misura i riavvii granulari. Applicazione È possibile utilizzare questa metrica per valutare lo stato generale delle applicazioni. I riavvii possono verificarsi durante la manutenzione interna del servizio gestito per Apache Flink. Un numero di riavvii superiore al normale può indicare un problema con l'applicazione.
heapMemoryUtilization Percentuale Utilizzo complessivo della memoria heap tra i task manager. Ad esempio, se sono presenti cinque task manager, il servizio gestito per Apache Flink pubblica cinque esempi di questa metrica per intervallo di report. Applicazione È possibile utilizzare questa metrica per monitorare l'utilizzo minimo, medio e massimo della memoria heap nell'applicazione. Gli HeapMemoryUtilization unici tengono conto di metriche di memoria specifiche come Heap Memory Usage di. TaskManager JVM
idleTimeMsPerSecond* Millisecondi Il tempo (in millisecondi) di inattività (nessun dato da elaborare) di questa attività o di questo operatore al secondo. Il tempo di inattività esclude il tempo di contropressione, quindi se l'attività è in contropressione non è inattiva. Attività, operatore, parallelismo

*Disponibile solo per le applicazioni del servizio gestito per Apache Flink che eseguono la versione 1.13 di Flink.

Questi parametri possono essere utili per identificare i rallentamenti in un'applicazione.

lastCheckpointSize Byte La dimensione totale dell'ultimo checkpoint Applicazione È possibile utilizzare questo parametro per determinare l'utilizzo dello storage delle applicazioni in esecuzione.

Se il valore di questo parametro aumenta, ciò potrebbe indicare la presenza di un problema con l'applicazione, ad esempio una perdita di memoria o un collo di bottiglia.

lastCheckpointDuration Millisecondi Il tempo impiegato per completare l'ultimo checkpoint Applicazione Questo parametro misura il tempo impiegato per completare il checkpoint più recente. Se il valore di questo parametro aumenta, ciò potrebbe indicare la presenza di un problema con l'applicazione, ad esempio una perdita di memoria o un collo di bottiglia. In alcuni casi, è possibile risolvere questo problema disabilitando il checkpoint.
managedMemoryUsed* Byte La quantità di memoria attualmente in uso. Applicazione, operatore, attività, parallelismo

*Disponibile solo per le applicazioni del servizio gestito per Apache Flink che eseguono la versione 1.13 di Flink.

Si riferisce alla memoria gestita da Flink all'esterno dell'heap Java. Viene utilizzato per il backend di stato RocksDB ed è disponibile anche per le applicazioni.

managedMemoryTotal* Byte La quantità totale di memoria gestita. Applicazione, operatore, attività, parallelismo

*Disponibile solo per le applicazioni del servizio gestito per Apache Flink che eseguono la versione 1.13 di Flink.

Si riferisce alla memoria gestita da Flink all'esterno dell'heap Java. Viene utilizzato per il backend di stato RocksDB ed è disponibile anche per le applicazioni. La ManagedMemoryUtilzations metrica tiene conto solo di parametri di memoria specifici come Managed Memory (utilizzo della memoria al di fuori di processi nativi come JVM RockSDB State Backend)

managedMemoryUtilization* Percentuale managedMemoryUsedDerivato da/managedMemoryTotal Applicazione, operatore, attività, parallelismo

*Disponibile solo per le applicazioni del servizio gestito per Apache Flink che eseguono la versione 1.13 di Flink.

Si riferisce alla memoria gestita da Flink all'esterno dell'heap Java. Viene utilizzato per il backend di stato RocksDB ed è disponibile anche per le applicazioni.

numberOfFailedCheckpoints Conteggio Il numero di volte in cui il checkpoint non è andato a buon fine. Applicazione È possibile utilizzare questo parametro per monitorare lo stato e l'avanzamento delle applicazioni. I checkpoint potrebbero non riuscire a causa di problemi dell'applicazione, come problemi di throughput o di autorizzazioni.
numRecordsIn* Conteggio Il numero totale di record ricevuti da questa applicazione, operatore o attività. Applicazione, operatore, attività, parallelismo

*Per applicare la SUM statistica su un periodo di tempo (secondi/minuto):

  • Seleziona il parametro al livello corretto. Se stai monitorando il parametro per un operatore, devi selezionare i parametri dell'operatore corrispondenti.

  • Poiché Managed Service for Apache Flink esegue 4 istantanee metriche al minuto, è necessario utilizzare la seguente metrica matematica: m1/4 dove m1 è la statistica su un periodo (secondo/minuto) SUM

Il livello del parametro specifica se questo parametro misura il numero totale di record ricevuti dall'intera applicazione, da un operatore specifico o da un'attività specifica.

numRecordsInPerSecond* Numero/secondo Il numero totale di record ricevuti da questa applicazione, operatore o attività al secondo. Applicazione, operatore, attività, parallelismo

*Per applicare la statistica su un periodo di tempo (secondi/minuto): SUM

  • Seleziona il parametro al livello corretto. Se stai monitorando il parametro per un operatore, devi selezionare i parametri dell'operatore corrispondenti.

  • Poiché Managed Service for Apache Flink esegue 4 istantanee metriche al minuto, è necessario utilizzare la seguente metrica matematica: m1/4 dove m1 è la statistica su un periodo (secondo/minuto) SUM

Il livello del parametro specifica se questo parametro misura il numero totale di record ricevuti dall'intera applicazione, da un operatore specifico o da un'attività specifica.

numRecordsOut* Conteggio Il numero totale di record generati da questa applicazione, operatore o attività. Applicazione, operatore, attività, parallelismo

*Per applicare la statistica su un periodo di tempo (secondi/minuto): SUM

  • Seleziona il parametro al livello corretto. Se stai monitorando il parametro per un operatore, devi selezionare i parametri dell'operatore corrispondenti.

  • Poiché Managed Service for Apache Flink esegue 4 istantanee metriche al minuto, è necessario utilizzare la seguente metrica matematica: m1/4 dove m1 è la statistica su un periodo (secondo/minuto) SUM

Il livello del parametro specifica se questo parametro misura il numero totale di record ricevuti dall'intera applicazione, da un operatore specifico o da un'attività specifica.

numLateRecordsDropped* Conteggio Applicazione, operatore, attività, parallelismo

*Per applicare la statistica su un periodo di tempo (secondi/minuto): SUM

  • Seleziona il parametro al livello corretto. Se stai monitorando il parametro per un operatore, devi selezionare i parametri dell'operatore corrispondenti.

  • Poiché Managed Service for Apache Flink esegue 4 istantanee metriche al minuto, è necessario utilizzare la seguente metrica matematica: m1/4 dove m1 è la statistica su un periodo (secondo/minuto) SUM

Il numero di record di questo operatore o attività è diminuito a causa dell'arrivo in ritardo.

numRecordsOutPerSecond* Numero/secondo Il numero totale di record generati da questa applicazione, operatore o attività al secondo. Applicazione, operatore, attività, parallelismo

*Per applicare la statistica su un periodo di tempo (secondi/minuto): SUM

  • Seleziona il parametro al livello corretto. Se stai monitorando il parametro per un operatore, devi selezionare i parametri dell'operatore corrispondenti.

  • Poiché Managed Service for Apache Flink esegue 4 istantanee metriche al minuto, è necessario utilizzare la seguente metrica matematica: m1/4 dove m1 è la statistica su un periodo (secondo/minuto) SUM

Il livello del parametro specifica se questo parametro misura il numero totale di record ricevuti dall'intera applicazione, da un operatore specifico o da un'attività specifica.

oldGenerationGCCount Conteggio Il numero totale di vecchie operazioni di rimozione di oggetti inutili (garbage collection) che si sono verificate in tutti i task manager. Applicazione
oldGenerationGCTime Millisecondi Il tempo totale impiegato per eseguire le vecchie operazioni di rimozione di oggetti inutili (garbage collection). Applicazione È possibile utilizzare questo parametro per monitorare la somma, la media e il tempo massimo di rimozione di oggetti inutili (garbage collection).
threadCount Conteggio Il numero totale di thread live utilizzati dall'applicazione. Applicazione Questo parametro misura il numero di thread utilizzati dal codice dell'applicazione. È diverso dal parallelismo dell’applicazione.
uptime Millisecondi Il tempo in cui il processo è stato eseguito senza interruzioni. Applicazione È possibile utilizzare questo parametro per determinare se un processo viene eseguito correttamente. Questo parametro restituisce -1 per i processi completati.
KPUs* Conteggio KPUsIl numero totale di dati utilizzati dall'applicazione. Applicazione

*Questa metrica riceve un campione per periodo di fatturazione (un'ora). Per visualizzare il numero di interruzioni KPUs nel tempo, utilizza MAX o AVG in un periodo di almeno una (1) ora.

Il KPU conteggio include il. orchestration KPU Per ulteriori informazioni, consulta Managed Service for Apache Flink Pricing.

Metriche del connettore Kinesis Data Streams

AWS emette tutti i record per Kinesis Data Streams oltre ai seguenti:

Parametro Unità Descrizione Livello Note per l'utilizzo
millisbehindLatest Millisecondi Il numero di millisecondi in cui il consumatore si trova rispetto all'estremità del flusso, a indicare il ritardo rispetto all'ora corrente del consumatore. Applicazione (per Stream), Parallelismo (per) ShardId
  • Un valore di 0 indica che l'elaborazione dei record è aggiornata e che non sono presenti nuovi record da elaborare in questo momento. Il parametro di una particolare partizione può essere specificato in base al nome del flusso e all'ID della partizione.

  • Il valore -1 indica che il servizio non ha ancora riportato un valore per il parametro.

bytesRequestedPerFetch Byte I byte richiesti in una singola chiamata a getRecords. Applicazione (per Stream), Parallelismo (per) ShardId

Metriche MSK del connettore Amazon

AWS emette tutti i record per Amazon MSK oltre ai seguenti:

Parametro Unità Descrizione Livello Note per l'utilizzo
currentoffsets N/D L'offset di lettura corrente del consumer, per ogni partizione. Il parametro di una particolare partizione può essere specificato in base al nome dell'argomento e all'ID della partizione. Applicazione (per argomento), parallelismo (per) PartitionId
commitsFailed N/D Il numero totale di errori di commit di offset su Kafka, se il commit di offset e la creazione di checkpoint sono abilitati. Applicazione, operatore, attività, parallelismo Restituire le compensazioni a Kafka è solo un modo per esporre i progressi dei consumer, quindi un errore di commit non pregiudica l'integrità degli offset delle partizioni bloccati di Flink.
commitsSucceeded N/D Il numero totale di commit di offset riusciti verso Kafka, se il commit di offset e la creazione di checkpoint sono abilitati. Applicazione, operatore, attività, parallelismo
committedoffsets N/D Gli ultimi offset eseguiti con successo su Kafka, per ogni partizione. Il parametro di una particolare partizione può essere specificato in base al nome dell'argomento e all'ID della partizione. Applicazione (per argomento), parallelismo (per) PartitionId
records_lag_max Conteggio Il ritardo massimo in termini di numero di record per ogni partizione in questa finestra Applicazione, operatore, attività, parallelismo
bytes_consumed_rate Byte Il numero medio di byte consumati al secondo per un argomento Applicazione, operatore, attività, parallelismo

Metriche di Apache Zeppelin

Per i notebook Studio, AWS emette le seguenti metriche a livello di applicazione:,,,, e. KPUs cpuUtilization heapMemoryUtilization oldGenerationGCTime oldGenerationGCCount threadCount Inoltre, genera i parametri mostrati nella tabella seguente, anche a livello di applicazione.

Parametro Unità Descrizione Nome Prometheus
zeppelinCpuUtilization Percentuale Percentuale complessiva di CPU utilizzo nel server Apache Zeppelin. process_cpu_usage
zeppelinHeapMemoryUtilization Percentuale Percentuale complessiva di utilizzo della memoria heap per il server Apache Zeppelin. jvm_memory_used_bytes
zeppelinThreadCount Conteggio Il numero totale di thread live utilizzati dal server Apache Zeppelin. jvm_threads_live_threads
zeppelinWaitingJobs Conteggio Il numero di processi di Apache Zeppelin in coda in attesa di un thread. jetty_threads_jobs
zeppelinServerUptime Secondi Il tempo totale in cui il server è stato attivo e in funzione. process_uptime_seconds

CloudWatch Visualizzazione delle metriche

Puoi visualizzare i CloudWatch parametri per la tua applicazione utilizzando la CloudWatch console Amazon o il AWS CLI.

Per visualizzare le metriche utilizzando la console CloudWatch
  1. Apri la CloudWatch console all'indirizzo https://console.aws.amazon.com/cloudwatch/.

  2. Nel pannello di navigazione, seleziona Parametri.

  3. Nel riquadro CloudWatch Metriche per categoria per Managed Service for Apache Flink, scegli una categoria di metriche.

  4. Nel riquadro superiore, scorri verso il basso per visualizzare l'elenco completo dei parametri.

Per visualizzare le metriche utilizzando il AWS CLI
  • Al prompt dei comandi utilizza il comando seguente.

    aws cloudwatch list-metrics --namespace "AWS/KinesisAnalytics" --region region

Impostazione dei livelli di CloudWatch report sulle metriche

Puoi controllare il livello dei parametri dell'applicazione creati dall'applicazione. Il servizio gestito per Apache Flink supporta i seguenti livelli di parametri:

  • Applicazione: l'applicazione riporta solo il livello più elevato dei parametri per ogni applicazione. I parametri del servizio gestito per Apache Flink vengono pubblicati al livello di Applicazione per impostazione predefinita.

  • Attività: l'applicazione riporta le dimensioni dei parametri specifiche dell'attività per i parametri definiti con il livello di report del parametro Attività, ad esempio il numero di record in entrata e in uscita dall'applicazione al secondo.

  • Operatore: l'applicazione riporta le dimensioni dei parametri specifiche dell'operatore per i parametri definiti con il livello di report del parametro Operatore, ad esempio i parametri per ogni operazione di filtro o mappa.

  • Parallelismo: l'applicazione riporta i livelli parametri Task e Operator per ciascun thread di esecuzione. Tale livello di report non è consigliato per applicazioni con un parallelismo superiore a 64 a causa di costi eccessivi.

    Nota

    È necessario utilizzare questo livello di parametri solo per la risoluzione dei problemi a causa della quantità di dati relativi ai parametri generati dal servizio. Puoi impostare questo livello di metrica solo utilizzando. CLI Questo livello di parametri non è disponibile nella console.

Il livello predefinito è Applicazione. L'applicazione riporta i parametri al livello corrente e a tutti i livelli superiori. Ad esempio, se il livello di reporting è impostato su Operatore l'applicazione riporta i parametri Applicazione, Attività e Operatore.

È possibile impostare il livello di rendicontazione delle CloudWatch metriche utilizzando il MonitoringConfiguration parametro dell'CreateApplicationazione o il MonitoringConfigurationUpdate parametro dell'UpdateApplicationazione. L'esempio seguente di richiesta per l'UpdateApplicationazione imposta il livello di segnalazione delle CloudWatch metriche su Task:

{ "ApplicationName": "MyApplication", "CurrentApplicationVersionId": 4, "ApplicationConfigurationUpdate": { "FlinkApplicationConfigurationUpdate": { "MonitoringConfigurationUpdate": { "ConfigurationTypeUpdate": "CUSTOM", "MetricsLevelUpdate": "TASK" } } } }

Puoi anche configurare il livello di registrazione utilizzando il parametro LogLevel dell'operazione CreateApplication o il parametro LogLevelUpdate dell'operazione UpdateApplication. Puoi utilizzare i seguenti livelli di log:

  • ERROR: registra gli eventi di errore potenzialmente recuperabili.

  • WARN: registra gli eventi di avviso che potrebbero causare un errore.

  • INFO: registra gli eventi informativi.

  • DEBUG: registra gli eventi di debug generali.

Per ulteriori informazioni sui livelli di registrazione di Log4j, consulta Livelli di registro personalizzati nella documentazione di Apache Log4j.