Utilizzo degli CloudWatch allarmi con Amazon Managed Service per Apache Flink - Servizio gestito per Apache Flink

Il servizio gestito da Amazon per Apache Flink era precedentemente noto come Analisi dei dati Amazon Kinesis per Apache Flink.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo degli CloudWatch allarmi con Amazon Managed Service per Apache Flink

Utilizzando gli allarmi Amazon CloudWatch Metric, controlli una CloudWatch metrica per un periodo di tempo specificato. L'allarme esegue una o più operazioni basate sul valore del parametro o espressione relativa a una soglia su un certo numero di periodi. Un esempio di operazione sta inviando una notifica a un argomento Amazon Simple Notification Service (Amazon SNS).

Per ulteriori informazioni sugli CloudWatch allarmi, consulta Using Amazon CloudWatch Alarms.

Questa sezione contiene gli allarmi consigliati per il monitoraggio delle applicazioni del servizio gestito per Apache Flink.

La tabella descrive gli allarmi consigliati e contiene le seguenti colonne:

  • Espressione di parametro: il parametro o l'espressione di parametro da testare rispetto alla soglia.

  • Statistica: la statistica utilizzata per controllare il parametro, ad esempio Media.

  • Soglia: l'utilizzo di questo allarme richiede la determinazione di una soglia che definisca il limite delle prestazioni previste dell'applicazione. È necessario determinare questa soglia monitorando l'applicazione in condizioni normali.

  • Descrizione: cause che potrebbero attivare questo allarme e possibili soluzioni per la condizione.

Espressioni di parametro Statistic Threshold Descrizione
downtime> 0 Media 0 Un tempo di inattività maggiore di zero indica che l'applicazione non è riuscita. Se il valore è maggiore di 0, l'applicazione non sta elaborando alcun dato. Consigliato per tutte le applicazioni. La Downtime metrica misura la durata di un'interruzione. Un tempo di inattività maggiore di zero indica che l'applicazione non è riuscita. Per la risoluzione dei problemi, vedereL'applicazione si sta riavviando.
RATE (numberOfFailedCheckpoints)> 0 Media 0 Questa metrica conta il numero di checkpoint non riusciti dall'avvio dell'applicazione. A seconda dell'applicazione, un malfunzionamento occasionale dei checkpoint può essere accettabile. Tuttavia, se i checkpoint non riescono regolarmente, è probabile che l'applicazione non sia integra e che necessiti di ulteriore attenzione. Consigliamo di monitorare RATE (numberOfFailedCheckpoints) per generare allarmi sul gradiente e non sui valori assoluti. Consigliato per tutte le applicazioni. Utilizza questa metrica per monitorare lo stato delle applicazioni e l'avanzamento del checkpoint. L'applicazione salva i dati sullo stato nei checkpoint quando è integra. Il checkpoint può fallire a causa di timeout se l'applicazione non sta procedendo nell'elaborazione dei dati di input. Per la risoluzione dei problemi, vedere. Il checkpoint è in fase di interruzione
Operator.numRecordsOutPerSecond< soglia Media Il numero minimo di record emessi dall'applicazione in condizioni normali. Consigliato per tutte le applicazioni. Un calo al di sotto di questa soglia può indicare che l'applicazione non sta facendo i progressi previsti sui dati di input. Per la risoluzione dei problemi, vedereLa velocità di trasmissione effettiva è troppo lenta.
records_lag_max|millisbehindLatest> soglia Massimo La latenza massima prevista in condizioni normali. Se l'applicazione utilizza Kinesis o Kafka, queste metriche indicano se l'applicazione è in ritardo e deve essere ridimensionata per stare al passo con il carico corrente. Si tratta di un parametro generico valido e facile da tracciare per tutti i tipi di applicazioni; tuttavia, può essere utilizzato solo per il dimensionamento reattivo, ovvero quando l'applicazione è già in ritardo. Consigliato per tutte le applicazioni. Usa la records_lag_max metrica per una sorgente Kafka o la per millisbehindLatest una sorgente di flusso Kinesis. Il superamento di questa soglia può indicare che l'applicazione non sta facendo i progressi previsti sui dati di input. Per la risoluzione dei problemi, vedereLa velocità di trasmissione effettiva è troppo lenta.
lastCheckpointDuration> soglia Massimo La durata massima prevista del checkpoint in condizioni normali. Monitora la quantità di dati archiviati nello stato e il tempo necessario per completare un checkpoint. Se i checkpoint aumentano di dimensioni o richiedono molto tempo, l'applicazione dedica continuamente tempo a effettuare checkpoint e ha meno cicli per l'elaborazione effettiva dei dati. In alcuni punti, i checkpoint possono diventare troppo grandi o impiegare così tanto tempo da non funzionare. Oltre ai valori assoluti, i clienti dovrebbero considerare la possibilità di monitorare la frequenza di modifica con RATE(lastCheckpointSize) e RATE(lastCheckpointDuration). Se il valore aumenta lastCheckpointDuration continuamente, il superamento di questa soglia può indicare che l'applicazione non sta facendo i progressi previsti sui dati di input o che vi sono problemi di integrità dell'applicazione, come la contropressione. Per la risoluzione dei problemi, vedereCrescita statale illimitata.
lastCheckpointSize> soglia Massimo La dimensione massima prevista del checkpoint in condizioni normali. Monitora la quantità di dati archiviati nello stato e il tempo necessario per completare un checkpoint. Se i checkpoint aumentano di dimensioni o richiedono molto tempo, l'applicazione dedica continuamente tempo a effettuare checkpoint e ha meno cicli per l'elaborazione effettiva dei dati. In alcuni punti, i checkpoint possono diventare troppo grandi o impiegare così tanto tempo da non funzionare. Oltre ai valori assoluti, i clienti dovrebbero considerare la possibilità di monitorare la frequenza di modifica con RATE(lastCheckpointSize) e RATE(lastCheckpointDuration). Se il valore aumenta lastCheckpointSize continuamente, il superamento di questa soglia può indicare che l'applicazione sta accumulando dati sullo stato. Se i dati sullo stato diventano troppo grandi, l'applicazione può esaurire la memoria durante il ripristino da un checkpoint, oppure il ripristino da un checkpoint potrebbe richiedere troppo tempo. Per la risoluzione dei problemi, vedere. Crescita statale illimitata
heapMemoryUtilization> soglia Massimo Ciò fornisce una buona indicazione dell'utilizzo complessivo delle risorse dell'applicazione e può essere utilizzato per una scalabilità proattiva, a meno che l'applicazione non sia vincolata all'I/O. La heapMemoryUtilization dimensione massima prevista in condizioni normali, con un valore consigliato del 90 percento. È possibile utilizzare questa metrica per monitorare l'utilizzo massimo della memoria dei task manager nell'applicazione. Se l'applicazione raggiunge questa soglia, è necessario fornire più risorse. A tale scopo, è necessario abilitare il ridimensionamento automatico o aumentare il parallelismo dell'applicazione. Per ulteriori informazioni sull'aumento delle risorse, vedere. Dimensionamento
cpuUtilization> soglia Massimo Ciò fornisce una buona indicazione dell'utilizzo complessivo delle risorse dell'applicazione e può essere utilizzato per una scalabilità proattiva, a meno che l'applicazione non sia vincolata all'I/O. La cpuUtilization dimensione massima prevista in condizioni normali, con un valore consigliato dell'80%. È possibile utilizzare questa metrica per monitorare l'utilizzo massimo della CPU dei task manager nell'applicazione. Se l'applicazione raggiunge questa soglia, è necessario fornire più risorse. A tale scopo, è necessario abilitare il ridimensionamento automatico o aumentare il parallelismo dell'applicazione. Per ulteriori informazioni sull'aumento delle risorse, vedere. Dimensionamento
threadsCount> soglia Massimo La threadsCount dimensione massima prevista in condizioni normali. Puoi utilizzare questa metrica per controllare eventuali perdite di thread nei task manager dell'applicazione. Se questa metrica raggiunge questa soglia, controllate il codice dell'applicazione per verificare se i thread vengono creati senza essere chiusi.
(oldGarbageCollectionTime * 100)/60_000 over 1 min period')> soglia Massimo La oldGarbageCollectionTime durata massima prevista. Si consiglia di impostare una soglia in modo che il tempo di raccolta dei rifiuti tipico sia pari al 60 percento della soglia specificata, ma la soglia corretta per l'applicazione può variare. Se questa metrica aumenta continuamente, ciò può indicare la presenza di una perdita di memoria nei task manager dell'applicazione.
RATE(oldGarbageCollectionCount) > soglia Massimo Il massimo previsto oldGarbageCollectionCount in condizioni normali. La soglia corretta per la tua candidatura può variare. Se questa metrica aumenta continuamente, ciò può indicare la presenza di una perdita di memoria nei task manager dell'applicazione.
Operator.currentOutputWatermark - Operator.currentInputWatermark > soglia Minimo L'incremento minimo previsto della filigrana in condizioni normali. La soglia corretta per l'applicazione può variare. Se questa metrica aumenta continuamente, ciò può indicare che l'applicazione sta elaborando eventi sempre più vecchi o che un'attività secondaria a monte non invia una filigrana da un periodo di tempo sempre più lungo.