Le migliori pratiche per Amazon OpenSearch Ingestion - OpenSearch Servizio Amazon

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Le migliori pratiche per Amazon OpenSearch Ingestion

Questo argomento fornisce le best practice per la creazione e la gestione delle pipeline di Amazon OpenSearch Ingestion e include linee guida generali che si applicano a molti casi d'uso. Ogni carico di lavoro è unico, con caratteristiche uniche, quindi nessun suggerimento generico è adatto per ogni caso d'uso.

Best practice generali

Le seguenti best practice generali si applicano alla creazione e alla gestione di pipeline.

  • Per garantire un'elevata disponibilità, configura le VPC pipeline con due o tre sottoreti. Se distribuisci una pipeline solo in una sottorete e la zona di disponibilità non funziona, non sarai in grado di importare dati.

  • All'interno di ogni pipeline, consigliamo di limitare il numero di sotto-pipeline a 5 o meno.

  • Se utilizzi il plug-in sorgente S3, utilizza file S3 di dimensioni uniformi per prestazioni ottimali.

  • Se utilizzi il plug-in sorgente S3, aggiungi 30 secondi di timeout di visibilità aggiuntivo per ogni 0,25 GB di dimensione del file nel bucket S3 per prestazioni ottimali.

  • Includi una coda di lettere morte (DLQ) nella configurazione della pipeline in modo da poter scaricare gli eventi non riusciti e renderli accessibili per l'analisi. Se i vostri sink rifiutano i dati a causa di mappature errate o di altri problemi, potete indirizzare i dati verso la rete per risolvere il problema e risolverlo. DLQ

Allarmi consigliati CloudWatch

CloudWatch gli allarmi eseguono un'azione quando una CloudWatch metrica supera un valore specificato per un certo periodo di tempo. Ad esempio, potresti volere AWS per inviarti un'e-mail se lo stato di salute del cluster persiste red per più di un minuto. Questa sezione include alcuni allarmi consigliati per Amazon OpenSearch Ingestion e come rispondere ad essi.

Per ulteriori informazioni sulla configurazione degli allarmi, consulta Creating Amazon CloudWatch Alarms nella Amazon CloudWatch User Guide.

Allarme Problema

computeUnitsil massimo è = quello configurato maxUnits per 15 minuti, 3 volte consecutive

La pipeline ha raggiunto la capacità massima e potrebbe richiedere un maxUnits aggiornamento. Aumenta la capacità massima della tua pipeline

opensearch.documentErrors.countsum is = {sub_pipeline_name}.opensearch.recordsIn.count somma per 1 minuto, 1 volta consecutiva

La pipeline non è in grado di scrivere nel OpenSearch sink. Controlla le autorizzazioni della pipeline e conferma che il dominio o la raccolta siano integri. Puoi anche controllare la presenza di eventi non riusciti nella coda delle lettere morte (DLQ), se è configurata.

bulkRequestLatency.maxmax è >= x per 1 minuto, 1 volta consecutiva

La pipeline presenta un'elevata latenza nell'invio dei dati al sink. OpenSearch Ciò è probabilmente dovuto al fatto che il sink è sottodimensionato o a una strategia di sharding inadeguata, che sta facendo sì che il sink rimanga indietro. Una latenza elevata e sostenuta può influire sulle prestazioni della pipeline e probabilmente portare a una contropressione sui client.

httpAuthFailure.countsomma >= 1 per 1 minuto, 1 volta consecutiva

Le richieste di ingestione non vengono autenticate. Verifica che l'autenticazione Signature Version 4 sia abilitata correttamente per tutti i client.

system.cpu.usage.valuemedia >= 80% per 15 minuti, 3 volte consecutive

Un CPU utilizzo prolungato e prolungato può essere problematico. Valuta la possibilità di aumentare la capacità massima del gasdotto.

bufferUsage.valuemedia >= 80% per 15 minuti, 3 volte consecutive

Un utilizzo prolungato e elevato del buffer può essere problematico. Valuta la possibilità di aumentare la capacità massima della pipeline.

Altri allarmi che potresti prendere in considerazione

Valuta la possibilità di configurare i seguenti allarmi a seconda delle funzionalità di Amazon OpenSearch Ingestion che utilizzi regolarmente.

Allarme Problema

dynamodb.exportJobFailure.countsomma 1

Il tentativo di attivare un'esportazione verso Amazon S3 non è riuscito.

opensearch.EndtoEndLatency.avgmedia > X per 15 minuti, 4 volte consecutive

EndtoEndLatencyÈ superiore a quello desiderato per la lettura da flussi DynamoDB. Ciò potrebbe essere causato da un OpenSearch cluster sottodimensionato o da una OCU capacità massima della pipeline troppo bassa per il WCU throughput sulla tabella DynamoDB. EndtoEndLatencysarà più alto dopo un'esportazione, ma dovrebbe diminuire nel tempo man mano che raggiunge gli ultimi stream DynamoDB.

dynamodb.changeEventsProcessed.countsomma == 0 per X minuti

Nessun record viene raccolto dai flussi DynamoDB. Ciò potrebbe essere causato dall'assenza di attività sulla tabella o da un problema di accesso ai flussi DynamoDB.

opensearch.s3.dlqS3RecordsSuccess.countsomma >= opensearch.documentSuccess.count somma per 1 minuto, 1 volta consecutiva

Viene inviato un numero di record maggiore DLQ rispetto al OpenSearch sink. Esamina le metriche del plug-in OpenSearch sink per indagare e determinare la causa principale.

grok.grokProcessingTimeouts.countsum = recordsIn .count sum per 1 minuto, 5 volte consecutive

Il timeout di tutti i dati si verifica mentre il processore Grok sta cercando di creare una corrispondenza tra i modelli. È probabile che ciò influisca sulle prestazioni e rallenti la pipeline. Valuta la possibilità di modificare i tuoi schemi per ridurre i timeout.

grok.grokProcessingErrors.countla somma è >= 1 per 1 minuto, 1 volta consecutiva

Il processore Grok non riesce ad abbinare i modelli ai dati nella pipeline, con conseguenti errori. Rivedi i dati e le configurazioni del plug-in Grok per assicurarti che sia prevista la corrispondenza dei modelli.

grok.grokProcessingMismatch.countsum = recordsIn .count sum per 1 minuto, 5 volte consecutive

Il processore Grok non è in grado di abbinare i modelli ai dati nella pipeline. Rivedi i dati e le configurazioni del plug-in Grok per assicurarti che sia prevista la corrispondenza dei modelli.

date.dateProcessingMatchFailure.countsum = recordsIn .count = somma per 1 minuto, 5 volte consecutive

Il processore di dati non è in grado di abbinare alcun modello ai dati nella pipeline. Controlla le configurazioni dei dati e del plug-in Date per assicurarti che il modello sia previsto.

s3.s3ObjectsFailed.countsomma >= 1 per 1 minuto, 1 volta consecutiva

Questo problema si verifica perché l'oggetto S3 non esiste o la pipeline non dispone di privilegi sufficienti. Esamina le s3ObjectsAccessDenied.count metriche s3ObjectsNotFound.count and per determinare la causa principale. Verifica che l'oggetto S3 esista e/o aggiorna le autorizzazioni.

s3.sqsMessagesFailed.countsomma >= 1 per 1 minuto, 1 volta consecutiva

Il plug-in S3 non è riuscito a elaborare un SQS messaggio Amazon. Se hai DLQ attivato un messaggio in SQS coda, controlla il messaggio non riuscito. La coda potrebbe ricevere dati non validi che la pipeline sta tentando di elaborare.

http.badRequests.countsomma >= 1 per 1 minuto, 1 volte consecutive

Il client sta inviando una richiesta errata. Verifica che tutti i client stiano inviando il payload corretto.

http.requestsTooLarge.countsomma >= 1 per 1 minuto, 1 volta consecutiva

Le richieste provenienti dal plugin HTTP sorgente contengono troppi dati, il che supera la capacità del buffer. Regola la dimensione del batch per i tuoi clienti.

http.internalServerError.countsomma >= 0 per 1 minuto, 1 volta consecutiva

Il plugin HTTP sorgente ha problemi a ricevere gli eventi.

http.requestTimeouts.countsomma >= 0 per 1 minuto, 1 volta consecutiva

I timeout di origine sono probabilmente il risultato di un approvvigionamento insufficiente della pipeline. Valuta la possibilità di aumentare la pipeline maxUnits per gestire un carico di lavoro aggiuntivo.

otel_trace.badRequests.countsomma >= 1 per 1 minuto, 1 volta consecutiva

Il client sta inviando una richiesta errata. Verifica che tutti i client stiano inviando il payload corretto.

otel_trace.requestsTooLarge.countsomma >= 1 per 1 minuto, 1 volta consecutiva

Le richieste provenienti dal plugin sorgente di Otel Trace contengono troppi dati, il che supera la capacità del buffer. Regola la dimensione del batch per i tuoi clienti.

otel_trace.internalServerError.countsomma >= 0 per 1 minuto, 1 volta consecutiva

Il plugin sorgente di Otel Trace sta riscontrando problemi nella ricezione degli eventi.

otel_trace.requestTimeouts.countsomma >= 0 per 1 minuto, 1 volta consecutiva

I timeout di origine sono probabilmente il risultato di un approvvigionamento insufficiente della pipeline. Valuta la possibilità di aumentare la pipeline maxUnits per gestire un carico di lavoro aggiuntivo.

otel_metrics.requestTimeouts.countsomma >= 0 per 1 minuto, 1 volta consecutiva

I timeout di origine sono probabilmente il risultato di un approvvigionamento insufficiente della pipeline. Valuta la possibilità di aumentare la pipeline maxUnits per gestire un carico di lavoro aggiuntivo.