OPS08-BP03 Raccolta e analisi dei parametri del carico di lavoro - Principio dell'eccellenza operativa

OPS08-BP03 Raccolta e analisi dei parametri del carico di lavoro

Esegui revisioni proattive regolari dei parametri per identificare le tendenze e stabilire dove sono necessarie risposte adeguate.

Devi aggregare i dati di log della tua applicazione, dei componenti del carico di lavoro, dei servizi e delle chiamate API in un servizio come CloudWatch Logs. Genera parametri dalle osservazioni dei contenuti di log necessari per consentire analisi approfondite delle prestazioni delle attività operative.

In AWS puoi analizzare i parametri del carico di lavoro e identificare i problemi operativi grazie alla funzionalità di machine learning di Amazon DevOps Guru. AWS DevOps Guru fornisce notifiche relative ai problemi operativi, con consigli mirati e proattivi per risolvere tali problemi e mantenere integra l'applicazione.

Nel modello di responsabilità condivisa AWS, le parti relative al monitoraggio vengono passate a te attraverso AWS Health Dashboard. Questo pannello di controllo fornisce avvisi e indicazioni per la correzione dei problemi quando in AWS si verificano eventi che possono avere ripercussioni su di te. I clienti iscritti al supporto Business ed Enterprise hanno a loro volta accesso all' API AWS Health, il che consente loro di integrare i propri sistemi di gestione degli eventi.

In AWS è possibile esporta i dati di log in Amazon S3 oppure inviare log direttamente a Amazon S3 per lo storage a lungo termine. Utilizzando AWS Glue, è possibile individuare e preparare i dati di log in Amazon S3 per l'analisi, archiviando i metadati associati nel AWSAWS Glue Data Catalog. Amazon Athena, grazie all'integrazione nativa con AWS Glue, quindi, può essere utilizzato per analizzare i dati di log, eseguendo query tramite SQL standard. Utilizzando uno strumento di business intelligence come Amazon QuickSight puoi visualizzare, esplorare e analizzare i tuoi dati.

Una soluzione alternativa sarebbe quella di utilizzare Amazon OpenSearch Service e i pannelli di controllo di OpenSearch per raccogliere, analizzare e visualizzare i log su AWS per più account e Regioni AWS.

Anti-pattern comuni:

  • Il team di progettazione della rete ti chiede le tariffe correnti di utilizzo della larghezza di banda della rete. Secondo i parametri correnti, l'utilizzo della rete è al 35%. Come misura di risparmio sui costi, viene ridotta la capacità del circuito causando problemi di connettività diffusi, poiché la misurazione effettuata in un determinato momento non rifletteva l'andamento dei tassi di utilizzo.

  • Il router ha generato errori. Ha registrato errori di memoria non critici con frequenza maggiore fino al completamento dell'errore. Non hai rilevato questo andamento e di conseguenza non hai sostituito la memoria difettosa prima che il router causasse un'interruzione del servizio.

Vantaggi dell'adozione di questa best practice: Raccogliendo e analizzando i parametri del carico di lavoro, puoi comprenderne lo stato e ottenere informazioni sulle tendenze che possono avere un impatto di esso o sul raggiungimento dei risultati aziendali.

Livello di rischio associato se questa best practice non fosse adottata: Alta

Guida all'implementazione

Risorse

Documenti correlati: