Il pilastro dell'eccellenza operativa - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Il pilastro dell'eccellenza operativa

Il pilastro dell'eccellenza operativa del AWS Well-Architected Framework si concentra sull'esecuzione e il monitoraggio dei sistemi e sul miglioramento continuo di processi e procedure. Include la capacità di supportare lo sviluppo ed eseguire i carichi di lavoro in modo efficace, ottenere informazioni dettagliate sul loro funzionamento e migliorare continuamente i processi e le procedure di supporto per offrire valore aziendale. È possibile ridurre la complessità operativa attraverso carichi di lavoro con riparazione automatica, che rilevano e risolvono la maggior parte dei problemi senza l'intervento umano. Puoi raggiungere questo obiettivo seguendo le best practice descritte in questa sezione e utilizzare i parametri APIs e i meccanismi di Amazon Neptune Analytics per rispondere correttamente quando il carico di lavoro si discosta dal comportamento previsto.

Questa discussione sul pilastro dell'eccellenza operativa si concentra sulle seguenti aree chiave:

  • Infrastructure as code (IaC)

  • Gestione delle modifiche

  • Strategie di resilienza

  • Gestione degli incidenti

  • Segnalazione di audit per la conformità

  • Registrazione di log e monitoraggio

Automatizza l'implementazione utilizzando un approccio IaC

Le migliori pratiche per automatizzare l'implementazione su Neptune utilizzando IaC includono quanto segue:

Progettazione delle operazioni

Adotta approcci per migliorare il modo in cui utilizzi i grafici di Neptune Analytics:

  • Mantieni grafici di Neptune Analytics separati per lo sviluppo, il test e l'uso in produzione. Questi grafici potrebbero avere set di dati, utenti e controlli operativi diversi.

  • Mantieni grafici di Neptune Analytics separati per usi diversi. Ad esempio, se due gruppi di utenti analitici richiedono grafici separati con tempistiche, modelli, prestazioni e disponibilità e modelli di utilizzo diversi SLAs, mantieni grafici separati per ogni gruppo.

  • Prepara gli utenti e il personale operativo per gli aggiornamenti di manutenzione di Neptune Analytics.

Apporta modifiche frequenti, piccole e reversibili

I seguenti consigli si concentrano su piccole modifiche reversibili che è possibile apportare per ridurre al minimo la complessità e ridurre la probabilità di interruzione del carico di lavoro:

  • Archivia modelli e script IAc in un servizio di controllo del codice sorgente come o. GitHub GitLab

    Importante

    Non memorizzate AWS le credenziali nel controllo del codice sorgente.

  • Richiedi che le implementazioni IaC utilizzino un servizio di integrazione e distribuzione continua (CI/CD) come o. AWS CodeDeployAWS CodeBuild Compila, testa e distribuisci il codice in un ambiente Neptune Analytics non di produzione prima di trasformarlo in un grafico di produzione.

Implementa l'osservabilità per ottenere informazioni fruibili

Ottieni una comprensione completa del comportamento, delle prestazioni, dell'affidabilità, dei costi e dello stato del carico di lavoro. I seguenti consigli ti aiutano ad acquisire quel livello di comprensione in Neptune Analytics:

  • Monitora i CloudWatch parametri di Amazon per Neptune Analytics. In base a questi parametri, puoi determinare la dimensione di un grafico (numero di nodi, bordi e vettori, più la dimensione totale dei byte), l'utilizzo della CPU e le richieste di query e i tassi di errore.

  • Crea CloudWatch dashboard e allarmi per metriche chiave comeNumQueuedRequestsPerSec,, NumOpenCypherRequestsPerSec GraphStorageUsagePercentGraphSizeBytes, e CPUUtilization le risposte dei client Neptune presenti nei registri delle applicazioni.

  • Imposta notifiche per monitorare lo stato del grafico di Neptune Analytics, ad esempio quando la dimensione del grafico, la frequenza delle richieste o l'utilizzo della CPU superano la soglia. Ad esempio, se su un grafico GraphStorageUsagePercent è salito al 90 percento e intendi crescere in modo significativo, decidi se aumentare la capacità della Neptune Capacity Unit (m-NCU) ottimizzata per la memoria. Se l'attuale m-NCU è 128, aumentandolo a 256 si ridurrà lo storage di circa il 45 percento. Se NumQueuedRequestsPerSec è spesso maggiore di zero, valuta la possibilità di aumentare la capacità m-NCU per fornire una maggiore capacità di elaborazione. In alternativa, è possibile ridurre la concorrenza lato client.

Imparate da tutti i fallimenti operativi

Un'infrastruttura che si ripara automaticamente è uno sforzo a lungo termine che si sviluppa in iterazioni man mano che si verificano problemi rari o le risposte non sono così efficaci come desiderato. L'adozione delle seguenti pratiche favorisce l'attenzione verso tale obiettivo:

  • Promuovi il miglioramento imparando da tutti i fallimenti.

  • Condividi ciò che viene appreso tra i team e l'organizzazione. Se più team all'interno della tua organizzazione utilizzano Neptune, crea una chat room o un gruppo di utenti comune per condividere conoscenze e best practice.

Utilizza le funzionalità di registrazione per monitorare attività non autorizzate o anomale

Utilizza la registrazione per osservare prestazioni e modelli di attività anomali. Considerate le seguenti best practice:

  • Neptune Analytics supporta la registrazione delle azioni del piano di controllo utilizzando. AWS CloudTrail Per ulteriori informazioni, consulta Registrazione delle chiamate API di Neptune Analytics utilizzando. AWS CloudTrail Grazie a questa funzionalità, puoi monitorare la creazione, l'aggiornamento e l'eliminazione delle risorse di Neptune Analytics. Per un monitoraggio e un sistema di avvisi affidabili, puoi anche integrare CloudTrail gli eventi con Amazon CloudWatch Logs. Per migliorare l'analisi dell'attività del servizio Neptune Analytics e identificare i cambiamenti nelle attività di Account AWS un utente, puoi CloudTrail interrogare i log utilizzando Amazon Athena. Ad esempio, è possibile utilizzare le query per identificare le tendenze e isolare con maggiore precisione le attività in base ad attributi specifici, ad esempio l'indirizzo IP di origine o un utente.

  • È inoltre possibile utilizzarlo CloudTrail per abilitare la registrazione delle attività del piano dati di Neptune Analytics come le esecuzioni di query. È possibile visualizzare quali query vengono eseguite, la loro frequenza e la loro origine. Per impostazione predefinita, CloudTrail non registra gli eventi relativi ai dati. Per gli eventi di dati sono previsti costi aggiuntivi. Per ulteriori informazioni, consulta Prezzi di AWS CloudTrail.

  • È inoltre possibile registrare le chiamate alle applicazioni a Neptune Analytics nel piano di controllo o nel piano dati. Ad esempio, se si utilizza il per AWS SDK per Python (Boto3)effettuare interrogazioni, è possibile abilitare la registrazione a livello di debug per ottenere una traccia delle query sulla console o sul file. Ciò è utile durante lo sviluppo. Ti consigliamo inoltre di catturare e registrare le eccezioni dalla tua applicazione.