REL01-BP06 Creazione di un divario sufficiente tra le quote attuali e l'utilizzo massimo per consentire eventuali failover - Principio di base dell'affidabilità

REL01-BP06 Creazione di un divario sufficiente tra le quote attuali e l'utilizzo massimo per consentire eventuali failover

Quando una risorsa restituisce un errore o è inaccessibile, può comunque essere conteggiata rispetto a una quota finché non viene terminata. Verifica che le quote tengano conto della sovrapposizione di risorse in errore o inaccessibili e della rispettiva sostituzione. Nel calcolare questo divario, devi considerare casi d'uso come errori di rete, regionali o delle zone di disponibilità.

Risultato desiderato: possibilità di gestire errori di piccola o grande entità relativi alle risorse o all'accessibilità delle risorse all'interno delle attuali soglie di servizio, tenendo conto degli errori delle zone, di rete o addirittura regionali nella pianificazione delle risorse.

Anti-pattern comuni:

  • Impostazione delle quote di servizio in base alle esigenze attuali senza tenere conto degli scenari di failover.

  • Calcolo della quota massima per un servizio senza tenere conto dei principali aspetti della stabilità statica.

  • Calcolo della quota totale necessaria per ogni regione senza tenere conto delle potenziali risorse inaccessibili.

  • Valutazione errata dei limiti di isolamento degli errori per alcuni servizi AWS e dei possibili modelli di utilizzo anomalo.

Vantaggi dell'adozione di questa best practice: quando eventi di interruzione dei servizi hanno impatto sulla disponibilità delle applicazioni, il cloud permette di implementare strategie per mitigare questi eventi o ripristinare i servizi. Queste strategie spesso includono la creazione di risorse aggiuntive per sostituire quelle in errore o inaccessibili. La strategia di gestione delle quote soddisferebbe queste condizioni di failover senza aggiungere altri fattori negativi dovuti al raggiungimento dei limiti dei servizi.

Livello di rischio associato alla mancata adozione di questa best practice: medio

Guida all'implementazione

Nel valutare i limiti di quota, tieni conto dei casi di failover che possono verificarsi a causa di un peggioramento della situazione. È bene considerare i tipi di casi di failover seguenti:

  • Un VPC interrotto o inaccessibile.

  • Una sottorete inaccessibile.

  • Una zona di disponibilità sufficientemente compromessa da avere impatto sull'accessibilità di molte risorse.

  • Diverse route di rete o punti di ingresso e uscita bloccati o che sono stati modificati.

  • Una regione sufficientemente compromessa da avere impatto sull'accessibilità di molte risorse.

  • Presenza di più risorse, ma non tutte interessate da un errore in una regione o in una zona di disponibilità.

Errori come quelli elencati sopra possono essere il fattore scatenante dell'avvio di un evento di failover. La decisione relativa all'avvio del failover è unica per ogni situazione e cliente, in quanto l'impatto aziendale può variare notevolmente. Tuttavia, nel decidere operativamente l'avvio del failover dell'applicazione o dei servizi, la pianificazione della capacità delle risorse nella posizione di failover e delle quote correlate deve essere gestita prima dell'evento.

Esamina le quote per ogni servizio tenendo conto di possibili picchi più elevati del previsto. Questi picchi possono essere correlati a risorse ancora attive raggiungibili a causa di reti o autorizzazioni. Le risorse attive non terminate continuano a essere conteggiate rispetto al limite di quota del servizio.

Passaggi dell'implementazione

  • Assicurati che vi sia una differenza sufficiente tra la quota di servizio e l'utilizzo massimo in modo da gestire un failover o la perdita di accessibilità.

  • Determina le quote di servizio, specificando i pattern di implementazione, i requisiti di disponibilità e la crescita dei consumi.

  • Richiedi aumenti delle quote, se necessario. Pianifica tenendo conto del tempo necessario affinché le richieste di aumento delle quote siano soddisfatte.

  • Determina i requisiti di affidabilità, noti anche come numero di 9.

  • Determina gli scenari di errore (ad esempio, perdita di un componente, una zona di disponibilità o una regione).

  • Stabilisci la metodologia di implementazione (ad esempio, canary, blu/verde, rosso/nero o rolling).

  • Includi un buffer appropriato (ad esempio, 15%) rispetto alla restrizione attuale.

  • Includi calcoli per la stabilità statica (zonale e regionale) laddove appropriato.

  • Pianifica la crescita dei consumi (ad esempio, monitora le tendenze dei consumi).

  • Tieni conto dell'impatto della stabilità statica per i carichi di lavoro più critici. Valuta la conformità delle risorse a un sistema statisticamente stabile in tutte le regioni e le zone di disponibilità.

  • Valuta se usare prenotazioni della capacità on demand per pianificare la capacità in anticipo rispetto a qualsiasi failover. Questa strategia può essere utile durante le pianificazioni aziendali più critiche per ridurre i possibili rischi legati all'ottenimento della quantità e del tipo di risorse corretti durante il failover.

Risorse

Best practice correlate:

Documenti correlati:

Video correlati:

Strumenti correlati: