REL01-BP06 Garantir que existe uma lacuna suficiente entre as cotas atuais e o uso máximo para acomodar o failover - Pilar Confiabilidade

REL01-BP06 Garantir que existe uma lacuna suficiente entre as cotas atuais e o uso máximo para acomodar o failover

Quando um recurso falha ou fica inacessível, ele ainda pode ser contabilizado nas cotas até ser encerrado com êxito. Verifique se as cotas abrangem a sobreposição de recursos inacessíveis ou com falha e suas substituições. Você deve considerar casos de uso como falha de rede, falha na zona de disponibilidade ou falhas regionais ao calcular essa lacuna.

Resultado desejado: falhas pequenas ou grandes em recursos ou na acessibilidade de recursos podem ser cobertas nos limites atuais do serviço. As falhas de zona, falhas de rede ou até mesmo falhas regionais têm sido consideradas no planejamento de recursos.

Antipadrões comuns:

  • Configurar cotas de serviço com base nas necessidades atuais sem considerar os cenários de failover.

  • Não considerar as entidades principais de estabilidade estática ao calcular a cota de pico de um serviço.

  • Não considerar o potencial de recursos inacessíveis no cálculo da cota total necessária para cada região.

  • Não considerar os limites de isolamento de falhas de serviço da AWS para alguns serviços e seus padrões de uso possivelmente anormais.

Benefícios do estabelecimento dessa prática recomendada: quando um evento de interrupção do serviço afeta a disponibilidade da aplicação, a nuvem permite implementar estratégias para mitigar ou se recuperar desses eventos. Essas estratégias geralmente incluem a criação de recursos adicionais para substituir os que falharam ou estão inacessíveis. Sua estratégia de cota acomodaria essas condições de failover e não incluiria danos adicionais devido à exaustão do limite de serviço.

Nível de risco exposto se esta prática recomendada não é estabelecida: médio

Orientações para a implementação

Ao avaliar os limites de cota, considere casos de failover que podem ocorrer devido a algum dano. Os seguintes tipos de casos de failover devem ser considerados:

  • Uma VPC interrompida ou inacessível.

  • Uma sub-rede inacessível.

  • Uma zona de disponibilidade foi danificada o suficiente para afetar a acessibilidade de muitos recursos.

  • Várias rotas de rede ou pontos de ingresso e egresso são bloqueados ou alterados.

  • Uma região foi danificada o suficiente para afetar a acessibilidade de muitos recursos.

  • Há vários recursos, mas nem todos são afetados por uma falha em uma região ou zona de disponibilidade.

Falhas como as da lista acima poderiam ser o gatilho para iniciar um evento de failover. A decisão de fazer failover é única para cada situação e cliente, já que o impacto na empresa pode variar drasticamente. No entanto, ao decidir operacionalmente realizar failover de aplicações ou serviços, o planejamento da capacidade de recursos no local de failover e as cotas relacionadas devem ser solucionados antes do evento.

Revise as cotas de cada serviço considerando os picos mais altos do que o normal que podem ocorrer. Esses picos podem estar relacionados aos recursos que podem ser acessados devido às redes ou permissões, mas ainda estão ativos. Os recursos ativos não encerrados ainda serão contabilizados no limite de cota do serviço.

Etapas da implementação

  • Verifique se há uma lacuna suficiente entre a cota de serviço e o uso máximo para acomodar um failover ou uma perda de acessibilidade.

  • Determine suas cotas de serviço, considerando os padrões de implantação, os requisitos de disponibilidade e o aumento do consumo.

  • Solicite aumentos de cota, se necessário. Planeje o tempo necessário para o atendimento das solicitações de aumento de cota.

  • Determine os requisitos de confiabilidade (também conhecidos como “número de noves”).

  • Estabeleça seus cenários de falha (por exemplo, perda de um componente, uma zona de disponibilidade ou uma região).

  • Estabeleça a metodologia de implantação (por exemplo, canário, azul/verde, vermelho/preto ou gradual).

  • Inclua uma reserva adequada (por exemplo, 15%) do limite atual.

  • Inclua cálculos para estabilidade estática (por zona e região), quando apropriado.

  • Planeje o aumento do consumo (por exemplo, monitore suas tendências de consumo).

  • Considere o impacto da estabilidade estática das suas workloads mais críticas. Avalie os recursos em conformidade com um sistema estaticamente estável em todas as regiões e zonas de disponibilidade.

  • Considere o uso de reservas de capacidade sob demanda para programas a capacidade antecipadamente de qualquer failover. Isso pode ser uma estratégia útil durante as programações empresariais mais críticas para reduzir possíveis riscos de obter a quantidade o tipo certo de recursos durante o failover.

Recursos

Práticas recomendadas relacionadas:

Documentos relacionados:

Vídeos relacionados:

Ferramentas relacionadas: