REL01-BP06 Garantir que existe uma lacuna suficiente entre as cotas atuais e o uso máximo para acomodar o failover
Quando um recurso falha ou fica inacessível, ele ainda pode ser contabilizado nas cotas até ser encerrado com êxito. Verifique se as cotas abrangem a sobreposição de recursos inacessíveis ou com falha e suas substituições. Você deve considerar casos de uso como falha de rede, falha na zona de disponibilidade ou falhas regionais ao calcular essa lacuna.
Resultado desejado: falhas pequenas ou grandes em recursos ou na acessibilidade de recursos podem ser cobertas nos limites atuais do serviço. As falhas de zona, falhas de rede ou até mesmo falhas regionais têm sido consideradas no planejamento de recursos.
Antipadrões comuns:
-
Configurar cotas de serviço com base nas necessidades atuais sem considerar os cenários de failover.
-
Não considerar as entidades principais de estabilidade estática ao calcular a cota de pico de um serviço.
-
Não considerar o potencial de recursos inacessíveis no cálculo da cota total necessária para cada região.
-
Não considerar os limites de isolamento de falhas de serviço da AWS para alguns serviços e seus padrões de uso possivelmente anormais.
Benefícios do estabelecimento dessa prática recomendada: quando um evento de interrupção do serviço afeta a disponibilidade da aplicação, a nuvem permite implementar estratégias para mitigar ou se recuperar desses eventos. Essas estratégias geralmente incluem a criação de recursos adicionais para substituir os que falharam ou estão inacessíveis. Sua estratégia de cota acomodaria essas condições de failover e não incluiria danos adicionais devido à exaustão do limite de serviço.
Nível de risco exposto se esta prática recomendada não é estabelecida: médio
Orientações para a implementação
Ao avaliar os limites de cota, considere casos de failover que podem ocorrer devido a algum dano. Os seguintes tipos de casos de failover devem ser considerados:
-
Uma VPC interrompida ou inacessível.
-
Uma sub-rede inacessível.
-
Uma zona de disponibilidade foi danificada o suficiente para afetar a acessibilidade de muitos recursos.
-
Várias rotas de rede ou pontos de ingresso e egresso são bloqueados ou alterados.
-
Uma região foi danificada o suficiente para afetar a acessibilidade de muitos recursos.
-
Há vários recursos, mas nem todos são afetados por uma falha em uma região ou zona de disponibilidade.
Falhas como as da lista acima poderiam ser o gatilho para iniciar um evento de failover. A decisão de fazer failover é única para cada situação e cliente, já que o impacto na empresa pode variar drasticamente. No entanto, ao decidir operacionalmente realizar failover de aplicações ou serviços, o planejamento da capacidade de recursos no local de failover e as cotas relacionadas devem ser solucionados antes do evento.
Revise as cotas de cada serviço considerando os picos mais altos do que o normal que podem ocorrer. Esses picos podem estar relacionados aos recursos que podem ser acessados devido às redes ou permissões, mas ainda estão ativos. Os recursos ativos não encerrados ainda serão contabilizados no limite de cota do serviço.
Etapas da implementação
-
Verifique se há uma lacuna suficiente entre a cota de serviço e o uso máximo para acomodar um failover ou uma perda de acessibilidade.
-
Determine suas cotas de serviço, considerando os padrões de implantação, os requisitos de disponibilidade e o aumento do consumo.
-
Solicite aumentos de cota, se necessário. Planeje o tempo necessário para o atendimento das solicitações de aumento de cota.
-
Determine os requisitos de confiabilidade (também conhecidos como “número de noves”).
-
Estabeleça seus cenários de falha (por exemplo, perda de um componente, uma zona de disponibilidade ou uma região).
-
Estabeleça a metodologia de implantação (por exemplo, canário, azul/verde, vermelho/preto ou gradual).
-
Inclua uma reserva adequada (por exemplo, 15%) do limite atual.
-
Inclua cálculos para estabilidade estática (por zona e região), quando apropriado.
-
Planeje o aumento do consumo (por exemplo, monitore suas tendências de consumo).
-
Considere o impacto da estabilidade estática das suas workloads mais críticas. Avalie os recursos em conformidade com um sistema estaticamente estável em todas as regiões e zonas de disponibilidade.
-
Considere o uso de reservas de capacidade sob demanda para programas a capacidade antecipadamente de qualquer failover. Isso pode ser uma estratégia útil durante as programações empresariais mais críticas para reduzir possíveis riscos de obter a quantidade o tipo certo de recursos durante o failover.
Recursos
Práticas recomendadas relacionadas:
Documentos relacionados:
-
AWS Pilar Confiabilidade da Well-Architected Framework: Disponibilidade
-
AWS Service Quotas (anteriormente chamado de limites de serviço)
-
AWS limit monitor on AWS answers
(Monitor de limites da AWS em respostas da AWS) -
Amazon EC2 Service Limits (Limites de serviço do Amazon EC2)
-
What is Service Quotas? (O que é o Service Quotas?)
-
How to Request Quota Increase (Como solicitar aumento de cota)
-
Service endpoints and quotas (Endpoints e cotas de serviço)
-
Quota Monitor for AWS
(Monitor de cotas da AWS) -
AWS Fault Isolation Boundaries (Limites de isolamento de falhas da AWS)
-
Availability with redundancy (Disponibilidade com redundância)
-
Parceiro do APN: parceiros que podem ajudar no gerenciamento de configuração
-
Managing the account lifecycle in account-per-tenant SaaS environments on AWS
(Gerenciar o ciclo devida da conta em ambientes de SaaS de conta por locatário na AWS) -
Managing and monitoring API throttling in your workloads
(Gerenciar e monitorar o controle de utilização de API em workloads) -
View AWS Trusted Advisor recommendations at scale with AWS Organizations
(Exibir recomendações do AWS Trusted Advisor em grande escala com AWS Organizations) -
Automating Service Limit Increases and Enterprise Support with AWS Control Tower
(Automatizar aumentos de limite de serviço e suporte empresarial com AWS Control Tower)
Vídeos relacionados:
-
View and Manage Quotas for AWS Services Using Service Quotas
(Exibir e gerenciar cotas para serviços da AWS usando o Service Quotas) -
AWS IAM Quotas Demo
(Demonstração de cotas do AWS IAM) -
AWS re:Invent 2018: Close Loops and Opening Minds: How to Take Control of Systems, Big and Small
(AWS re:Invent 2018: fechar ciclos e abrir mentes: como controlar sistemas, sejam grandes ou pequenos)
Ferramentas relacionadas: