Princípios e diretrizes básicos Diretrizes para planejamento de experimentos

Planejando seus AWS experimentos FIS

A injeção de falhas é o processo de sobrecarregar um aplicativo em ambientes de teste ou produção criando eventos disruptivos, como interrupções no servidor ou controle de utilização da API. Ao observar como o sistema responde, você pode implementar melhorias. Quando você executa experimentos em seu sistema, isso pode ajudá-lo a identificar fraquezas sistêmicas de forma controlada antes que essas fraquezas afetem os clientes que dependem do seu sistema. Depois, você pode resolver os problemas de forma proativa para ajudar a evitar resultados imprevisíveis.

Antes de começar a realizar experimentos de injeção de falhas usando o AWS FIS, recomendamos que você se familiarize com os princípios e diretrizes a seguir.

Importante

AWS O FIS realiza ações reais em AWS recursos reais em seu sistema. Portanto, antes de começar a usar o AWS FIS para realizar experimentos, é altamente recomendável que você primeiro conclua uma fase de planejamento e um teste em um ambiente de pré-produção ou teste.

Conteúdo

Princípios e diretrizes básicos
Diretrizes para planejamento de experimentos

Princípios e diretrizes básicos

Antes de iniciar os experimentos com o AWS FIS, siga as seguintes etapas:

Identifique a implantação de destino para o experimento — Comece identificando a implantação de destino. Se esse for seu primeiro experimento, recomendamos começar em um ambiente de pré-produção ou teste.
Revise a arquitetura do aplicativo — Você deve garantir que identificou todos os componentes, dependências e procedimentos de recuperação do aplicativo para cada componente. Comece analisando a arquitetura do aplicativo. Dependendo do aplicativo, consulte o AWS Well-Architected Framework.
Defina o comportamento estável — Defina o comportamento estável do seu sistema em termos de métricas técnicas e comerciais importantes, como latência, carga da CPU, falhas de login por minuto, número de novas tentativas ou velocidade de carregamento da página.
Forme uma hipótese — Forme uma hipótese de como você espera que o comportamento do sistema mude durante o experimento. A definição de uma hipótese segue esse formato:

Se fault injection action for executado, o não business or technical metric impact deve excedervalue.

Por exemplo, uma hipótese para um serviço de autenticação pode ser a seguinte: “Se a latência da rede aumentar em 10%, haverá um aumento de menos de 1% nas falhas de login”. Depois que o experimento for concluído, você avalia se a resiliência do aplicativo está alinhada às suas expectativas comerciais e técnicas.

Também recomendamos seguir estas diretrizes ao trabalhar com o AWS FIS:

Sempre comece a experimentar o AWS FIS em um ambiente de teste. Nunca comece com um ambiente de produção. À medida que avança em seus experimentos de injeção de falhas, você pode experimentar em outros ambientes controlados além do ambiente de teste.
Aumente a confiança da sua equipe na resiliência do seu aplicativo começando com experimentos pequenos e simples, como executar a ação aws:ec2:stop-instances em um destino.
A injeção de falhas pode causar problemas reais. Prossiga com cuidado e certifique-se de que suas primeiras injeções de falha sejam em instâncias de teste para que nenhum cliente seja afetado.
Teste, teste e teste um pouco mais. A injeção de falhas deve ser implementada em um ambiente controlado com experimentos bem planejados. Isso permite que você ganhe confiança nas habilidades de seu aplicativo e suas ferramentas para resistir a condições turbulentas.
É altamente recomendável que você tenha um excelente programa de monitoramento e alerta antes de começar. Sem isso, você não conseguirá entender ou medir o impacto de seus experimentos, o que é fundamental para práticas sustentáveis de injeção de falhas.

Diretrizes para planejamento de experimentos

Com o AWS FIS, você executa experimentos em seus AWS recursos para testar sua teoria de como um aplicativo ou sistema funcionará em condições de falha.

A seguir estão as diretrizes recomendadas para planejar seus experimentos AWS FIS.

Revise o histórico de interrupções — Analise as interrupções e eventos anteriores do seu sistema. Isso pode ajudá-lo a criar uma imagem da integridade geral e da resiliência do seu sistema. Antes de começar a executar experimentos em seu sistema, você deve abordar problemas e fraquezas conhecidos em seu sistema.
Identifique os serviços com o maior impacto — Analise seus serviços e identifique aqueles que têm o maior impacto sobre seus usuários finais ou clientes se eles falharem ou não funcionarem corretamente.
Identifique o sistema de destino — O sistema de destino é o sistema no qual você executará experimentos. Se você AWS é novo no FIS ou nunca realizou experimentos de injeção de falhas antes, recomendamos que comece executando experimentos em um sistema de pré-produção ou teste.
Consulte sua equipe — Pergunte com o que eles estão preocupados. Você pode formar uma hipótese para provar ou refutar suas preocupações. Você também pode perguntar à sua equipe com o que eles não estão preocupados. Essa pergunta pode revelar duas falácias comuns: a falácia do custo irrecuperável e a falácia do viés de confirmação. Formar uma hipótese com base nas respostas da sua equipe pode ajudar a fornecer mais informações sobre a realidade do estado do seu sistema.
Revise a arquitetura do aplicativo — Conduza uma revisão do seu sistema ou aplicativo e certifique-se de ter identificado todos os componentes do aplicativo, dependências e procedimentos de recuperação para cada componente.

Recomendamos que você revise o AWS Well-Architected Framework. O framework pode ajudar você a construir uma infraestrutura segura, de alto desempenho, resiliente e eficiente para seus aplicativos e workloads. Para obter mais informações, consulte AWS Well-Architected.
Identifique as métricas aplicáveis — Você pode monitorar o impacto de um experimento em seus AWS recursos usando CloudWatch as métricas da Amazon. Você pode usar essas métricas para determinar a linha de base ou o “estado estável” quando seu aplicativo está funcionando de maneira ideal. Em seguida, você pode monitorar essas métricas durante ou após o experimento para determinar o impacto. Para obter mais informações, consulte Monitore AWS as métricas de uso do FIS usando a Amazon CloudWatch.
Defina um limite de desempenho aceitável para seu sistema — Identifique a métrica que representa um estado estável aceitável para seu sistema. Você usará essa métrica para criar um ou mais CloudWatch alarmes que representem uma condição de parada para seu experimento. Se o alarme for acionado, o experimento será interrompido automaticamente. Para obter mais informações, consulte Condições de parada para o AWS FIS.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

O que é o AWS FIS?

Componentes do modelo de experimento