Visão geral da estrutura de trabalho do

A estrutura de análise de resiliência foi desenvolvida identificando as propriedades de resiliência desejadas de uma carga de trabalho. As propriedades desejadas são as coisas que você deseja que sejam verdadeiras sobre o sistema. A resiliência é normalmente medida pela disponibilidade, portanto, cinco propriedades são as características de um sistema distribuído altamente disponível: redundância, capacidade suficiente, saída oportuna, saída correta e isolamento de falhas. Essas propriedades são mostradas no diagrama a seguir.

Relações das propriedades de resiliência desejadas

Redundância — A tolerância a falhas é obtida por meio de redundância que elimina pontos únicos de falha (). SPOFs A redundância pode abranger desde componentes sobressalentes em sua carga de trabalho até réplicas completas de toda a pilha de aplicativos. Ao considerar a redundância para seus aplicativos, é importante levar em consideração o nível de redundância fornecido pela infraestrutura, pelos armazenamentos de dados e pelas dependências que você usa. Por exemplo, o Amazon DynamoDB e o Amazon Simple Storage Service (Amazon S3) fornecem redundância replicando dados em várias zonas de disponibilidade em uma AWS Lambda região e executam suas funções em vários nós de trabalho em várias zonas de disponibilidade. Para cada serviço que você usa, leve em consideração o que é fornecido pelo serviço e o que você precisa projetar.
Capacidade suficiente — Sua carga de trabalho requer recursos suficientes para funcionar conforme o esperado. Os recursos incluem memória, ciclos de CPU, threads, armazenamento, taxa de transferência, cotas de serviço e muitos outros.
Resultado oportuno — Quando os clientes usam sua carga de trabalho, eles esperam que ela desempenhe a função pretendida dentro de um período de tempo razoável. A menos que o serviço forneça um acordo de nível de serviço (SLA) para latência, sua expectativa geralmente se baseia em evidências empíricas, ou seja, em sua própria experiência. Essa experiência média do cliente geralmente é considerada a latência média (P50) em seu sistema. Se sua carga de trabalho demorar mais do que o esperado, essa latência pode afetar a experiência de seus clientes.
Saída correta — A saída correta do software da sua carga de trabalho é necessária para que ela forneça a funcionalidade pretendida. Um resultado incorreto ou incompleto pode ser pior do que nenhuma resposta.
Isolamento de falhas — O isolamento de falhas restringe o escopo do impacto a um contêiner de falhas pretendido quando ocorre uma falha. Ele garante que componentes específicos de sua carga de trabalho falhem juntos, evitando que uma falha se espalhe em cascata para outros componentes não intencionais. Também ajuda a limitar o escopo do impacto da sua carga de trabalho para os clientes. O isolamento de falhas é um pouco diferente das quatro propriedades anteriores, porque aceita que uma falha já ocorreu, mas deve ser contida. Você pode criar isolamento de falhas em sua infraestrutura, dependências e funções de software.

Quando uma propriedade desejada é violada, isso pode fazer com que uma carga de trabalho fique, ou seja, percebida como indisponível. Com base nessas propriedades de resiliência desejadas e em nossa experiência de trabalho com muitos AWS clientes, identificamos cinco categorias comuns de falha: pontos únicos de falha, carga excessiva, latência excessiva, configurações incorretas e bugs e destino compartilhado, que abreviamos como SEEMS. Eles fornecem um método consistente para categorizar os modos de falha em potencial e são descritos na tabela a seguir.

Categoria de falha	Viola	Definição
Pontos únicos de falha (SPOFs)	Redundância	Uma falha em um único componente interrompe o sistema devido à falta de redundância do componente.
Carga excessiva	Capacidade suficiente	O consumo excessivo de um recurso por meio de demanda ou tráfego excessivo impede que o recurso desempenhe sua função esperada. Isso pode incluir o alcance de limites e cotas, o que causa limitação e rejeição de solicitações.
Latência excessiva	Saída oportuna	A latência do processamento do sistema ou do tráfego de rede excede o tempo esperado, os objetivos de nível de serviço (SLOs) ou os contratos de nível de serviço (). SLAs
Configuração incorreta e bugs	Saída correta	Erros de software ou configuração incorreta do sistema levam a uma saída incorreta.
Destino compartilhado	Isolamento de falhas	Uma falha causada por qualquer uma das categorias de falha anteriores ultrapassa os limites de isolamento de falhas pretendidos e se espalha em cascata para outras partes do sistema ou para outros clientes.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Introdução

Entendendo a carga de trabalho