Visão geral da estrutura de trabalho do - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Visão geral da estrutura de trabalho do

A estrutura de análise de resiliência foi desenvolvida identificando as propriedades de resiliência desejadas de uma carga de trabalho. As propriedades desejadas são as coisas que você deseja que sejam verdadeiras sobre o sistema. A resiliência é normalmente medida pela disponibilidade, portanto, cinco propriedades são as características de um sistema distribuído altamente disponível: redundância, capacidade suficiente, saída oportuna, saída correta e isolamento de falhas. Essas propriedades são mostradas no diagrama a seguir.

Relações das propriedades de resiliência desejadas
  • Redundância— A tolerância a falhas é obtida por meio de redundância que elimina pontos únicos de falha (SPOFs). A redundância pode abranger desde componentes sobressalentes em sua carga de trabalho até réplicas completas de toda a pilha de aplicativos. Ao considerar a redundância para seus aplicativos, é importante levar em consideração o nível de redundância fornecido pela infraestrutura, pelos armazenamentos de dados e pelas dependências que você usa. Por exemplo, o Amazon DynamoDB e o Amazon Simple Storage Service (Amazon S3) fornecem redundância ao replicar dados em várias zonas de disponibilidade em uma região, eAWS Lambdaexecuta suas funções em vários nós de trabalho em várias zonas de disponibilidade. Para cada serviço que você usa, leve em consideração o que é fornecido pelo serviço e o que você precisa projetar.

  • Capacidade suficiente— Sua carga de trabalho requer recursos suficientes para funcionar conforme o esperado. Os recursos incluem memória, ciclos de CPU, threads, armazenamento, taxa de transferência, cotas de serviço e muitos outros.

  • Saída oportuna— Quando os clientes usam sua carga de trabalho, eles esperam que ela desempenhe a função pretendida dentro de um período de tempo razoável. A menos que o serviço forneça um acordo de nível de serviço (SLA) para latência, sua expectativa geralmente se baseia em evidências empíricas, ou seja, em sua própria experiência. Issoexperiência média do clientegeralmente é considerada a latência média (P50) em seu sistema. Se sua carga de trabalho demorar mais do que o esperado, essa latência pode afetar a experiência de seus clientes.

  • Saída correta— A saída correta do software da sua carga de trabalho é necessária para que ele forneça a funcionalidade pretendida. Um resultado incorreto ou incompleto pode ser pior do que nenhuma resposta.

  • Isolamento de falhas— O isolamento de falhas restringe o escopo do impacto a um contêiner de falhas pretendido quando ocorre uma falha. Ele garante que componentes específicos de sua carga de trabalho falhem juntos, evitando que uma falha se espalhe em cascata para outros componentes não intencionais. Também ajuda a limitar o escopo do impacto da sua carga de trabalho para os clientes. O isolamento de falhas é um pouco diferente das quatro propriedades anteriores, porque aceita que uma falha já ocorreu, mas deve ser contida. Você pode criar isolamento de falhas em sua infraestrutura, dependências e funções de software.

Quando uma propriedade desejada é violada, isso pode fazer com que uma carga de trabalho fique, ou seja, percebida como indisponível. Com base nessas propriedades de resiliência desejadas e em nossa experiência trabalhando com muitosAWSclientes, identificamos cinco categorias comuns de falha: pontos únicos de falha, carga excessiva, latência excessiva, configurações incorretas e bugs e destino compartilhado, que abreviamos como SEEMS. Eles fornecem um método consistente para categorizar os modos de falha em potencial e são descritos na tabela a seguir.

Categoria de falha

Viola

Definição

Pontos únicos de falha (SPOFs)

Redundância

Uma falha em um único componente interrompe o sistema devido à falta de redundância do componente.

Carga excessiva

Capacidade suficiente

O consumo excessivo de um recurso por meio de demanda ou tráfego excessivo impede que o recurso desempenhe a função esperada. Isso pode incluir atingir limites e cotas, o que causa limitação e rejeição de solicitações.

Latência excessiva

Saída oportuna

A latência do processamento do sistema ou do tráfego de rede excede o tempo esperado, os objetivos de nível de serviço (SLOs) ou os contratos de nível de serviço (SLAs).

Configuração incorreta e bugs

Saída correta

Erros de software ou configuração incorreta do sistema levam a uma saída incorreta.

Destino compartilhado

Isolamento de falhas

Uma falha causada por qualquer uma das categorias de falhas anteriores ultrapassa os limites de isolamento de falhas pretendidos e atinge outras partes do sistema ou outros clientes.