Disponibilidade e muito mais: Compreendendo e melhorando a resiliência de sistemas distribuídos em AWS - Disponibilidade e muito mais: Compreendendo e melhorando a resiliência de sistemas distribuídos emAWS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Disponibilidade e muito mais: Compreendendo e melhorando a resiliência de sistemas distribuídos em AWS

Data de publicação: 12 de novembro de 2021 (Histórico do documentos)

Atualmente, as empresas operam sistemas complexos e distribuídos na nuvem e no local. Eles querem que essas cargas de trabalho sejam resilientes para atender seus clientes e alcançar seus resultados comerciais. Este documento descreve um entendimento comum da disponibilidade como medida de resiliência, estabelece regras para criar cargas de trabalho de alta disponibilidade e oferece orientação sobre como melhorar a disponibilidade da carga de trabalho.

Introdução

O que significa criar uma carga de trabalho altamente disponível? Como você mede a disponibilidade? O que posso fazer para aumentar a disponibilidade da minha carga de trabalho? Este documento ajudará você a responder a esses tipos de perguntas. É dividido em três seções principais. A primeira seção, Entendendo a disponibilidade, é amplamente teórica. Ele estabelece um entendimento comum da definição de disponibilidade e dos fatores que a afetam. A segunda seção, Medindo a disponibilidade, fornece orientação sobre como medir empiricamente a disponibilidade de sua carga de trabalho. A terceira seção, Projetando sistemas distribuídos de alta disponibilidade, AWS é uma aplicação prática das ideias apresentadas na primeira seção. Além disso, em todas essas seções, este documento identificará regras para criar cargas de trabalho resilientes. Este documento tem como objetivo apoiar a orientação e as melhores práticas apresentadas no Pilar de Confiabilidade AWS Bem Arquitetado.

Ao longo deste artigo, você encontrará muita matemática algébrica. As principais conclusões são os conceitos que essa matemática suporta, não a matemática em si. Dito isso, também é intenção deste artigo apresentar um desafio. Ao operar cargas de trabalho de alta disponibilidade, você precisa ser capaz de provar, matematicamente, que o que você construiu está alcançando o que você pretendia. Mesmo os melhores projetos baseados em boas intenções podem não alcançar consistentemente o resultado desejado. Isso significa que você precisa de mecanismos que meçam a eficácia da solução e, portanto, é necessário algum nível de matemática para criar e operar sistemas distribuídos resilientes e altamente disponíveis.