Disponibilidade e muito mais: entendendo e melhorando a resiliência de sistemas distribuídos no AWS - Disponibilidade e muito mais: entendendo e melhorando a resiliência de sistemas distribuídos no AWS

Disponibilidade e muito mais: entendendo e melhorando a resiliência de sistemas distribuídos no AWS

Data de publicação: 12 de novembro de 2021 (Histórico do documentos)

Atualmente, as empresas operam sistemas distribuídos complexos na nuvem e no local. Eles querem que essas workloads sejam resilientes para atender seus clientes e alcançar seus resultados comerciais. Este paper descreve um entendimento comum da disponibilidade como medida de resiliência, estabelece regras para criar workloads altamente disponíveis e oferece orientação sobre como melhorar a disponibilidade da workload.

Introdução

O que significa criar uma workload altamente disponível? Como você mede a disponibilidade? O que posso fazer para aumentar a disponibilidade da minha workload? Este documento ajudará você a responder a esses tipos de perguntas. É dividido em três seções principais. A primeira seção, Entendendo a disponibilidade, é em grande parte teórica. Ele estabelece um entendimento comum da definição de disponibilidade e dos fatores que a impactam. A segunda seção, Medindo a disponibilidade, fornece orientação sobre como medir empiricamente a disponibilidade da sua workload. A terceira seção, Projetando sistemas distribuídos altamente disponíveis no AWS, é uma aplicação prática das ideias apresentadas na primeira seção. Além disso, ao longo dessas seções, este paper identificará regras para criar workloads resilientes. Este documento tem como objetivo apoiar a orientação e as melhores práticas apresentadas no AWS Well-Architected Reliability Pillar.

Ao longo deste paper, você encontrará muita matemática algébrica. As principais conclusões são os conceitos que essa matemática apoia, não a matemática em si. Dito isso, também é a intenção deste paper apresentar um desafio. Ao operar workloads altamente disponíveis, você precisa ser capaz de provar, matematicamente, que o que você construiu está alcançando o que você pretendia. Mesmo os melhores designs baseados em boas intenções podem não alcançar consistentemente o resultado desejado. Isso significa que você precisa de mecanismos que meçam a eficácia da solução e, portanto, algum nível de matemática é necessário para criar e operar sistemas distribuídos resilientes e altamente disponíveis.