Amazon Route 53가 장애 조치 문제를 방지하는 방법 - Amazon Route 53

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon Route 53가 장애 조치 문제를 방지하는 방법

Route 53가 실행하는 장애 조치 알고리즘은 트래픽을 정상적인 엔드포인트로 라우팅할 뿐만 아니라 상태 확인 및 애플리케이션의 구성 오류, 엔드포인트 오버로드, 분할 오류 등으로 인해 재난 시나리오가 악화되는 것을 방지하기 위해 설계되었습니다.

Amazon Route 53가 Cascading 오류를 방지하는 방법

Cascading 오류에 대한 1차 방어로, 각 요청 라우팅 알고리즘(가중치, 장애 조치 등)에는 최후의 수단 모드가 있습니다. 이 특수 모드에서 모든 레코드가 비정상 상태로 간주되는 경우 Route 53 알고리즘은 다시 모든 레코드를 정상 상태로 간주하기 시작합니다.

예를 들어 몇 개의 호스트 상에서 애플리케이션의 모든 인스턴스가 상태 확인 요청을 거부하면, Route 53 DNS 서버는 DNS 응답을 반환하지 않거나 NXDOMAIN(존재하지 않는 도메인) 응답을 반환하기보다는 어떻게든 하나의 응답을 선택하여 반환합니다. 애플리케이션은 사용자에게 응답할 수 있지만 여전히 상태 확인에 실패하므로, 이것은 구성 오류를 어느 정도 방지해 줍니다.

마찬가지로 애플리케이션이 오버로드되고 3개 중 1개의 엔드포인트가 상태 확인에 실패하여 Route 53 DNS 응답에서 제외되는 경우에 Route 53는 2개의 남은 엔드포인트 사이에 응답을 분산합니다. 남은 엔드포인트가 추가 로드를 다루지 못하여 실패하게 되면, Route 53는 요청을 다시 3개의 엔드포인트 전체로 분산하기 시작합니다.

Amazon Route 53가 인터넷 분할을 다루는 방식

비록 흔하지는 않지만 때때로 심각한 인터넷 분할이 발생하는데, 이는 더 큰 지리 지역이 다른 지리 지역과 인터넷상에서 통신할 수 없는 상태를 뜻합니다. 이러한 분할 동안 Route 53 위치는 엔드포인트의 상태에 대해 서로 다른 결론에 도달하여 CloudWatch에 보고되는 상태와 다를 수 있습니다. AWS 리전의 Route 53 상태 확인 프로그램은 지속적으로 모든 Route 53 위치로 상태 확인 상태를 전송합니다. 인터넷 분할이 일어나는 동안에 각 Route 53 위치는 보통 가장 가까운 리전에서 이러한 상태의 일부에만 액세스할 수 있습니다.

예를 들어 남아메리카를 오가는 연결에 영향을 미치는 인터넷 분할 동안 Route 53 남아메리카(상파울루) 위치의 Route 53 DNS 서버들은 남아메리카(상파울루) AWS 리전의 상태 확인 엔드포인트에는 접속이 양호할 수 있지만, 그 밖의 리전에 있는 엔드포인트에 대해서는 접속이 불량일 수 있습니다. 이와 동시에 미국 동부(오하이오)의 Route 53는 남아메리카(상파울루) 리전의 상태 확인 엔드포인트에 대해 접속이 불량하여 해당 레코드가 비정상이라는 결론을 내릴 수도 있습니다.

이와 같은 분할은 엔드포인트들의 국지적 가시성을 근거로 Route 53 위치가 엔드포인트들의 상태에 대해 서로 다른 결론을 내리는 상황을 야기할 수 있습니다. 이것이 바로 연결할 수 있는 상태 확인 프로그램 중 일부만이 엔드포인트를 정상이라고 여기면 각 Route 53 위치가 엔드포인트를 정상이라고 여기는 이유입니다.