Amazon CloudWatch 경보 사용 - Amazon CloudWatch

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon CloudWatch 경보 사용

둘 다 만들 수 있습니다.지표 경보복합 경보CloudWatch.

  • A지표 경보는 단일 CloudWatch 지표를 감시하거나 CloudWatch 지표를 기반으로 하는 수학 표현식의 결과를 감시합니다. 이러한 경보는 여러 기간에 대해 지정된 임계값과 지표 또는 표현식의 값 비교하여 하나 이상의 작업을 수행합니다. 이 작업은 Amazon SNS 주제에 알림을 보내거나, Amazon EC2 작업 또는 Auto Scaling 작업을 수행하거나, Systems Manager OpsItem 또는 인시던트를 생성하는 것일 수 있습니다.

  • 복합 경보에는 사용자가 생성한 다른 경보의 경보 상태를 고려하는 규칙 표현식이 포함됩니다. 복합 경보는 규칙의 모든 조건이 충족되는 경우에만 ALARM 상태로 전환됩니다. 복합 경보의 규칙 표현식에 지정된 경보에는 지표 경보 및 기타 복합 경보가 포함될 수 있습니다.

    복합 경보를 사용하면 경보 노이즈를 줄일 수 있습니다. 여러 지표 경보를 생성할 수 있으며, 복합 경보를 생성하고 복합 경보에 대해서만 경보를 설정할 수도 있습니다. 예를 들어 모든 기본 지표 경보가 ALARM 상태인 경우에만 복합 경보가 ALARM 상태로 전환되도록 할 수 있습니다.

    복합 경보는 상태가 변경될 때 Amazon SNS 알림을 보낼 수 있으며, ARM 상태가 되면 Systems Manager OpsItems 또는 인시던트를 생성할 수 있지만 EC2 작업이나 Auto Scaling 작업은 수행할 수 없습니다.

CloudWatch 대시보드에 경보를 추가해 시각화된 모니터링을 할 수 있습니다. 대시보드에서 경보가 발행되면 빨간색으로 ALARM 상태라고 표시가 되기 때문에 사전에 손쉽게 상태를 모니터링할 수 있습니다.

경보가 상태를 변경할 때만 작업을 호출합니다. 단, Auto Scaling 작업을 사용하는 경보는 예외입니다. Auto Scaling 작업의 경우 경보가 새로운 상태로 유지되는 분당 한 번씩 계속해서 작업을 호출합니다.

참고

CloudWatch 는 지정한 작업을 테스트 또는 검증하지 않으며 없는 작업을 호출하려는 시도로 인한 Amazon EC2 Auto Scaling 또는 Amazon SNS 오류를 감지하지 않습니다. 경보 작업이 존재하는지 확인하십시오.

지표 경보

지표 경보에는 다음과 같은 상태가 있을 수 있습니다.

  • OK— 지표 또는 표현식이 정의된 임계값 내에 있습니다.

  • ALARM— 지표 또는 표현식이 정의된 임계값을 벗어났습니다.

  • INSUFFICIENT_DATA- 경보가 방금 시작되었거나, 지표를 사용할 수 없거나, 지표를 통해 경보 상태를 결정하는 데 사용할 충분한 데이터가 없습니다.

경보 평가

경보를 생성할 때 CloudWatch 가 경보 상태를 변경할 때를 평가할 수 있도록 하려면 다음과 같은 세 가지 설정을 지정합니다.

  • 기간은 경보에 대해 개별 데이터 포인트를 생성하기 위해 지표 또는 표현식을 평가하는 기간입니다. 초로 표시됩니다. 기간으로 1분을 선택하면 경보가 분당 한 번씩 지표를 평가합니다.

  • 평가 기간는 경보 상태를 결정할 때 평가할 가장 최근의 기간 또는 데이터 포인트의 수입니다.

  • 경보에 대한 데이터 포인트은 평가 기간 동안 위반 데이터 포인트의 수로, 경보가ALARM상태. 위반 데이터 포인트가 연속적일 필요는 없습니다. Evaluation Period(평가 기간)와 동일한 마지막 데이터 포인트의 수 이내이면 됩니다.

다음 그림에서 지표 경보에 대한 경보 임계값은 3개 단위로 설정됩니다. 모두평가 기간경보에 대한 데이터 포인트3입니다. 즉, 가장 최근의 연속된 3번의 기간에서 모든 기존 데이터 포인트가 모두 임계값 이상일 때 경보가ALARM상태. 그림에서는 기간 3에서 6 사이에 이러한 일이 발생합니다. 기간 6에서는 값이 임계값 아래로 떨어져 평가 대상 기간 중 하나가 위반되지 않고 경보 상태가OK. 9번째 기간에 다시 한 번 임계값이 위반되지만, 오직 하나의 기간 동안에만 그렇습니다. 결과적으로 경보 상태는 OK로 남아 있습니다.


        경보 임계값이 경보 트리거

를 구성할 때평가 기간경보에 대한 데이터 포인트를 다른 값으로 사용하는 경우 “N 중 M” 경보를 설정합니다. 경보에 대한 데이터 포인트는 (“M”) 이고평가 기간는 (“N”) 입니다. 평가 간격은 데이터 포인트의 수에 기간을 곱한 값입니다. 예를 들어, 1분 기간으로 5개의 데이터 포인트 중 4개를 구성하는 경우 평가 간격은 5분입니다. 10분의 기간으로 3개의 데이터 포인트 중 3개를 구성하는 경우 평가 간격은 30분입니다.

참고

경보를 생성한 직후에 데이터 포인트가 누락되었으며 경보를 생성하기 전에 CloudWatch 에 지표가 보고된 경우, CloudWatch는 경보가 생성되기 전 가장 최근의 데이터 포인트를 검색해 경보를 평가합니다.

경보 작업

[OK], [ALARM] 및 [ISSUENT_DATA] 상태 간에 상태가 변경될 때 경보가 수행할 작업을 지정할 수 있습니다. 가장 일반적인 경보 작업 유형은 Amazon Simple Notification Service 주제에 메시지를 전송하여 한 명 이상의 사용자에게 알리는 것입니다. Amazon SNS 대한 자세한 내용은Amazon SNS 란 무엇입니까?.

EC2 지표 기반 경보로 EC2 인스턴스 중지, 종료, 재부팅 또는 복구와 같은 EC2 작업을 수행할 수도 있습니다. 자세한 내용은 생성a라름에s위쪽,t근절하다,reboot 또는rEC2를 ecoverinstance 단원을 참조하세요.

또한 Auto Scaling 그룹의 비율을 조정하는 작업을 수행할 수 있습니다. 자세한 내용은 단원을 참조하십시오.Amazon EC2 Auto Scaling에 사용되는 단계적이고 간단한 조정 정책.

Systems Manager 운영 센터에서 OpsItems 를 만들거나AWSSystems Manager 인시던트 관리자 이러한 작업은 경보가 ALARM 상태가 될 때만 수행됩니다. 자세한 내용은 단원을 참조하십시오.경보에서 OpsItems 을 생성하도록 CloudWatch 구성인시던트 생성.

CloudWatch 경보가 누락된 데이터를 처리하는 방법 구성

경우에 따라 지표에 대한 모든 예상 데이터 요소가 CloudWatch 에 보고되는 것은 아닙니다. 연결이 끊기거나 서버가 정지할 때, 설계에 따라 지표 보고 데이터가 간헐적으로만 전송될 때 이런 일이 일어날 수 있습니다.

CloudWatch 를 사용하면 경보를 평가할 때 누락된 데이터 포인트를 처리하는 방법을 지정할 수 있습니다. 이렇게 하면 알람을 구성하여ALARM상태 모니터링되는 데이터 유형에 적합한 경우에만 상태를 설정합니다. 누락된 데이터에 문제가 없는 경우의 거짓 긍정을 피할 수 있습니다.

각 경보가 항상 세 가지 상태 중 하나인 것과 마찬가지로 CloudWatch 에 보고된 각각의 특정 데이터 포인트는 세 가지 범주 중 하나에 속합니다.

  • 위반하지 않음(임계값에서)

  • 위반(임계값 위반)

  • 누락

각 경보에 대해 다음 중 하나로 누락된 데이터 요소를 처리하도록 CloudWatch 를 지정할 수 있습니다.

  • notBreaching— 누락 데이터 요소를 “양호”하고 임계값 내에 있는 것으로 처리합니다.

  • breaching— 누락 데이터 요소를 “불량”하고 임계값을 위반한 것으로 처리합니다.

  • ignore— 현재 경보 상태를 유지합니다.

  • missing— 경보 평가 범위의 모든 데이터 요소가 누락되면 경보가 INCOMPUENT_DATA로 전환됩니다.

최고의 옵션은 지표 유형에 따라 다릅니다. 인스턴스의 CPUUtilization과 같은 데이터를 지속적으로 보고하는 지표의 경우 어떤 문제가 발생했음을 나타내기 위해 누락된 데이터 포인트를 breaching으로 처리해야 할 수 있습니다. 그러나 오류가 발생할 때만 데이터 포인트를 생성하는 지표의 경우 (예:ThrottledRequests를 사용하는 경우 누락된 데이터를notBreaching. 기본값은 missing입니다.

경보에 대한 최상의 옵션을 선택하면 불필요하고 오해의 소지가 있는 경보 조건 변경을 막을 수 있으며, 시스템 상태를 보다 정확하게 나타낼 수 있습니다.

데이터가 누락되었을 때 경보 상태 평가 방법

경보가 상태 변경 여부를 평가할 때마다 CloudWatch (으) 로 지정된 수보다 더 큰 데이터 포인트 수를 검색하려 시도합니다.평가 기간. 검색을 시도하는 데이터 포인트의 정확한 수는 경보 기간의 길이, 표준 해상도 또는 고해상도 지표에 토대를 두고 있는지 여부에 따라 달라집니다. 검색을 시도하는 데이터 포인트의 기간이 평가 범위입니다.

CloudWatch 가 이런 데이터 포인트를 검색한 후에는 다음이 진행됩니다.

  • 평가 범위 동안 누락 데이터 포인트가 없는 경우 CloudWatch 는 가장 최근 수집한 데이터 포인트에 따라 경보를 평가합니다. 평가된 데이터 포인트의 수는평가 기간알람에 대 한. 평가 범위에서 더 멀리 떨어진 추가 데이터 요소는 필요하지 않으며 무시됩니다.

  • 평가 범위 동안 일부 데이터 포인트가 누락되었지만 평가 범위 동안 성공적으로 검색을 한 기존 데이터 포인트의 총 수가 경보평가 기간에서는 성공적으로 검색을 한 가장 최근의 실제 데이터 포인트에 따라 경보 상태를 평가합니다. 여기에는 평가 범위 동안 더 멀리 떨어진 데 필요한 추가 데이터 포인트가 포함됩니다. 이 경우 누락 데이터 처리 방법에 대한 값이 필요 없으며, 이를 무시합니다.

  • 평가 범위 동안 일부 데이터 포인트가 누락되었으며 검색한 실제 데이터 포인트의 수가 경보평가 기간에서는 사용자가 누락 데이터 처리 방법에 대해 지정한 값으로 누락 데이터 포인트를 채운 다음 경보를 평가합니다. 그러나 평가 범위의 모든 실제 데이터 요소가 평가에 포함됩니다. CloudWatch 는 누락된 데이터 요소를 가능한 한 적은 횟수만 사용합니다.

참고

이 동작은 특별한 경우 지표 흐름이 멈춘 후에도 CloudWatch 경보가 일정 시간 동안 마지막 데이터 포인트 세트를 계속해서 다시 평가할 수 있습니다. 이 재평가를 통해 지표 스트림 중지 직전에 상태가 변한 경우 경보가 상태를 변경하고 작업을 다시 실행할 수 있습니다. 이 동작을 완화하려면 더 짧은 기간을 사용하십시오.

다음은 경보 평가 동작에 대한 예를 설명한 테이블입니다. 첫 번째 테이블에서경보에 대한 데이터 포인트평가 기간모두 3입니다. 경보를 평가할 때 가장 최근의 데이터 포인트 3개 중 일부가 없는 경우 CloudWatch 는 경보에 대한 평가 범위 5를 검색해 경보의 평가 범위 5입니다.

평가 범위가 5이므로 1열에는 5개의 최신 데이터 점이 표시됩니다. 이러한 데이터 포인트는 오른쪽에 가장 최근의 데이터 포인트와 함께 표시됩니다. 0은 위반되지 않는 데이터 포인트, X는 위반 데이터 포인트, -는 누락 데이터 포인트를 나타냅니다.

2열은 필요한 데이터 요소 3개 중 누락된 개수를 표시합니다. 가장 최신 데이터 요소 5개가 평가되었더라도 경보 상태 평가를 위해 3개(Evaluation Periods(평가 기간)에 대한 설정)만 필요합니다. 2열의 데이터 요소 개수는 누락된 데이터 요소 처리 방법에 대한 설정을 사용하여 반드시 "채워야" 하는 데이터 요소의 수입니다.

열 3-6에서 열 머리글은 누락된 데이터를 처리하는 방법에 사용할 수 있는 값입니다. 이러한 열의 행에는 누락된 데이터를 처리할 수 있는 각 방법에 대해 설정된 경보 상태가 표시됩니다.

데이터 포인트 채워야 하는 데이터 요소 수 누락 IGNORE 위반 위반하지 않음

0 - X - X

0

OK

OK

OK

OK

- - - - 0

2

OK

OK

OK

OK

- - - - -

3

INSUFFICIENT_DATA

현재 상태 유지

ALARM

OK

0 X X - X

0

ALARM

ALARM

ALARM

ALARM

- - X - -

2

ALARM

Retain current state

ALARM

OK

앞 테이블의 2행에서는 누락 데이터를 위반으로 처리하는 경우에도 경보 상태는 OK로 유지됩니다. 기존 데이터 포인트 중 하나가 위반 상태가 아니며, 위반으로 처리되는 2개의 누락 데이터 포인트와 함께 이를 평가하기 때문입니다. 다음에 이 경보를 평가할 때 데이터가 여전히 누락된 경우 이 경보를 평가할 때ALARM비위반 데이터 포인트가 더 이상 평가 범위에 있지 않기 때문입니다.

가장 최근의 5개의 데이터 요소가 모두 누락된 세 번째 행은 누락된 데이터를 처리하는 방법에 대한 다양한 설정이 경보 상태에 미치는 영향을 보여 줍니다. 누락 된 데이터 요소가 위반으로 간주되는 경우 경보는 ALARM 상태로 전환되고 위반하지 않는 것으로 간주되는 경우 경보는 OK 상태로 전환됩니다. 누락된 데이터 요소가 무시되면 경보는 누락된 데이터 요소 이전의 현재 상태를 유지합니다. 누락 된 데이터 요소가 누락 된 것으로 간주되면 경보에는 평가를 수행 할 수있는 최근 실제 데이터가 충분하지 않고 INPRACUNT_DATA로 들어갑니다.

네 번째 행에서 알람은ALARM는 가장 최근의 데이터 요소 세 개가 위반되고 경보의평가 기간경보에 대한 데이터 포인트는 모두 3으로 설정됩니다. 이 경우 누락 데이터 포인트가 3개 있으므로 누락 데이터 포인트를 평가하는 방법에 대한 설정이 필요하지 않습니다.

5행은 경보 평가의 특별한 경우를 나타냅니다.조기 경보 상태. 자세한 내용은 경보 상태로의 조기 전환 방지 단원을 참조하세요.

다음 테이블의 경우 기간은 다시 5분이며, Datapoints to Alarm(경보에 대한 데이터 포인트)는 2, Evaluation Periods(평가 기간)는 3입니다. 'N 중 M' 경보는 '3 중 2'입니다.

평가 범위는 5입니다. 이것은 검색되는 최근 데이터 포인트의 최대 수이며 일부 데이터 포인트가 누락된 경우 사용할 수 있습니다.

데이터 포인트 누락 데이터 포인트 가운데 수(#) 누락 IGNORE 위반 위반하지 않음

0 - X - X

0

ALARM

ALARM

ALARM

ALARM

0 0 X 0 X

0

ALARM

ALARM

ALARM

ALARM

0 - X - -

1

OK

OK

ALARM

OK

- - - - 0

2

OK

OK

ALARM

OK

- - - - X

2

ALARM

현재 상태 유지

ALARM

OK

행 1과 2에서는 가장 최근의 데이터 요소 3개 중 2개가 위반되기 때문에 경보가 항상 ALARM 상태로 전환됩니다. 2행에서는 가장 최근의 데이터 요소 3개가 누락되지 않으므로 평가 범위에서 가장 오래된 두 데이터 요소가 필요하지 않으므로 이러한 두 개의 이전 데이터 요소는 무시됩니다.

3행과 4행에서는 누락된 데이터가 위반으로 처리되는 경우에만 경보가 ALARM 상태로 전환되며, 이 경우 가장 최근에 누락된 두 데이터 요소는 모두 위반으로 처리됩니다. 4행에서 위반으로 처리되는 이러한 두 누락 데이터 포인트는 ALARM 상태를 트리거하는 데 필요한 두 가지 위반 데이터 포인트를 제공합니다.

5행은 경보 평가의 특별한 경우를 나타냅니다.조기 경보 상태. 자세한 내용은 다음 단원을 참조하십시오.

경보 상태로의 조기 전환 방지

CloudWatch 경보 평가에는 데이터가 간헐적으로 발생할 때 경보가 조기에 ALARM 상태로 전환되는 거짓 경보를 피하기 위한 논리가 포함되어 있습니다. 이전 섹션의 표 5행에 표시된 예에서는 이 논리를 보여 줍니다. 이러한 행과 다음 예제에서평가 기간가 3이고 평가 범위는 5 개의 데이터 포인트입니다. 경보에 대한 데이터 포인트가 3입니다. 예를 들어 N 중 M을 제외하고경보에 대한 데이터 포인트2입니다.

경보의 가장 최근 데이터가- - - - X, 네 개의 누락된 데이터 요소가 있는 다음 위반 데이터 요소를 가장 최근의 데이터 포인트로 표시합니다. 다음 데이터 요소가 비위반일 수 있으므로 데이터가- - - - X또는- - - X -경보에 대한 데이터 포인트3입니다. 이 방법은 다음 데이터 포인트가 비 위반이고 데이터가- - - X O또는- - X - O.

그러나 마지막 몇 개의 데이터 요소가- - X - -로 설정하면 누락된 데이터 요소가 누락된 것으로 간주되더라도 경보가 ALARM 상태로 전환됩니다. 이는 평가 기간 동안 사용 가능한 가장 오래된 데이터 포인트 위반 데이터 포인트가 적어도경보에 대한 데이터 포인트및 기타 모든 최신 데이터 요소가 위반되거나 누락되었습니다. 이 경우 사용 가능한 총 데이터 포인트 수가 M보다 작더라도 경보가 ALARM 상태로 전환됩니다 (경보에 대한 데이터 포인트).

이 경보 논리는 N개 중 M 경보에도 적용됩니다. 동안 가장 오래된 위반 데이터 포인트평가 기간데이터 요소의 수는 적어도평가 기간이고 최신 데이터 요소가 모두 위반되거나 누락되면 경보가 M 값에 관계없이 ALARM 상태로 전환됩니다 (경보에 대한 데이터 포인트).

고분해능 경보

고분해능 지표에 대해 경보를 설정할 경우 고분해능 경보를 10초 또는 30초 기간으로 지정하거나 60초의 배수 기간으로 정기 경보를 설정할 수 있습니다. 고분해능 경보는 요금이 더 비쌉니다. 고분해능 지표에 대한 자세한 내용은 게시c우스톰metrics 단원을 참조하십시오.

수학 표현식에 대한 경보

하나 이상의 CloudWatch 지표를 기반으로 하는 수학 표현식의 결과에 대한 경보를 설정할 수 있습니다. 경보에 사용되는 수학 표현식에는 지표를 10개까지 포함할 수 있습니다. 각 지표의 기간은 동일해야 합니다.

수학 표현식을 기반으로 하는 경보의 경우 경보를 평가할 때 CloudWatch 가 기본 지표에 대해 누락된 데이터 포인트를 처리하는 방법을 지정할 수 있습니다.

수학 표현식을 기반으로 경보는 Amazon EC2 작업을 수행할 수 없습니다.

지표 수학 표현식 및 구문에 대한 자세한 내용은 사용m분류: 이메트릭math 단원을 참조하십시오.

백분율 기반 CloudWatch 경보 및 낮은 데이터 샘플

경보를 위한 통계로 백분위수를 설정하면 정확한 통계 평가를 위한 데이터가 충분하지 않을 때 어떻게 할 것인지 지정할 수 있습니다. 경보가 통계를 어떻게든 평가하도록 하고 가능하면 경보 상태를 변경하도록 선택할 수 있습니다. 또는 샘플 크기가 작을 때 경보가 지표를 무시하고 통계적으로 의미가 있을 정도로 충분한 데이터가 모일 때까지 기다렸다가 평가할 수 있습니다.

0.5(포함) ~ 1.00(제외) 범위 백분위수의 경우, 평가 기간 동안 10/(1-백분위수) 보다 적은 데이터 포인트가 있을 때 이 설정이 사용됩니다. 예를 들어 p99 백분위수에서 경보 샘플이 1,000개보다 적을 경우 이 설정이 사용됩니다. 0 ~ 0.5(제외) 범위 백분위수의 경우, 10/백분위수 보다 적은 백분위수가 있을 때 이 설정이 사용됩니다.

CloudWatch 경보의 일반적인 기능

다음 기능은 모든 CloudWatch 경보에 적용됩니다.

  • AWS 계정마다 리전당 최대 5,000개까지 경보를 만들 수 있습니다. 경보를 만들거나 업데이트하려면 CloudWatch 콘솔인PutMetricAlarmAPI 작업 또는put-metric-alarm명령입니다.AWS CLI.

  • 경보 이름은 ASCII 문자만 포함해야 합니다.

  • 현재 구성된 경보의 일부 또는 전체를 나열하고 CloudWatch 콘솔인DescribeAlarmsAPI 작업 또는경보 설명명령입니다.AWS CLI.

  • CloudWatch 콘솔 (경보) 를 사용하여 경보를 활성화하거나 비활성화할 수 있습니다.DisableAlarmActionsEnableAlarmActionsAPI 작업 또는경보 작업경보 작업명령입니다.AWS CLI.

  • 어떤 상태로든 설정하여 경보를 테스트할 수 있습니다.SetAlarmStateAPI 작업 또는경보 상태명령입니다.AWS CLI. 이러한 일시적인 상태 변경은 다음 경보 비교 시까지만 지속됩니다.

  • 사용자 지정 지표를 생성하기 전에 사용자 지정 지표에 대한 경보를 생성할 수 있습니다. 경보가 유효하려면 사용자 지정 지표에 대한 모든 차원을 비롯해 지표 네임스페이스 및 지표 이름을 경보 정의에 포함시켜야 합니다. 이렇게 하려면PutMetricAlarmAPI 작업 또는put-metric-alarm명령입니다.AWS CLI.

  • CloudWatch 콘솔 (경보 생성) 을 사용하여 경보의 기록을 확인할 수 있습니다.DescribeAlarmHistoryAPI 작업 또는경보를 묘사하기명령입니다.AWS CLI. CloudWatch 는 2주 동안 경보 기록을 보관합니다. 각 상태 전환은 고유한 타임스탬프로 표시됩니다. 드문 경우지만 기록에 상태 변경에 대한 알림이 두 개 이상 있을 수 있습니다. 이 경우 타임스탬프를 사용하여 고유한 상태 변경을 확인할 수 있습니다.

  • 경보에 대한 평가 기간의 수에 각 평가 기간의 길이를 곱한 값이 1일을 초과할 수 없습니다.

참고

약간AWS리소스에서는 특정한 상황에서 지표 데이터를 CloudWatch 에 전송하지 않습니다.

예를 들어 Amazon EBS는 Amazon EC2 인스턴스에 연결되지 않은 사용 가능한 볼륨에 대해 모니터링할 지표 활동이 없으므로 이러한 볼륨에 대한 지표 데이터를 전송할 수 없습니다. 이러한 지표에 대한 경보 세트가 있으면 상태가 INSUFFICIENT_DATA로 변경됩니다. 이는 리소스가 비활성 상태임을 나타내지만 그렇다고 반드시 문제가 있음을 의미하지는 않습니다. 각 경보가 누락된 데이터를 처리하는 방법을 지정할 수 있습니다. 자세한 내용은 CloudWatch 경보가 누락된 데이터를 처리하는 방법 구성 단원을 참조하세요.