이상 및 패턴의 심각도 및 우선순위 이상 가시성 시간 이상 항목 억제 자주 묻는 질문(FAQ)

로그 이상 탐지

각 로그 그룹마다 로그 이상 탐지기를 생성할 수 있습니다. 이상 탐지기는 로그 그룹에 수집된 로그 이벤트를 스캔하여 로그 데이터에서 이상을 찾습니다. 이상 탐지는 기계 학습 및 패턴 인식을 사용하여 일반적인 로그 콘텐츠의 기준을 설정합니다.

로그 그룹 이상 탐지기를 생성하면 이상 탐지기는 로그 그룹의 지난 2주 동안의 로그 이벤트를 사용하여 훈련됩니다. 훈련 기간은 최대 15분이 소요될 수 있습니다. 훈련이 완료되면 들어오는 로그를 분석하여 이상을 식별하기 시작하고, 검사할 수 있도록 CloudWatch Logs 콘솔에 이상이 표시됩니다.

CloudWatch Logs 패턴 인식은 로그에서 정적 및 동적 콘텐츠를 식별하여 로그 패턴을 추출합니다. 많은 수의 로그 이벤트를 몇 가지 패턴으로 압축할 수 있기 때문에 패턴은 큰 로그 세트를 분석하는 데 유용합니다.

예를 들어 다음 세 가지 로그 이벤트 샘플을 참조하세요.


2023-01-01 19:00:01 [INFO] Calling DynamoDB to store for ResourceID: 12342342k124-12345
2023-01-01 19:00:02 [INFO] Calling DynamoDB to store for ResourceID: 324892398123-1234R
2023-01-01 19:00:03 [INFO] Calling DynamoDB to store for ResourceID: 3ff231242342-12345

이전 샘플에서 세 로그 이벤트는 모두 한 가지 패턴을 따릅니다.


<Date-1> <Time-2> [INFO] Calling DynamoDB to store for resource id <ResourceID-3>

패턴 내의 필드를 토큰이라고 합니다. 요청 ID나 타임스탬프 같이 패턴 내에서 달라지는 필드를 동적 토큰이라고 합니다. 동적 토큰에 대해 발견된 각 값을 토큰 값이라고 합니다.

CloudWatch Logs는 동적 토큰이 나타내는 데이터 유형을 추론할 수 있는 경우 토큰을 <string-number>으로 표시합니다. string은 토큰이 나타내는 데이터 유형에 대한 설명입니다. number는 다른 동적 토큰과 비교하여 패턴에서 이 토큰이 나타나는 위치를 보여줍니다.

CloudWatch Logs는 문자열을 포함하는 로그 이벤트의 콘텐츠 분석을 기반으로 이름의 문자열 부분을 할당합니다.

CloudWatch Logs는 동적 토큰이 나타내는 데이터 유형을 추론할 수 없는 경우 토큰을 <Token-number>로 표시하며, number는 패턴에서 이 토큰이 나타나는 위치를 다른 동적 토큰과 비교하여 나타냅니다.

동적 토큰의 일반적인 예로는 오류 코드, IP 주소, 타임스탬프, 요청 ID가 있습니다.

로그 이상 탐지는 이러한 패턴을 사용하여 이상을 찾습니다. 이상 탐지기 모델 훈련 기간이 지나면 알려진 추세와 비교하여 로그가 평가됩니다. 이상 탐지기는 상당한 변동을 이상으로 플래그 지정합니다.

이 장에서는 이상 탐지를 활성화하고, 이상을 보고, 로그 이상 탐지기를 위한 경보를 생성하고, 로그 이상 탐지기가 게시하는 지표를 생성하는 방법을 설명합니다. 또한 이상 탐지기와 그 결과를 암호화하는 방법도 설명합니다 AWS Key Management Service.

로그 이상 탐지기 생성에는 요금이 발생하지 않습니다.

이상 및 패턴의 심각도 및 우선순위

로그 이상 탐지기가 발견한 각 이상에는 우선순위가 할당됩니다. 발견된 각 패턴에는 심각도가 할당됩니다.

우선순위는 자동으로 계산되며, 패턴의 심각도 수준 및 예상 값과의 편차 양을 기반으로 합니다. 예를 들어 특정 토큰 값이 갑자기 500% 증가하는 경우, 심각도가 NONE이더라도 해당 이상을 HIGH 우선순위로 지정할 수 있습니다.
심각도는 FATAL, ERROR, WARN 등 패턴에서 발견된 키워드만을 기반으로 합니다. 이러한 키워드를 찾을 수 없는 경우 패턴의 심각도는 NONE으로 표시됩니다.

이상 가시성 시간

이상 탐지기를 생성할 때 이상 탐지기의 최대 가시성 기간을 지정합니다. 이 기간은 콘솔에 이상이 표시되고 ListAnomalies API 작업에 의해 이상이 반환되는 일수입니다. 이 기간이 경과한 후에도 계속 발생하는 이상은 자동으로 일반 동작으로 수락되고 이상 탐지기 모델은 이를 이상 현상으로 더 이상 플래그 지정하지 않습니다.

이상 탐지기를 생성할 때 가시성 시간을 조정하지 않으면 21일이 기본값으로 사용됩니다.

이상 항목 억제

이상이 발견된 후 일시적으로 또는 영구적으로 이를 억제하도록 선택할 수 있습니다. 이상 항목 억제를 선택하면 이상 탐지기는 지정한 시간 동안 이를 이상으로 플래그 지정하지 않습니다. 이상을 억제할 때 해당 특정 이상만 억제하거나 이상이 발견된 패턴과 관련된 모든 이상을 억제하도록 선택할 수 있습니다.

콘솔에서는 여전히 억제된 이상을 볼 수 있습니다. 이상 억제를 중지하도록 선택할 수도 있습니다.

자주 묻는 질문(FAQ)

내 데이터를 AWS 사용하여 AWS 사용 또는 다른 고객을 위한 기계 학습 알고리즘을 훈련하나요?

아니요. 훈련에서 생성된 이상 탐지 모델은 로그 그룹의 로그 이벤트를 기반으로 하며 해당 로그 그룹 및 해당 AWS 계정 내에서만 사용됩니다.

이상 탐지에 적합한 로그 이벤트 유형은 무엇인가요?

로그 이상 탐지가 적합한 로그 이벤트 유형은 애플리케이션 로그 및 대부분의 로그 항목이 일반적인 패턴에 맞는 기타 유형의 로그입니다. 로그 수준 또는 INFO, ERROR, DEBUG 같은 심각도 키워드가 포함된 이벤트가 있는 로그 그룹은 로그 이상 탐지에 특히 적합합니다.

로그 이상 탐지가 적합하지 않은 로그 이벤트는 CloudTrail Logs 같이 JSON 구조가 매우 긴 로그 이벤트입니다. 패턴 분석은 로그 줄의 처음 1,500자까지만 분석하므로 해당 한도를 넘는 모든 문자는 건너뜁니다.

VPC 흐름 로그 같은 감사 또는 액세스 로그도 이상 탐지 성공률이 떨어집니다. 이상 탐지는 애플리케이션 문제를 찾기 위한 것이므로 네트워크 또는 액세스 이상에는 적합하지 않을 수 있습니다.

CloudWatch Logs 패턴 분석을 사용하여 그룹의 로그 이벤트에서 패턴 수를 찾으면 이상 탐지기가 특정 로그 그룹에 적합한지 여부를 결정하는 데 도움이 됩니다. 패턴 수가 약 300개 이하인 경우 이상 탐지가 잘 작동할 수 있습니다. 패턴 분석에 대한 자세한 내용은 패턴 분석 섹션을 참조하세요.

무엇이 이상으로 플래그 지정되나요?

다음과 같은 경우 로그 이벤트가 이상으로 플래그 지정될 수 있습니다.

로그 그룹에서 이전에 보이지 않던 패턴이 있는 로그 이벤트.
알려진 패턴의 상당한 변형.
일반적 값의 이산 집합이 있는 동적 토큰의 새 값.
동적 토큰의 특정 값 발생 횟수의 큰 변화.

위의 모든 항목이 이상으로 플래그 지정될 수 있지만, 모두 다 애플리케이션이 제대로 작동하지 않는다는 의미는 아닙니다. 예를 들어 평소보다 많은 수의 200 성공 값은 이상으로 플래그가 지정될 수 있습니다. 이와 같은 경우 문제를 나타내지 않는 이러한 이상을 억제하는 것이 좋습니다.

마스킹되는 민감한 데이터는 어떻게 되나요?

로그 이벤트에서 민감한 데이터로 마스킹된 부분은 이상을 스캔하지 않습니다. 자세한 내용은 Help protect sensitive log data with masking을 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

CloudWatch Logs Insights 쿼리 결과에서 자연어 요약 생성

로그 그룹에서 이상 탐지 활성화