WLM 쿼리 모니터링 규칙 - Amazon Redshift

WLM 쿼리 모니터링 규칙

Amazon Redshift 워크로드 관리(WLM)에서는 쿼리 모니터링 규칙에 따라 지표를 기준으로 WLM 대기열의 성능 경계를 정의한 후 쿼리가 이 경계를 벗어났을 때 필요한 작업을 지정합니다. 예를 들어 단시간 실행되는 쿼리 전용 대기열일 때는 60초 이상 실행되는 쿼리를 취소하는 규칙을 생성할 수도 있습니다. 그 밖에 잘못 설계된 쿼리를 추적할 목적으로 중첩 루프가 포함된 쿼리를 기록하는 규칙을 따로 만들 수도 있습니다.

쿼리 모니터링 규칙은 워크로드 관리(WLM) 구성 시 정의합니다. 대기열 1개에 최대 25개까지 규칙을 정의할 수 있으며 모든 대기열의 규칙 수도 25개로 제한됩니다. 각 규칙은 세 가지 조건, 즉 조건자와 한 가지 작업이 포함됩니다. 조건자는 지표와 비교 조건(=, <, >) 그리고 값으로 구성됩니다. 임의 규칙에서 모든 조건자가 충족되면 해당 규칙의 작업이 트리거됩니다. 가능한 규칙 작업으로는 아래에서도 설명하겠지만 log, hop 및 abort가 있습니다.

임의 대기열에 적용되는 규칙은 해당 대기열에서 실행되는 쿼리에만 적용됩니다. 규칙끼리는 서로 독립되어 있습니다.

WLM은 10초마다 지표를 평가합니다. 같은 기간 동안 둘 이상의 규칙이 트리거되면 WLM은 가장 심각한 작업(중단, 건너뛰기, 로그)을 시작합니다. 작업이 건너뛰기나 중단인 경우에는 작업을 기록한 후 쿼리가 대기열에서 제거됩니다. 기록 작업인 경우 쿼리가 대기열에서 계속 실행됩니다. WLM은 규칙에 따라 쿼리 1개마다 시작할 수 있는 기록 작업이 1개로 제한됩니다. 대기열에 다른 규칙이 포함되어 있으면 다른 규칙들도 계속해서 적용됩니다. 작업이 건너뛰기이고 쿼리가 다른 대기열로 라우팅된다면 새로운 대기열의 규칙이 적용됩니다. 쿼리 모니터링 및 특정 쿼리에 대해 수행된 작업 추적에 대한 자세한 내용은 단기 쿼리 가속화 작업의 샘플 컬렉션을 참조하세요.

규칙의 조건자가 모두 충족되면 WLM이 한 행을 STL_WLM_RULE_ACTION 시스템 테이블에 작성합니다. 또한 Amazon Redshift가 현재 실행 중인 쿼리의 지표를 STV_QUERY_METRICS에 기록합니다. 완료된 쿼리의 지표는 STL_QUERY_METRICS에 저장됩니다.

쿼리 모니터링 규칙 정의

쿼리 모니터링 규칙은 WLM 구성, 즉 클러스터의 파라미터 그룹을 정의할 때 함께 정의합니다.

AWS Management Console을 사용하거나 프로그래밍 방식으로 JSON을 사용하여 규칙을 생성할 수 있습니다.

참고

프로그래밍 방식으로 규칙을 생성하려면 콘솔을 사용하여 파라미터 그룹 정의에 추가할 JSON을 생성하는 것이 가장 좋습니다. 자세한 내용은 Amazon Redshift 관리 설명서콘솔을 사용하여 쿼리 모니터링 규칙 생성 또는 수정AWS CLI를 사용하여 파라미터 값 구성을 참조하세요.

쿼리 모니터링 규칙을 정의하려면 다음 요소를 지정합니다.

  • 규칙 이름 - 규칙 이름은 WLM 구성 내에서 고유해야 합니다. 최대 32자의 영숫자 또는 밑줄로 구성되며, 공백이나 인용 부호는 포함될 수 없습니다. 대기열 1개당 규칙 수는 최대 25개까지 가능하며 모든 대기열의 총 규칙 수도 25개로 제한됩니다.

  • 1개 이상의 조건자 - 규칙 1개당 최대 3개의 조건자를 가질 수 있습니다. 임의 규칙에서 모든 조건자가 충족되면 연결되어 있는 작업이 트리거됩니다. 조건자는 지표 이름과 연산자( =, <, >) 그리고 값으로 정의됩니다. 예를 들면, query_cpu_time > 100000입니다. 지표 목록과 지표에 따른 값의 예는 이번 단원에서 아래 프로비저닝된 Amazon Redshift에 대한 쿼리 모니터링 지표를 참조하십시오.

  • 작업 - 다수의 규칙이 트리거되면 WLM이 가장 심각한 작업이 연결되어 있는 규칙을 선택합니다. 가능한 작업은 심각도의 오름차순에 따라 다음과 같습니다.

    • 로그 - 쿼리에 대한 정보를 STL_WLM_RULE_ACTION 시스템 테이블에 기록합니다. 기록하기 작업은 로그 레코드만 작성하려고 할 때 사용합니다. WLM은 규칙에 따라 쿼리 1개마다 기록하기 작업이 1개로 제한되어 있습니다. 기록하기 작업을 마치면 다른 규칙이 적용되고 WLM이 계속해서 쿼리를 모니터링합니다.

    • 건너뛰기(수동 WLM에서만 사용할 수 있음) - 작업을 기록하고 쿼리를 건너뛰어 일치하는 그다음 대기열로 이동합니다. 일치하는 대기열이 더 이상 없으면 쿼리가 취소됩니다. QMR은 CREATE TABLE AS(CTAS) 문과 읽기 전용 쿼리(예: SELECT 문)만 건너뜁니다. 자세한 내용은 WLM 쿼리 대기열 건너뛰기 단원을 참조하십시오.

    • 중단 - 작업을 로그하고 쿼리를 취소합니다. QMR은 COPY 문과 유지 관리 작업(예: ANALYZE 및 VACUUM)을 중지하지 않습니다.

    • 우선 순위 변경(자동 WLM에서만 사용할 수 있음) - 쿼리의 우선 순위를 변경합니다.

쿼리 실행 시간을 제한하려면 WLM 제한 시간 대신 쿼리 모니터링 규칙을 생성하는 것이 좋습니다. 예를 들어 다음 JSON 코드 조각과 같이 max_execution_time을 50,000밀리초로 설정할 수 있습니다.

"max_execution_time": 50000

하지만 그 대신에 다음 JSON 코드 조각에서처럼 query_execution_time을 50초로 설정하는 동등한 쿼리 모니터링 규칙을 정의하는 것이 좋습니다.

"rules": [ { "rule_name": "rule_query_execution", "predicate": [ { "metric_name": "query_execution_time", "operator": ">", "value": 50 } ], "action": "abort" } ]

쿼리 모니터링 규칙을 생성하거나 수정하는 단계는 Amazon Redshift 관리 설명서콘솔을 사용하여 쿼리 모니터링 규칙 생성 또는 수정wlm_json_configuration 파라미터의 속성을 참조하세요.

쿼리 모니터링 규칙에 대한 자세한 내용은 다음 주제에서 찾아볼 수 있습니다.

프로비저닝된 Amazon Redshift에 대한 쿼리 모니터링 지표

다음 표는 쿼리 모니터링 규칙에서 사용하는 지표를 설명한 것입니다. 아래 지표는 STV_QUERY_METRICSSTL_QUERY_METRICS 시스템 테이블에 저장되는 지표와 다릅니다.

임의 지표의 성능 임계값은 쿼리 수준에서 또는 세그먼트 수준에서 추적됩니다. 세그먼트 및 단계에 대한 자세한 내용은 쿼리 계획 및 실행 워크플로우 섹션을 참조하세요.

참고

WLM 제한 시간 파라미터는 쿼리 모니터링 규칙과 다릅니다.

지표 명칭 설명
쿼리 CPU 시간 query_cpu_time 쿼리에 사용된 CPU 시간(초)입니다. CPU timeQuery execution time가 다릅니다.

유효한 값은 0~999,999입니다.

읽은 블록 query_blocks_read 쿼리가 읽은 1MB 데이터 블록의 수입니다.

유효한 값은 0~1,048,575입니다.

스캔하는 행의 수 scan_row_count

스캔 단계에 포함되는 행의 수입니다. 행 개수는 삭제 대기 행(고스트 행)을 필터링하고 사용자 정의 쿼리 필터를 적용하기 전에 내보낸 행의 총 수입니다.

유효한 값은 0~999,999,999,999,999입니다.

쿼리 실행 시간 query_execution_time 쿼리를 실행하고 경과된 시간(초)입니다. 실행 시간에는 대기열에서 대기하는 데 소모한 시간은 포함되지 않습니다.

유효한 값은 0~86,399입니다.

쿼리 대기열 시간 query_queue_time 대기열에서 기다리는 데 소요된 시간(초)입니다.

유효한 값은 0~86,399입니다.

CPU 사용량 query_cpu_usage_percent 쿼리에 사용된 CPU 용량의 비율입니다.

유효한 값은 0~6,399입니다.

디스크 메모리 query_temp_blocks_to_disk 중간 결과를 작성하는 데 사용되는 임시 디스크 공간(1MB 블록)입니다.

유효한 값은 0~319,815,679입니다.

CPU 스큐 cpu_skew 임의 조각의 최대 CPU 사용량과 모든 조각의 평균 CPU 사용량을 비교한 비율입니다. 이 지표는 세그먼트 수준에서 정의됩니다.

유효한 값은 0~99입니다.

I/O 스큐 io_skew 임의 조각에서 읽은 최대 블록 수(I/O)와 모든 조각에서 읽은 평균 블록 수를 비교한 비율입니다. 이 지표는 세그먼트 수준에서 정의됩니다.

유효한 값은 0~99입니다.

조인된 행 join_row_count 조인 단계에서 처리한 행의 수입니다.

유효한 값은 0~999,999,999,999,999입니다.

중첩 루프 조인 행의 수 nested_loop_join_row_count 중첩 루프 조인에 포함된 행의 수입니다.

유효한 값은 0~999,999,999,999,999입니다.

반환 행의 수 return_row_count 쿼리에서 반환되는 행의 수입니다.

유효한 값은 0~999,999,999,999,999입니다.

세그먼트 실행 시간 segment_execution_time 단일 세그먼트를 실행하고 경과된 시간(초)입니다. 샘플링 오류를 피하거나 줄이려면 규칙에 segment_execution_time > 10을 추가하십시오.

유효한 값은 0~86,388입니다.

Spectrum 스캔 행 개수(행 spectrum_scan_row_count Amazon Redshift Spectrum 쿼리에서 스캔한 Amazon S3의 데이터 행 수입니다.

유효한 값은 0~999,999,999,999,999입니다.

Spectrum 스캔 크기 spectrum_scan_size_mb Amazon Redshift Spectrum 쿼리에서 스캔한 Amazon S3의 데이터 크기(MB)입니다.

유효한 값은 0~999,999,999,999,999입니다.

쿼리 우선 순위 query_priority 쿼리의 우선순위입니다.

유효한 값은 HIGHEST, HIGH, NORMAL, LOWLOWEST입니다. 보다 큼(>) 및 보다 작음(<) 연산자를 사용해 query_priority를 비교하는 경우 HIGHESTHIGH보다 크고 HIGHNORMAL보다 큽니다.

참고
  • 건너뛰기 작업은 query_queue_time 조건자에서 지원되지 않습니다. 즉, query_queue_time 조건자가 충족될 때 건너뛰도록 정의된 규칙은 무시됩니다.

  • 세그먼트 실행 시간이 짧으면 io_skew, query_cpu_usage_percent 같은 일부 지표에서 샘플링 오류가 발생할 수 있습니다. 이러한 샘플링 오류를 피하거나 줄이려면 규칙에 세그먼트 실행 시간을 추가하십시오. 처음에는 segment_execution_time > 10으로 시작하는 것이 좋습니다.

SVL_QUERY_METRICS 뷰에는 완료된 쿼리의 지표가 표시됩니다. 그리고 SVL_QUERY_METRICS_SUMMARY 뷰에는 완료된 쿼리의 최대 지표 값이 표시됩니다. 쿼리 모니터링 규칙을 정의하기 위한 임계값을 결정할 때는 이 두 가지 뷰의 값들을 사용하십시오.

Amazon Redshift Serverless에 대한 쿼리 모니터링 지표

다음 테이블은 Amazon Redshift Serverless의 쿼리 모니터링 규칙에서 사용하는 지표를 설명한 것입니다.

지표 명칭 설명
쿼리 CPU 시간 max_query_cpu_time 쿼리에 사용된 CPU 시간(초)입니다. CPU timeQuery execution time가 다릅니다.

유효한 값은 0~999,999입니다.

읽은 블록 max_query_blocks_read 쿼리가 읽은 1MB 데이터 블록의 수입니다.

유효한 값은 0~1,048,575입니다.

스캔하는 행의 수 max_scan_row_count

스캔 단계에 포함되는 행의 수입니다. 행 개수는 삭제 대기 행(고스트 행)을 필터링하고 사용자 정의 쿼리 필터를 적용하기 전에 내보낸 행의 총 수입니다.

유효한 값은 0~999,999,999,999,999입니다.

쿼리 실행 시간 max_query_execution_time

쿼리를 실행하고 경과된 시간(초)입니다. 실행 시간에는 대기열에서 대기하는 데 소모한 시간은 포함되지 않습니다. 쿼리가 설정된 실행 시간을 초과하면 Amazon Redshift Serverless가 쿼리를 중단합니다.

유효한 값은 0~86,399입니다.

쿼리 대기열 시간 max_query_queue_time 대기열에서 기다리는 데 소요된 시간(초)입니다.

유효한 값은 0~86,399입니다.

CPU 사용량 max_query_cpu_usage_percent 쿼리에 사용된 CPU 용량의 비율입니다.

유효한 값은 0~6,399입니다.

디스크 메모리 max_query_temp_blocks_to_disk 중간 결과를 작성하는 데 사용되는 임시 디스크 공간(1MB 블록)입니다.

유효한 값은 0~319,815,679입니다.

조인된 행 max_join_row_count 조인 단계에서 처리한 행의 수입니다.

유효한 값은 0~999,999,999,999,999입니다.

중첩 루프 조인 행의 수 max_nested_loop_join_row_count 중첩 루프 조인에 포함된 행의 수입니다.

유효한 값은 0~999,999,999,999,999입니다.

참고
  • 건너뛰기 작업은 max_query_queue_time 조건자에서 지원되지 않습니다. 즉, max_query_queue_time 조건자가 충족될 때 건너뛰도록 정의된 규칙은 무시됩니다.

  • 세그먼트 실행 시간이 짧으면 max_io_skew, max_query_cpu_usage_percent 같은 일부 지표에서 샘플링 오류가 발생할 수 있습니다.

쿼리 모니터링 규칙 템플릿

Amazon Redshift 콘솔을 사용하여 규칙을 추가할 때 사전 정의된 템플릿에서 규칙을 생성하도록 선택할 수 있습니다. Amazon Redshift는 일련의 조건자로 새 규칙을 생성하고 조건자를 기본값으로 채웁니다. 이때 기본 작업은 기록하기입니다. 조건자와 작업은 사용 사례에 따라 수정할 수 있습니다.

다음 표는 사용할 수 있는 템플릿을 모아놓은 목록입니다.

템플릿 이름 Predicates 설명
중첩 루프 조인 nested_loop_join_row_count > 100 중첩 루프 조인은 조인 조건자가 불완전하여 종종 대용량 반환 집합(데카르트 곱)을 야기한다는 의미가 될 수도 있습니다. 이때는 행의 수를 낮춰서 잠재적 런어웨이 쿼리를 조기에 발견하십시오.
쿼리는 많은 수의 행을 반환함 return_row_count > 1000000 대기열을 단시간 실행되는 단순 쿼리에 지정할 경우에는 높은 행의 수를 반환하는 쿼리를 찾아내는 규칙도 추가할 수 있습니다. 이 템플릿에서 기본적으로 사용하는 행의 수는 100만 개입니다. 시스템에 따라 100만 개의 행이 높다고 생각할 수도 있지만 대용량 시스템에서는 행의 수가 10억 개 이상은 되어야 높다고 할 수 있습니다.
많은 수의 행을 통해 조인 join_row_count > 1000000000 조인 단계에서 행의 수가 비정상적으로 높아지는 경우에는 더욱 제한적인 필터의 필요성을 나타낼 수도 있습니다. 이 템플릿에서 기본적으로 사용하는 행의 수는 10억 개입니다. 빠르고 간단한 쿼리를 위한 임시(일회성) 대기열의 경우 더 낮은 숫자를 사용할 수 있습니다.
중간 결과를 작성할 때의 높은 디스크 사용량 query_temp_blocks_to_disk > 100000 현재 실행 중인 쿼리가 가능한 시스템 RAM보다 더 많은 메모리를 사용할 경우에는 쿼리 실행 엔진이 중간 결과를 디스크에 작성합니다(메모리 가득 참). 일반적으로 이러한 상황은 대부분 디스크 공간을 사용하는 악의적인 쿼리로 인해 발생합니다. 디스크 사용량의 허용 임계값은 클러스터 노드 유형과 노드 수에 따라 다릅니다. 이 템플릿에서 기본적으로 사용하는 블록의 수는 10만 개, 즉 100GB입니다. 클러스터가 작은 규모일수록 블록의 수를 낮추는 것이 좋습니다.
I/O 스큐(skew)가 높은 장기 실행 쿼리 segment_execution_time > 120io_skew > 1.30 노드 조각 1개가 나머지 전체 조각보다 I/O 속도가 훨씬 높을 때는 I/O 스큐가 발생합니다. 처음부터 스큐가 1.30(평균의 1.3배)이면 높다고 생각할 수 있습니다. I/O 스큐가 높다고 해서 항상 문제가 되는 것은 아니지만 동시에 쿼리 실행이 장시간 길어지면 분산 스타일이나 정렬 키에 문제가 있는 것일 수도 있습니다.

쿼리 모니터링 규칙에 대한 시스템 테이블 및 뷰

규칙의 조건자가 모두 충족되면 WLM이 한 행을 STL_WLM_RULE_ACTION 시스템 테이블에 작성합니다. 이 행에는 규칙을 트리거한 쿼리와 결과 작업에 대한 세부 정보가 포함되어 있습니다.

또한 Amazon Redshift는 쿼리 지표를 다음 시스템 테이블 및 뷰에 기록합니다.