이상 탐지 구성 및 인사이트 생성 - AWS Glue

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

이상 탐지 구성 및 인사이트 생성

AWS Glue Data Quality(DQ)는 사용자가 작성한 데이터 품질 규칙에 따라 데이터를 평가하고 시간 경과에 따른 데이터에 대한 인사이트와 관찰 결과를 제공하여 즉각적인 조치를 취할 수 있도록 합니다. DQ는 데이터를 스캔한 다음 행 수, 최댓값 또는 최솟값과 같은 통계 지표를 계산한 다음 임곗값 표현식과 비교합니다.

Data Quality 이상 탐지의 몇 가지 이점은 다음과 같습니다.

  • 데이터의 지속적인 자동 스캔

  • 의도하지 않은 이벤트 또는 통계적 이상을 나타낼 수 있는 이상 탐지

  • Data Quality 이상 탐지로 발견된 관찰에 대한 조치를 취하기 위한 규칙 권장 사항 제공

이는 다음과 같은 경우에 유용합니다.

  • 데이터 품질을 기록할 필요 없이 데이터의 이상을 자동으로 탐지하려는 경우

  • 데이터를 프로파일링하고 데이터의 시각적 표현을 확인하려는 경우

  • 시간이 지남에 따라 데이터가 어떻게 변화하는지 추적하고 싶은 경우

내 데이터에 대해 어떤 관찰 결과를 볼 수 있나요?

DQ는 수집된 데이터 통계에서 이상치, 데이터 형식의 변경, 데이터 드리프트, 스키마 변경을 식별합니다. DQ는 관찰 결과를 바탕으로 사용자가 쉽게 운영할 수 있는 데이터 품질 규칙을 추천합니다. 통계에는 완전성, 고유성, 평균, 합계 StandardDeviation, 엔트로피 등이 포함됩니다. DistinctValuesCount UniqueValueRatio

AWS Glue Studio에서 이상 탐지 활성화

이상 탐지를 활성화하려면 AWS Glue Studio 작업을 열고 ‘이상 탐지 활성화’를 켜면 됩니다. 이 기능을 켜면 시간 경과에 따른 데이터를 분석하고 데이터에 대한 데이터 통계와 조치를 취할 수 있는 관찰 결과를 제공하여 데이터에 대한 변칙 검색을 할 수 있습니다.

AWS Glue Studio에서 이상 탐지를 활성화하려면 다음을 수행합니다.
  1. 작업에서 Data Quality 노드를 선택한 다음 이상 탐지 탭을 선택합니다. ‘이상 탐지 활성화’를 설정합니다.

    ‘이상 탐지 활성화’가 켜져 있는 모습을 보여주는 스크린샷.
  2. 분석기 추가를 선택하여 이상을 모니터링할 데이터를 정의합니다. 입력할 수 있는 두 가지 필드는 통계와 데이터입니다.

    통계는 데이터의 형태 및 기타 속성에 대한 정보입니다. 한 번에 하나 이상의 통계를 선택하거나 모든 통계를 선택할 수 있습니다. 통계에는 완전성, 고유성, 평균, 합계, 엔트로피 등이 포함됩니다. StandardDeviation DistinctValuesCount UniqueValueRatio

    데이터는 데이터 세트의 열입니다. 모든 열 또는 개별 열을 선택할 수 있습니다.

    통계 및 데이터 필드를 보여주는 스크린샷. 데이터 세트에 적용할 통계와 열을 선택할 수 있습니다.
  3. 이상 탐지 범위 추가를 선택하여 변경 사항을 저장합니다. 분석기를 생성하면 이상 탐지 범위 섹션에서 해당 분석기를 확인할 수 있습니다.

    작업 메뉴를 사용하여 분석기를 편집하거나 규칙 세트 편집기 탭을 선택하고 규칙 세트 편집기 메모장에서 직접 분석기를 편집할 수도 있습니다. 생성한 규칙 바로 아래에 저장한 분석기가 표시됩니다.

    Rules = [ ] Analyzers = [ Completeness “id” ]

    Data Quality는 분석기와 함께 업데이트된 규칙 세트를 통해 들어오는 데이터를 지속적으로 모니터링하고, 설정에 따라 경고 또는 작업 중지를 통해 이상을 알립니다.

참고

관찰 결과는 데이터 세트에서 데이터 통계당 최소 3개 이상의 값이 관찰될 때 생성됩니다. 관찰 결과가 보이지 않으면 Data Quality에서 관찰 결과를 생성할 데이터가 충분하지 않은 것입니다. 여러 번의 작업 실행 후 Data Quality는 데이터에 대한 인사이트를 제공할 수 있으며 관찰 결과 섹션에 표시됩니다.

분석기는 데이터에서 이상을 탐지하여 관찰을 생성하고 점진적으로 규칙을 구축할 수 있는 권장 사항을 제공합니다. Data Quality 탭을 선택하여 관찰 결과를 볼 수 있습니다. 관찰 결과는 각 작업 실행에 따라 다릅니다. 관찰 결과 섹션 상단에서 특정 Data Quality 노드와 실행 중인 작업을 볼 수 있습니다. 새 노드 또는 작업 실행을 선택하면 해당 노드 및 작업과 관련된 관찰 결과를 볼 수 있습니다.

작업에 대한 Data Quality 탭과 해당 작업 실행에 대해 표시되는 관찰 결과를 보여주는 스크린샷.

관찰 - 각 인사이트는 사용자가 지정한 규칙 세트와 분석기로 구성된 특정 작업 실행을 기반으로 합니다.

관련 지표 - 관찰 결과가 생성되면 관련 지표 열에 규칙, 실제 및 예상 값, 하한값과 상한값이 표시됩니다.

규칙 권장 사항 - AWS Glue 그런 다음 이 문제를 해결하기 위한 규칙도 권장합니다. 권장되는 각 규칙은 복사 아이콘을 클릭하여 복사할 수 있습니다. 각 규칙 옆의 복사 아이콘을 클릭한 다음 복사된 규칙 적용을 클릭하여 모든 권장 규칙을 복사할 수 있습니다.

모니터링된 데이터 - 모니터링된 데이터 열에는 모니터링되고 관찰을 트리거한 열 또는 행이 표시됩니다.

관찰 결과가 생성되고 권장 규칙이 제공되면 해당 규칙을 Data Quality 노드에 적용할 수 있습니다. 방법:

  1. 각 규칙 권장 사항 옆에 있는 복사 아이콘을 클릭합니다. 이렇게 하면 나중에 검색할 수 있도록 메모장에 규칙 권장 사항이 추가됩니다.

  2. 규칙 권장 사항 적용을 클릭합니다. 그러면 이전에 복사한 규칙을 볼 수 있는 메모장이 열립니다.

  3. 규칙 복사를 선택합니다.

  4. 규칙 세트 편집기에 적용을 선택합니다. 그러면 복사한 규칙을 붙여넣을 수 있는 규칙 세트 편집기가 열립니다.

  5. 복사한 규칙을 규칙 세트 편집기에 붙여넣습니다.