AWS Glue 데이터 품질(미리 보기)
AWS Glue 데이터 품질은 AWS Glue의 공개 미리 보기 릴리스이므로 변경될 수 있습니다. 이 미리 보기 기능은 일부 리전의 계정에서 이미 활성화되어 있습니다.
|
오픈 소스 DeeQu 프레임워크를 기반으로 구축된 AWS Glue Data Quality는 데이터 품질을 평가하고 모니터링하는 데 도움이 되는 관리형 서버리스 환경을 제공합니다. 이 섹션에서는 데이터 카탈로그에서 AWS Glue 데이터 품질을 사용하는 방법을 설명합니다. AWS Glue Studio의 AWS Glue 데이터 품질에 대한 자세한 내용은 AWS Glue Studio에서 데이터 품질 평가를 참조하세요.
주요 내용, 추가 제품 세부 정보 및 가격은 AWS Glue 데이터 품질
작동 방식
다음과 같은 주요 단계에 따라 AWS Glue 데이터 품질을 시작할 수 있습니다.
-
권장 데이터 품질 규칙 시작 - AWS Glue 데이터 품질은 데이터에 대한 통계를 계산한 다음 데이터 품질 규칙 세트를 권장하므로 빠르게 시작할 수 있습니다. 이러한 규칙은 데이터 정확성, 최신성, 무결성과 같은 데이터 품질 차원을 확인합니다. 권장 규칙을 조정하거나 직접 작성할 수 있습니다.
-
데이터 품질 작업 실행 - 데이터 품질 작업을 실행하여 데이터 품질 문제를 분석, 식별 및 조치합니다. 데이터 품질 작업에서는 데이터를 기준으로 규칙을 평가합니다. ETL 작업에서 데이터 품질 규칙을 평가할 수도 있습니다.
-
데이터 품질 결과 모니터링 및 검토 - AWS Glue 데이터 품질을 사용하여 데이터 품질 작업의 결과를 볼 수 있습니다. 데이터 품질 작업을 실행하면 AWS Glue 데이터 품질에서 데이터 품질 점수를 계산합니다. 이 점수를 사용하여 조치를 취하거나 데이터 세트가 사용하기에 적합한지 여부를 결정할 수 있습니다. AWS Glue 또한 데이터 품질을 사용하면 Amazon CloudWatch에 데이터 품질 지표를 게시할 수 있습니다.
고려 사항
AWS Glue 데이터 품질(미리 보기)을 사용하기 전에 다음 항목을 고려하세요.
-
AWS Glue 데이터 품질(미리 보기)은 다음 AWS 리전에서 사용 가능합니다.
-
미국 동부(오하이오)
-
미국 동부(버지니아 북부)
-
미국 서부(오레건)
-
아시아 태평양(도쿄)
-
유럽(아일랜드)
-
남아메리카(상파울루)
-
-
AWS Glue Data Catalog용 AWS Glue 데이터 품질은 현재 Amazon S3 소스에서 작동합니다.
-
AWS Glue Data Quality는 ETL 작업에 대해 AWS Glue 3.0에서 작동합니다. 다른 AWS Glue 버전은 지원되지 않습니다.
-
데이터 품질 규칙은 중첩된 데이터 소스 또는 목록 유형 데이터 소스를 평가할 수 없습니다.
용어
다음 목록은 AWS Glue 데이터 품질 관련 용어를 정의합니다.
- DQDL(데이터 품질 정의 언어)
-
AWS Glue 데이터 품질 규칙을 작성하는 데 사용할 수 있는 도메인별 언어입니다.
DQDL에 대한 자세한 내용은 DQDL(데이터 품질 정의 언어) 안내서를 참조하세요.
- 데이터 품질
-
데이터 세트가 특정 목적에 얼마나 적합한지를 설명합니다. AWS Glue 데이터 품질은 데이터 세트를 기준으로 규칙을 평가하여 데이터 품질을 측정합니다. 각 규칙은 데이터 최신성 또는 무결성과 같은 특정 특성을 확인합니다. 데이터 품질을 정량화하려면 데이터 품질 점수를 사용할 수 있습니다.
- 데이터 품질 점수
-
AWS Glue 데이터 품질로 규칙 세트를 평가할 때 통과한 데이터 품질 규칙(true 결과)의 비율입니다.
- 규칙
-
데이터에 특정 특성이 있는지 검사하고 부울 값을 반환하는 DQDL 표현식입니다. 자세한 내용은 규칙 구조 섹션을 참조하세요.
- 규칙 세트
-
일련의 데이터 품질 규칙으로 구성된 AWS Glue 리소스입니다. 규칙 세트는 AWS Glue Data Catalog의 테이블과 연결되어야 합니다. 규칙 세트를 저장할 때 AWS Glue에서는 Amazon 리소스 이름(ARN)을 규칙 세트에 할당합니다.