데이터 품질 규칙 작성기 - AWS Glue

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터 품질 규칙 작성기

데이터 품질 정의 언어(DQDL) 규칙 작성기를 사용하면 데이터 품질 규칙을 생성하여 데이터를 평가할 수 있습니다. 먼저 규칙 유형을 선택하고 규칙 편집기에서 파라미터를 지정합니다. 규칙 편집기에는 규칙을 생성할 때 발생하는 오류 및 경고도 표시됩니다.

DQDL 안내서에서는 DQDL 구문, 기본 제공 규칙 유형 및 예제를 사용하여 규칙을 구성하는 방법에 대한 포괄적인 문서를 제공합니다.

데이터 품질 평가 노드

데이터 품질 평가 변환 노드 및 DQDL 규칙 작성기를 사용하여 작업 공간을 확장할 수 있습니다.

  • 변환 탭을 확장하여 전체 화면을 채우려면 노드 세부 정보 패널의 오른쪽 상단에 있는 확장 아이콘을 선택합니다.

  • DQDL 규칙 편집기를 확장하려면 << 아이콘을 선택하여 규칙 편집기를 확장하고 규칙 유형스키마 탭을 축소합니다.

    스크린샷에는 데이터 품질 평가 노드가 있는 작업 다이어그램이 나와 있습니다.

구성 요소

26개의 규칙 유형이 AWS Glue Studio에 기본 제공됩니다. 각 규칙 유형에는 사용 방법에 대한 설명과 예제가 있습니다.

데이터 품질 규칙 유형

AWS Glue Studio에서는 규칙을 쉽게 만들 수 있도록 기본 제공 규칙 유형을 제공합니다. 규칙 유형에 대한 자세한 내용은 DQDL 규칙 유형 참조를 참조하세요.

스키마

Schema(스키마) 탭에는 상위 노드의 열 이름과 데이터 유형이 표시됩니다. 여러 노드의 스키마가 표시됩니다. 입력 스키마를 보고, 열 이름을 기준으로 검색하고, 해당 열을 규칙 편집기에 삽입할 수 있습니다.

스크린샷은 완전성 규칙 유형을 사용하는 전체 규칙이 있는 규칙 편집기를 보여줍니다.

규칙 편집기

규칙 편집기는 규칙을 작성하고 편집할 수 있는 텍스트 편집기입니다. DQDL 규칙 작성기에서 규칙 유형을 선택하면 규칙 유형이 규칙 편집기에 추가됩니다. 그런 다음 텍스트를 수정하여 필요에 따라 파라미터를 지정하고 규칙을 추가하며 규칙을 편집할 수 있습니다. AWS Glue Studio에서는 규칙 편집기에서 규칙을 검증하고 오류 및 경고가 있을 경우 이를 표시합니다.

Errors and warnings(오류 및 경고)

규칙이 DQDL 규칙 구문을 따르지 않는 경우 규칙 편집기에 오류가 있음을 나타내는 몇 가지 시각적 표시기가 나타납니다.

  • 규칙 편집기는 오류가 있는 행을 오류 아이콘과 함께 빨간색으로 표시합니다.

  • 규칙 편집기의 빨간색 오류 아이콘 옆에 오류 수가 표시됩니다.

  • 오류가 있는 행을 선택하면 오류 설명과 위치(행 및 열)가 규칙 편집기 아래쪽에 표시됩니다.

스크린샷에서는 DQDL 규칙 편집기의 1행에 오류 표시기가 표시되고 규칙 편집기 하단에 오류 수가 표시됩니다. 다음은 오류에 대한 설명입니다.

데이터 품질 작업

기본적으로 이 작업은 선택되지 않으며 데이터 품질 규칙이 실패하더라도 작업 실행이 완료됩니다.

다음 작업 중에서 선택합니다. 작업을 사용하여 결과를 CloudWatch에 게시하거나 특정 기준에 따라 작업을 중지할 수 있습니다. 작업은 규칙을 생성한 경우에만 사용할 수 있습니다.

  • CloudWatch에 결과 게시 - 작업을 실행할 때 결과를 CloudWatch에 추가합니다.

  • 데이터 품질이 실패하면 작업 실패 - 데이터 품질 규칙이 실패하면 결과적으로 작업도 실패합니다.

데이터 품질 변환 출력

  • 원래 데이터 - 원래 입력 데이터를 출력하려면 선택합니다. 이 옵션은 품질 문제가 감지되었을 때 작업을 중지하려는 경우에 적합합니다.

  • 데이터 품질 지표 - 구성된 규칙과 규칙의 통과 또는 실패 상태를 출력하려면 선택합니다. 이 옵션은 사용자 지정 작업을 수행하려는 경우에 유용합니다.

데이터 품질 출력 설정

Amazon S3 위치를 데이터 품질 출력 대상으로 지정하여 데이터 품질 결과 위치를 설정합니다.