ReferentialIntegrity - AWS Glue

ReferentialIntegrity

기본 데이터 세트의 열 세트 값이 어느 범위까지 참조 데이터 세트의 열 세트 값에 대한 하위 세트인지를 확인합니다.

구문

ReferentialIntegrity <PRIMARY_COLS> <REFERENCE_DATASET_COLS> <EXPRESSION>
  • PRIMARY_COLS - 기본 데이터 세트의 쉼표로 구분된 열 이름 목록입니다.

    지원되는 열 유형: Byte, Decimal, Double, Float, Integer, Long, Short

  • REFERENCE_DATASET_COLS - 이 파라미터는 마침표로 구분된 두 부분을 포함합니다. 첫 번째 부분은 참조 데이터 세트의 별칭입니다. 두 번째 부분은 참조 데이터 세트에서 괄호로 묶인 쉼표로 구분된 열 이름 목록입니다.

    지원되는 열 유형: Byte, Decimal, Double, Float, Integer, Long, Short

  • EXPRESSION - 부울 값을 생성하기 위해 규칙 유형 응답에 대해 실행할 표현식입니다. 자세한 내용은 Expressions 단원을 참조하십시오.

예: zip code 열의 참조 무결성 확인

다음 예제 규칙은 기본 데이터 세트의 zipcode 열에 있는 값 중 90%가 넘는 항목이 reference 데이터 세트의 zipcode 열에 있는지 확인합니다.

ReferentialIntegrity "zipcode" "reference.zipcode" >= 0.9

예: city 및 state 열의 참조 무결성 확인

다음 예제에서는 city 및 state 정보가 포함된 열이 기본 데이터 세트과 참조 데이터 세트에 있습니다. 두 데이터 세트의 열 이름은 서로 다릅니다. 이 규칙은 기본 데이터 세트의 열 값 세트가 참조 데이터 세트의 열 값 세트와 정확히 같은지 확인합니다.

ReferentialIntegrity "city,state" "reference.{ref_city,ref_state}" = 1.0

샘플 동적 규칙

  • ReferentialIntegrity "city,state" "reference.{ref_city,ref_state}" > avg(last(10))

  • ReferentialIntegrity "city,state" "reference.{ref_city,ref_state}" between min(last(10)) - 1 and max(last(10)) + 1