데이터 집합 내의 키 필터링 - AWS Glue

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터 집합 내의 키 필터링

Filter 변환을 사용하여 정규식을 기반으로 입력 데이터 집합의 레코드를 필터링하여 새 데이터 집합을 생성합니다. 필터 조건을 만족하지 않는 행은 출력에서 제거됩니다.

  • 문자열 데이터 유형의 경우 키 값이 지정된 문자열과 일치하는 행을 필터링할 수 있습니다.

  • 숫자 데이터 유형의 경우 비교 연산자 <, >, =, !=, <=>=로 키 값을 지정된 값과 비교하여 행을 필터링할 수 있습니다.

여러 필터 조건을 지정하면 기본적으로 AND 연산자를 사용하여 결과가 결합되지만 대신 OR를 선택할 수 있습니다.

Filter 변환은 대/소문자를 구분합니다. 대/소문자를 구분하지 않는 속성 키 이름이 필요한 경우 ApplyMapping 변환을 상위 노드로 추가합니다.

작업 다이어그램에 Filter 변환 노드를 추가하려면
  1. (선택 사항) 필요한 경우 리소스 패널을 열고 필터를 선택하여 작업 다이어그램에 새 변환을 추가합니다.

  2. [노드 속성(Node properties)] 탭에서 작업 다이어그램에 노드 이름을 입력합니다. 노드 상위 항목이 아직 선택되지 않은 경우 [노드 상위 항목(Node parents)] 목록에서 변환의 입력 소스로 사용할 노드를 선택합니다.

  3. [변환(Transform)] 탭을 선택합니다.

  4. [전역 AND(Global AND)] 또는 [전역 OR(Global OR)]를 선택합니다. 이에 따라 여러 필터 조건이 결합되는 방법이 결정됩니다. 모든 조건은 AND 또는 OR 연산을 사용하여 결합됩니다. 필터 조건이 하나만 있는 경우 둘 중 하나를 선택할 수 있습니다.

  5. [필터 조건(Filter condition)] 섹션에서 [조건 추가(Add condition)] 버튼을 선택하여 필터 조건을 추가합니다.

    [키(Key)] 필드에서 데이터 집합의 속성 키 이름을 선택합니다. [연산(Operation)] 필드에서 비교 연산자를 선택합니다. [값(Value)] 필드에 비교 값을 입력합니다. 다음은 필터 조건의 몇 가지 예입니다.

    • year >= 2018

    • State matches 'CA*'

    문자열 값을 필터링할 때 비교 값이 작업 속성(Python 또는 Scala)에서 선택한 스크립트 언어와 일치하는 정규식 포맷을 사용하는지 확인합니다.

  6. 필요에 따라 필터 조건을 추가합니다.

  7. (선택 사항) 변환 노드 속성을 구성한 후 노드 세부 정보 패널에서 [출력 스키마(Output schema)] 탭을 선택하여 데이터에 대해 수정된 스키마를 볼 수 있습니다. 작업의 노드에 대해 이 탭을 처음 선택하면 데이터 액세스를 위해 IAM 역할을 제공하라는 메시지가 나타납니다. [작업 세부 정보(Job details)] 탭에서 IAM 역할을 지정하지 않은 경우 여기에 IAM 역할을 입력하라는 메시지가 나타납니다.

  8. (선택 사항) 노드 속성과 변환 속성을 구성한 후 노드 세부 정보 패널에서 [데이터 미리 보기(Data preview)] 탭을 선택하여 수정된 데이터 집합을 미리 볼 수 있습니다. 작업의 노드에 대해 이 탭을 처음 선택하면 데이터 액세스를 위해 IAM 역할을 제공하라는 메시지가 나타납니다. 이 기능 사용과 관련된 비용이 있으며 IAM 역할을 제공하는 즉시 결제가 시작됩니다.