Spigot을 사용하여 데이터 집합 샘플링 - AWS Glue

Spigot을 사용하여 데이터 집합 샘플링

작업에서 수행한 변환을 테스트하기 위해 데이터 샘플을 가져와 변환이 의도한 대로 작동하는지 확인할 수 있습니다. Spigot 변환은 데이터 집합의 레코드 하위 집합을 Amazon S3 버킷의 JSON 파일에 기록합니다. 데이터 샘플링 방법은 파일 시작 부분의 특정 레코드 수 또는 레코드 선택에 사용되는 확률 요소일 수 있습니다.

작업 다이어그램에 Spigot 변환 노드를 추가하려면
  1. (선택 사항) 필요한 경우 리소스 패널을 열고 Spigot을 선택하여 작업 다이어그램에 새 변환을 추가합니다.

  2. [노드 속성(Node properties)] 탭에서 작업 다이어그램에 노드 이름을 입력합니다. 노드 상위 항목이 아직 선택되지 않은 경우 [노드 상위 항목(Node parents)] 목록에서 변환의 입력 소스로 사용할 노드를 선택합니다.

  3. 노드 세부 정보 패널에서 [변환(Transform)] 탭을 선택합니다.

  4. Amazon S3 경로를 입력하거나 [S3 찾아보기(Browse S3)]를 선택하여 Amazon S3에서 위치를 선택합니다. 작업이 데이터 샘플이 포함된 JSON 파일을 작성하는 위치입니다.

  5. 샘플링 방법에 대한 정보를 입력합니다. 데이터 집합의 시작부터 쓸 [레코드 수(Number of records)]에 대한 값과 지정된 레코드를 선택하는 [확률 임계값(Probability threshold)](최대값이 1인 십진수 값으로 입력됨)을 지정할 수 있습니다.

    예를 들어 데이터 집합에서 처음 50개의 레코드를 쓰려면 [레코드 수(Number of records)]를 50으로 설정하고 [확률 임계값(Probability threshold)]을 1(100%)로 설정합니다.