데이터 대상 노드 구성 - AWS Glue Studio

데이터 대상 노드 구성

데이터 대상은 작업이 변환된 데이터를 쓰는 위치입니다.

데이터 대상 옵션 개요

다음이 데이터 대상(데이터 싱크라고도 함)일 수 있습니다.

  • [S3] - 작업이 선택한 Amazon S3 위치와 지정한 포맷의 파일에 데이터를 씁니다.

    데이터 대상에 대한 파티션 열을 구성하면 작업이 파티션 키를 기반으로 디렉터리에 Amazon S3에 대한 데이터 집합을 씁니다.

  • [AWS Glue Data Catalog]- 작업이 Data Catalog의 테이블과 연결된 정보를 사용하여 출력 데이터를 대상 위치에 씁니다.

    수동으로 또는 크롤러를 사용하여 테이블을 생성할 수 있습니다. AWS CloudFormation 템플릿을 사용하여 Data Catalog에서 테이블을 생성할 수도 있습니다.

  • 커넥터 - 커넥터는 데이터 스토어와 AWS Glue 간의 통신을 용이하게 하는 코드입니다. 작업은 커넥터 및 연결된 연결을 사용하여 출력 데이터를 대상 위치에 씁니다. AWS Marketplace에서 제공되는 커넥터를 구독하거나 사용자 정의 커넥터를 생성할 수 있습니다. 자세한 내용은 AWS Glue Studio에 커넥터 추가 섹션을 참조하세요.

작업이 Amazon S3 데이터 대상에 쓸 때 Data Catalog를 업데이트하도록 선택할 수 있습니다. 스키마 또는 파티션이 변경될 때 크롤러가 Data Catalog를 업데이트하도록 요구하는 대신 이 옵션을 사용하면 테이블을 쉽게 최신 상태로 유지할 수 있습니다. 이 옵션은 필요에 따라 Data Catalog에 새 테이블을 추가하고 테이블 파티션을 업데이트하며 작업에서 직접 테이블의 스키마를 업데이트하여 분석에 데이터를 사용할 수 있도록 하는 프로세스를 단순화합니다.

데이터 대상 노드 편집

데이터 대상은 작업이 변환된 데이터를 쓰는 위치입니다.

작업 다이어그램에서 데이터 대상 노드를 추가하거나 구성하려면

  1. (선택 사항) 대상 노드를 추가해야 하는 경우 시각적 편집기 상단의 도구 모음에서 [대상(Target)]을 선택한 다음 [S3] 또는 [Glue Data Catalog]를 선택합니다.

    • 대상으로 [S3]를 선택하면 작업은 지정한 Amazon S3 위치에 있는 하나 이상의 파일에 데이터 집합을 씁니다.

    • 대상으로 [AWS Glue Data Catalog]를 선택하면 작업은 Data Catalog에서 선택한 테이블에 설명된 위치에 씁니다.

  2. 작업 다이어그램에서 데이터 대상 노드를 선택합니다. 노드를 선택하면 페이지 오른쪽에 노드 세부 정보 패널이 나타납니다.

  3. [노드 속성(Node properties)] 탭을 선택한 후 다음 정보를 입력합니다.

    • [이름(Name)]: 작업 다이어그램의 노드와 연결할 이름을 입력합니다.

    • [노드 유형(Node type)]: 값이 이미 선택되어 있어야 하지만 필요에 따라 변경할 수 있습니다.

    • [상위 노드(Node parents)]: 상위 노드는 대상 위치에 쓰려는 출력 데이터를 제공하는 작업 다이어그램의 노드입니다. 미리 채워진 작업 다이어그램의 경우 대상 노드에 이미 상위 노드가 선택되어 있어야 합니다. 표시되는 상위 노드가 없으면 목록에서 상위 노드를 선택합니다.

      대상 노드에는 단일 상위 노드가 있습니다.

  4. [데이터 대상 속성(Data target properties)] 정보를 구성합니다. 자세한 내용은 다음 단원을 참조하세요.

  5. (선택 사항) 데이터 대상 노드 속성을 구성한 후 노드 세부 정보 패널에서 [출력 스키마(Output schema)] 탭을 선택하여 데이터에 대해 출력 스키마를 볼 수 있습니다. 작업의 노드에 대해 이 탭을 처음 선택하면 데이터 액세스를 위해 IAM 역할을 제공하라는 메시지가 나타납니다. [작업 세부 정보(Job details)] 탭에서 IAM 역할을 지정하지 않은 경우 여기에 IAM 역할을 입력하라는 메시지가 나타납니다.

데이터 대상에 Amazon S3 사용

Amazon S3와 커넥터를 제외한 모든 데이터 원본의 경우 선택한 원본 유형의 테이블이 AWS Glue Data Catalog에 있어야 합니다. AWS Glue Studio는 Data Catalog 테이블을 생성하지 않습니다.

Amazon S3에 쓰는 데이터 대상 노드를 구성하려면

  1. 새 작업 또는 저장된 작업의 시각적 편집기로 이동합니다.

  2. 작업 다이어그램에서 데이터 원본 노드를 선택합니다.

  3. [데이터 원본 속성(Data source properties)] 탭을 선택한 후 다음 정보를 입력합니다.

    • [포맷(Format)]: 목록에서 포맷을 선택합니다. 데이터 결과에 사용할 수 있는 포맷 유형은 다음과 같습니다.

      • [JSON]: JavaScript Object Notation.

      • [CSV]: 쉼표로 분리된 값.

      • [Avro]: Apache Avro JSON 바이너리입니다.

      • [Parquet]: Apache Parquet 컬럼 방식 스토리지.

      • [Glue Parquet]: 데이터 포맷으로 DynamicFrames에 최적화된 사용자 정의 Parquet 라이터 유형입니다. 데이터에 대해 미리 계산된 스키마를 요구하는 대신 스키마를 동적으로 계산하고 수정합니다.

      • [ORC]: Apache Optimized Row Columnar(ORC) 포맷입니다.

      이러한 포맷 옵션에 대한 자세한 내용은 AWS Glue Developer GuideFormat Options for ETL Inputs and Outputs in AWS Glue를 참조하세요.

    • [압축 유형(Compression Type)]: gzip 또는 bzip2 포맷을 사용하여 데이터를 선택적으로 압축하도록 선택할 수 있습니다. 기본값은 압축 안 함 또는 [없음(None)]입니다.

    • [S3 대상 위치(S3 Target Location)]: 데이터 출력을 위한 Amazon S3 버킷 및 위치입니다. [S3 찾아보기(Browse S3)] 버튼을 선택하여 액세스 권한이 있는 Amazon S3 버킷을 확인하고 그 중 하나를 대상으로 선택할 수 있습니다.

    • 데이터 카탈로그 업데이트 옵션

      • [Data Catalog 업데이트 안 함(Do not update the Data Catalog)]: (기본값) 스키마가 변경되거나 새 파티션이 추가된 경우에도 작업에서 Data Catalog를 업데이트하지 않으려면 이 옵션을 선택합니다.

      • [Data Catalog에 테이블 생성, 후속 실행 시 스키마 업데이트 및 새 파티션 추가(Create a table in the Data Catalog and on subsequent runs, update the schema and add new partitions)]: 이 옵션을 선택하면 작업이 처음 실행될 때 Data Catalog에 테이블이 생성됩니다. 후속 작업 실행 시 스키마가 변경되거나 새 파티션이 추가되면 작업이 Data Catalog 테이블을 업데이트합니다.

        또한 Data Catalog에서 데이터베이스를 선택하고 테이블 이름을 입력해야 합니다.

      • [Data Catalog에 테이블 생성, 기존 스키마 유지 및 새 파티션 추가(Create a table in the Data Catalog and on subsequent runs, keep existing schema and add new partitions)]: 이 옵션을 선택하면 작업이 처음 실행될 때 Data Catalog에 테이블이 생성됩니다. 후속 작업 실행 시 작업은 새 파티션을 추가하기 위해서만 Data Catalog 테이블을 업데이트합니다.

        또한 Data Catalog에서 데이터베이스를 선택하고 테이블 이름을 입력해야 합니다.

      • [파티션 키(Partition keys)]: 출력에서 파티션 키로 사용할 열을 선택합니다. 파티션 키를 더 추가하려면 [파티션 키 추가(Add a partition key)]를 선택합니다.

데이터 대상에 Data Catalog 테이블 사용

Amazon S3과 커넥터를 제외한 모든 데이터 원본의 경우 선택한 대상 유형의 테이블이 AWS Glue Data Catalog에 있어야 합니다. AWS Glue Studio는 Data Catalog 테이블을 생성하지 않습니다.

Data Catalog 테이블을 사용하는 대상에 대한 데이터 속성을 구성하려면

  1. 새 작업 또는 저장된 작업의 시각적 편집기로 이동합니다.

  2. 작업 다이어그램에서 데이터 대상 노드를 선택합니다.

  3. [데이터 대상 속성(Data target properties)] 탭을 선택한 후 다음 정보를 입력합니다.

    • [데이터베이스(Database)]: 목록에서 대상으로 사용할 테이블이 포함된 데이터베이스를 선택합니다. 이 데이터베이스가 Data Catalog에 이미 존재해야 합니다.

    • [테이블(Table)]: 목록에서 출력 데이터의 스키마를 정의하는 테이블을 선택합니다. 이 테이블이 Data Catalog에 이미 존재해야 합니다.

      Data Catalog의 테이블은 열 이름, 데이터 유형 정의, 파티션 정보 및 대상 데이터 집합에 대한 기타 메타데이터로 구성됩니다. 작업은 Data Catalog에서 이 테이블에 설명된 위치에 씁니다.

      Data Catalog에 테이블 생성에 대한 자세한 내용은 AWS Glue Developer GuideDefining Tables in the Data Catalog를 참조하세요.

    • 데이터 카탈로그 업데이트 옵션

      • [테이블 정의 변경 안 함(Do not change table definition)]: (기본값) 스키마가 변경되거나 새 파티션이 추가된 경우에도 작업에서 Data Catalog를 업데이트하지 않으려면 이 옵션을 선택합니다.

      • [스키마 업데이트 및 새 파티션 추가(Update schema and add new partitions)]: 이 옵션을 선택하면 스키마가 변경되거나 새 파티션이 추가될 때 작업이 Data Catalog 테이블을 업데이트합니다.

      • [기존 스키마 유지 및 새 파티션 추가(Keep existing schema and add new partitions)]: 이 옵션을 선택하면 작업에서 새 파티션을 추가하기 위해서만 Data Catalog 테이블을 업데이트합니다.

      • [파티션 키(Partition keys)]: 출력에서 파티션 키로 사용할 열을 선택합니다. 파티션 키를 더 추가하려면 [파티션 키 추가(Add a partition key)]를 선택합니다.

데이터 대상에 커넥터 사용

[노드 유형(Node type)]에 대한 커넥터를 선택하는 경우 사용자 정의 커넥터로 작업 작성의 지침에 따라 데이터 대상 속성 구성을 완료합니다.