데이터 원본에 Data Catalog 테이블 사용 - AWS Glue Studio

데이터 원본에 Data Catalog 테이블 사용

Amazon S3와 커넥터를 제외한 모든 데이터 원본의 경우 선택한 원본 유형의 테이블이 AWS Glue Data Catalog에 있어야 합니다. AWS Glue Studio는 Data Catalog 테이블을 생성하지 않습니다.

Data Catalog 테이블을 기반으로 데이터 원본 노드를 구성하려면

  1. 새 작업 또는 저장된 작업의 시각적 편집기로 이동합니다.

  2. 작업 다이어그램에서 데이터 원본 노드를 선택합니다.

  3. [데이터 원본 속성(Data source properties)] 탭을 선택한 후 다음 정보를 입력합니다.

    • [S3 소스 유형(S3 source type)]: (Amazon S3 데이터 원본만 해당) 기존 AWS Glue Data Catalog 테이블을 사용하려면 [카탈로그 테이블 선택(Select a Catalog table)] 옵션을 선택합니다.

    • [데이터베이스(Database)]: Data Catalog에서 이 작업에 사용할 원본 테이블이 포함된 데이터베이스를 선택합니다. 검색 필드를 사용하여 이름으로 데이터베이스를 검색할 수 있습니다.

    • [테이블(Table)]: 목록에서 원본 데이터와 연결된 테이블을 선택합니다. 이 테이블이 AWS Glue Data Catalog에 이미 존재해야 합니다. 검색 필드를 사용하여 이름으로 테이블을 검색할 수 있습니다.

    • 파티션 조건자: (Amazon S3 데이터 원본만 해당) 분할 열만 포함하는 Spark SQL 기반 부울 표현식을 입력합니다. 예: "(year=='2020' and month=='04')"

    • [임시 디렉터리(Temporary directory)]: (Amazon Redshift 데이터 원본만 해당) ETL 작업에서 임시 중간 결과를 작성할 수 있는 Amazon S3 작업 디렉터리 위치에 대한 경로를 입력합니다.

    • [클러스터와 연결된 역할(Role associated with the cluster)]: (Amazon Redshift 데이터 원본만 해당) Amazon Redshift 클러스터에 대한 권한이 포함된 ETL 작업에 사용할 역할을 입력합니다. 자세한 정보는 데이터 원본 및 데이터 대상 권한을 참조하십시오.