AWS Glue의 데이터 카탈로그 및 크롤러 - AWS Glue

AWS Glue의 데이터 카탈로그 및 크롤러

AWS Glue Data Catalog는 AWS Glue에서 추출 및 변환, 로드(ETL) 작업의 원본 및 대상으로 사용되는 데이터에 참조를 포함시킵니다. 데이터 웨어하우스 또는 데이터 레이크를 생성하기 위해서는 이 데이터의 카탈로그를 작성해야 합니다. AWS Glue Data Catalog는 데이터의 위치, 스키마 및 실행 시간 측정치의 인덱스입니다. Data Catalog에서 이 정보를 사용하여 ETL 작업을 생성하고 모니터링합니다. Data Catalog의 정보는 메타데이터 테이블로 저장되며 여기서 각 테이블은 단일 데이터 스토어를 지정합니다. 일반적으로 크롤러를 실행하여 데이터의 목록을 데이터 스토어로 가져가지만 메타데이터 테이블을 Data Catalog로 추가하는 다른 방법이 있습니다. 자세한 정보는 AWS Glue 테이블을 참조하십시오.

다음 워크플로 다이어그램은 AWS Glue 크롤러가 데이터 스토어와 다른 요소와 상호 작용하여 Data Catalog를 채우는 방법을 보여줍니다.


      워크플로는 AWS Glue 크롤러가 Data Catalog를 채우는 방법을 5단계로 보여줍니다.

다음은 크롤러가 AWS Glue Data Catalog을 채우는 방법에 대한 일반적인 워크플로우입니다.

  1. 크롤러는 선택한 사용자 지정 분류자를 실행하여 데이터의 형식 및 스키마를 추론합니다. 사용자 지정 분류자에 대한 코드를 제공하면 지정한 순서대로 실행됩니다.

    첫 번째 사용자 분류자가 데이터 구조를 성공적으로 인식하는 과정은 테이블의 스키마를 생성하는 데 사용됩니다. 하위 목록에 있는 사용자 분류자는 건너뜁니다.

  2. 어떠한 사용자 지정 분류자도 데이터 스키마와 일치하지 않는다면 기본 설정 분류자는 데이터 스키마를 인식할 시도를 합니다. 기본 설정 분류자의 예는 JSON을 인식하는 분류자입니다.

  3. 크롤러를 데이터 스토어로 연결합니다. 어떤 데이터 스토어는 크롤러 액세스 연결 속성을 요구합니다.

  4. 추론된 스키마는 데이터 때문에 생성됩니다.

  5. 크롤러는 메타데이터를 Data Catalog로 작성합니다. 테이블 정의는 데이터 스토어의 데이터에 대한 메타데이터를 포함합니다. 테이블은 Data Catalog에서 테이블 컨테이너인 데이터베이스에 작성됩니다. 테이블 속성은 테이블 스키마를 추론한 분류자에 의해 생성된 라벨인 분류자를 포함합니다.