AWS Glue 사용 개요 - AWS Glue

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS Glue 사용 개요

AWS Glue로 AWS Glue Data Catalog에 메타데이터를 저장합니다. 이 메타데이터를 사용하여 데이터 원본을 변환하고 데이터 웨어하우스 또는 데이터 레이크를 로드하는 ETL 작업을 오케스트레이션할 수 있습니다. 다음 단계는 일반 작업 흐름과 AWS Glue와 작업할 때 정한 선택에 대해 설명합니다.

참고

다음 단계를 사용하거나 1~3단계를 자동으로 수행하는 워크플로를 생성할 수 있습니다. 자세한 내용은 AWS Glue에서 블루프린트 및 워크플로를 사용하여 복잡한 ETL 활동 수행 단원을 참조하십시오.

  1. 테이블 정의로 AWS Glue Data Catalog를 채웁니다.

    콘솔에서 영구 데이터 스토어의 경우 크롤러를 추가하여 AWS Glue Data Catalog를 채울 수 있습니다. 테이블 목록 또는 크롤러 목록에서 [Add crawler(크롤러 추가)] 마법사를 시작합니다. 크롤러에 액세스하도록 하나 이상의 스토어를 선택합니다. 일정을 생성하여 크롤러 실행 빈도수를 결정합니다. 데이터 스트림의 경우 테이블 정의를 수동으로 생성하고 스트림 속성을 정의할 수 있습니다.

    데이터 스키마를 추론하는 사용자 분류자를 제공할 수도 있습니다. grok 패턴을 사용하여 사용자 지정 분류자를 생성합니다. 하지만 AWS Glue는 사용자 분류자가 데이터를 인식하지 않으면 크롤러에서 자동적으로 사용된 기본 설정 분류자를 제공합니다. 크롤러를 정의할 때 분류자를 선택할 필요가 없습니다. AWS Glue의 분류자에 대한 자세한 내용은 AWS Glue의 크롤러로 분류자 추가 단원을 참조하십시오.

    몇 가지 데이터 스토어 유형을 크롤하려면 인증 및 위치 정보가 제공되는 연결이 필요합니다. 필요하면 AWS Glue 콘솔에 필요한 정보를 제공하는 연결을 생성할 수 있습니다.

    크롤러가 데이터 스토어를 읽고 데이터 정의와 이름 붙여진 테이블을 AWS Glue Data Catalog에 생성합니다. 이런 테이블은 선택에 따라 데이터베이스에 조직됩니다. 수동으로 생성한 테이블로 Data Catalog를 채울 수도 있습니다. 이러 방법을 통해 스키마 및 기타 메타데이터를 제공하여 Data Catalog에 테이블 정의를 생성합니다. 이런 방법은 조금 짜증나고 오류가 쉽게 날 수 있기 때문에 크롤러가 테이블 정의를 생성하는 방법이 더 좋습니다.

    테이블 정의로 AWS Glue Data Catalog을 채우는 방법에 대한 자세한 내용은 테이블 생성 단원을 참조하십시오.

  2. 원본에서 대상으로의 데이터 변환을 설명하는 작업을 정의합니다.

    일반적으로 다음과 같은 선택을 통해 작업을 생성합니다.

    • AWS Glue Data Catalog에서 작업의 소스로 사용할 테이블을 선택합니다. 작업은 이 테이블 정의를 사용하여 데이터 원본에 액세스하고 데이터 포맷을 해석합니다.

    • AWS Glue Data Catalog에서 작업의 대상으로 사용할 테이블 또는 위치를 선택합니다. 작업은 이 정보를 사용하여 데이터 스토어에 액세스합니다.

    • AWS Glue에 스크립트를 생성하여 소스를 대상으로 변환하도록 지시합니다. AWS Glue는 코드를 생성하여 기본 제공 변환을 직접 호출한 다음 소스 스키마에서 대상 스키마 형식으로 데이터를 전환합니다. 이 변환은 데이터 복사, 열 이름 바꾸기 및 데이터 필터링 후 필요에 따라 데이터 변환의 작업을 실행합니다. AWS Glue 콘솔의 스크립트를 수정할 수 있습니다.

    AWS Glue의 작업을 정의하는 방법에 대한 자세한 내용은 AWS Glue Studio를 사용하여 시각적 ETL 작업 구축 단원을 참조하십시오.

  3. 작업을 실행하여 데이터를 변환합니다.

    필요할 때 작업하거나, 트리거 유형 중 하나에 따라 시작할 수 있습니다.

    • Cron 일정에 따른 트리거.

    • 트리거는 이벤트 기반입니다. 예를 들어, 작업을 성공적으로 완료했다면 AWS Glue 작업을 시작할 수 있습니다.

    • 필요 시 트리거는 작업을 시작합니다.

    AWS Glue의 트리거에 대한 자세한 내용은 트리거를 사용하여 작업 및 크롤러 시작 단원을 참조하십시오.

  4. 예정된 크롤러와 촉발된 작업을 모니터합니다.

    AWS Glue 콘솔을 사용하여 다음을 봅니다.

    • 작업 실행 상세 정보 및 오류

    • 크롤러 실행 상세 정보 및 오류

    • AWS Glue 동작에 대한 알림

    AWS Glue의 크롤러 및 작업 모니터링에 대한 자세한 내용은 AWS Glue 모니터링 단원을 참조하십시오.