를 사용하여 ETL 작업 생성AWS Glue Studio - AWS Glue Studio

를 사용하여 ETL 작업 생성AWS Glue Studio

AWS Glue Studio의 간단한 시각적 인터페이스를 사용하여 ETL 작업을 생성할 수 있습니다. [작업(Jobs)] 페이지를 사용하여 새 작업을 생성합니다. 스크립트 편집기 또는 노트북을 사용하여 AWS Glue Studio ETL 작업 스크립트의 코드로 직접 작업할 수도 있습니다.

작업(Jobs) 페이지에서 AWS Glue Studio 또는 AWS Glue로 생성한 모든 작업을 볼 수 있습니다. 이 페이지에서 작업을 보고, 관리하고, 실행할 수 있습니다.

작업 생성 프로세스 시작

시각적 편집기를 사용하여 작업을 생성하고 사용자 지정합니다. 새 작업을 생성할 때 빈 캔버스, 데이터 원본, 변환 및 데이터 대상 노드가 있는 작업으로 시작하거나 ETL 스크립트를 작성하는 옵션이 있습니다.

AWS Glue Studio에서 작업을 생성하려면

  1. AWS Management Console에 로그인하고 https://console.aws.amazon.com/gluestudio/에서 AWS Glue Studio 콘솔을 엽니다.

  2. AWS Glue Studio 랜딩 페이지에서 작업 생성 및 관리(Create and manage jobs)를 선택하거나 탐색 창에서 작업(Jobs)을 선택할 수 있습니다.

    [작업(Jobs)] 페이지가 나타납니다.

  3. [작업 생성(Create job)] 섹션에서 작업에 대한 구성 옵션을 선택합니다.

    • 빈 캔버스가 있는 시각적 객체(Visual with a blank canvas) - 빈 캔버스로 시작하는 작업을 생성합니다.

    • 소스 및 대상이 있는 시각적 객체(Visual with a source and target) - 소스 노드 또는 소스, 변환, 대상 노드로 시작하는 작업을 생성합니다.

      그런 다음 데이터 원본 유형을 선택합니다. 데이터 대상 유형을 선택하거나 대상(Target) 드롭다운 목록에서 나중에 선택(Choose later) 옵션을 선택하여 그래프에 데이터 원본 노드만 포함하여 시작할 수도 있습니다.

    • Spark 스크립트 편집기(Spark script editor) - 프로그래밍 및 ETL 스크립트 작성에 익숙한 사용자의 경우 이 옵션을 선택하여 새 Spark ETL 작업을 생성합니다. 그런 다음 스크립트 편집기 창에서 Python 또는 Scala 코드를 작성하거나 로컬 파일에서 기존 스크립트를 업로드할 수 있습니다. 스크립트 편집기를 사용하는 옵션을 선택한 경우 시각적 작업 편집기를 사용하여 작업을 설계하거나 편집할 수 없습니다.

      Spark 작업은 AWS Glue에서 관리하는 Apache Spark 환경에서 실행됩니다. 기본적으로 새 스크립트는 Python으로 코딩됩니다. 새 Scala 스크립트를 작성하려면 AWS Glue Studio에서 Scala 스크립트 생성 및 편집 섹션을 참조하세요.

    • Python 셸 스크립트 편집기(Python Shell script editor) - 프로그래밍 및 ETL 스크립트 작성에 익숙한 사용자의 경우 이 옵션을 선택하여 새 Python 셸 작업을 생성합니다. 템플릿(표준 문안)으로 시작하는 스크립트 편집기 창에서 코드를 작성하거나 로컬 파일에서 기존 스크립트를 업로드할 수 있습니다. Python 셸 편집기를 사용하는 옵션을 선택한 경우 시각적 작업 편집기를 사용하여 작업을 설계하거나 편집할 수 없습니다.

      Python 셸 작업은 Python 스크립트를 셸로 실행하고 작업을 위해 선택한 AWS Glue 버전에 따라 다른 Python 버전을 지원합니다. 이러한 작업을 사용하여 Apache Spark 환경이 필요하지 않은 작업을 예약하고 실행할 수 있습니다.

    • Jupyter 노트북(Jupyter Notebook) - 프로그래밍 및 ETL 스크립트 작성에 익숙한 사용자의 경우 이 옵션을 선택하여 Jupyter 노트북 기반의 노트북 인터페이스로 새 Python 또는 Scala 작업 스크립트를 생성합니다. 노트북에서 코드를 작성합니다. 노트북 인터페이스를 사용하여 작업을 생성하는 옵션을 선택한 경우 시각적 작업 편집기를 사용하여 작업을 설계하거나 편집할 수 없습니다.

      명령줄 인터페이스를 사용하여 작업을 작성할 노트북을 쉽게 구성할 수도 있습니다.

  4. 생성(Create)을 선택하여 선택한 편집 인터페이스에서 작업을 생성합니다.

    
            스크린샷은 AWS Glue Studio의 작업(Jobs) 페이지를 보여줍니다. "[작업 생성(Create job)]" 섹션에서 "[소스 및 대상이 있는 시각적 객체(Visual with a source and target)]" 옵션이 선택되어 있습니다. 다른 작업 생성 옵션은 "[빈 캔버스가 있는 시각적 객체(Visual with a blank canvas)]", "[Spark 스크립트 편집기(Spark script editor)]" 및 "[Python 셸 스크립트 편집기(Python Shell script editor)]"입니다. 작업 생성 옵션 아래에는 사용 가능한 다양한 데이터 원본 유형(AWS Glue Data Catalog, Amazon S3, Amazon Kinesis, Apache Kafka, Relational DB, Amazon Redshift, MySQL, PostgreSQL 등)을 보여주는 [소스(Source)] 드롭다운 목록이 있습니다. [소스(Source)] 드롭다운 목록 오른쪽에는 "[Amazon S3]"가 표시된 [대상(Target)] 드롭다운 목록이 있습니다. [생성(Create)] 버튼은 이미지의 오른쪽 상단 근처에서 주황색으로 강조 표시됩니다.
  5. Jupyter 노트북 옵션을 선택한 경우 작업 편집기 인터페이스 대신 Jupyter 노트북에서 작업 생성(Create job in Jupyter notebook) 페이지가 표시됩니다. 노트북 작성 세션을 생성하기 전에 추가 정보를 제공해야 합니다. 이 정보를 지정하는 방법에 대한 자세한 내용은 AWS Glue Studio에서 노트북 시작하기 섹션을 참조하세요.

커넥터를 사용하는 작업 생성

AWS Glue Studio에 커넥터를 추가하고 커넥터에 대한 연결을 생성한 후에는 해당 연결을 데이터 원본에 사용하는 작업을 생성할 수 있습니다.

자세한 지침은 사용자 정의 커넥터로 작업 작성 단원을 참조하십시오.

AWS Glue Studio에서 작업을 생성하기 위한 다음 단계

시각적 작업 편집기를 사용하여 작업에 대한 노드를 구성합니다. 각 노드는 소스 위치에서 데이터 읽기 또는 데이터에 변환 적용과 같은 작업을 나타냅니다. 작업에 추가하는 각 노드에는 데이터 위치 또는 변환에 대한 정보를 제공하는 속성이 있습니다.

다음은 작업을 생성하고 관리하는 단계입니다.