AWS Glue Studio란 무엇입니까? - AWS Glue Studio

AWS Glue Studio란 무엇입니까?

AWS Glue Studio는 AWS Glue에서 추출, 변환, 로드 작업을 쉽게 생성, 실행, 모니터링할 수 있게 해주는 새로운 그래픽 인터페이스입니다. 데이터 변환 워크플로를 시각적으로 구성하고 AWS Glue의 Apache Spark 기반 서버리스 ETL 엔진에서 원활하게 실행할 수 있습니다. 작업의 각 단계에서 스키마 및 데이터 결과를 검사할 수 있습니다.


            스크린샷은 AWS Glue Studio의 작업 편집 페이지를 보여줍니다. 3개의 소스 노드, 3개의 변환 노드, 2개의 조인 노드 및 데이터 대상 노드가 있는 작업 그래프가 표시됩니다. 그래프 오른쪽의 노드 세부 정보 패널에는 S3 데이터 원본에 대한 데이터 미리 보기 탭이 표시됩니다.

AWS Glue Studio는 테이블 형식 데이터뿐만 아니라 스프레드시트와 같은 데이터 준비 인터페이스에서 렌더링하기 어려운 반정형 데이터용으로 설계되었습니다. 반정형 데이터의 예로는 애플리케이션 로그, 모바일 이벤트, 사물 인터넷(IoT) 이벤트 스트림 및 소셜 피드가 있습니다.

AWS Glue Studio에서 작업을 생성하는 경우 AWS 서비스에 저장된 다양한 데이터 원본 중에서 선택할 수 있습니다. 데이터 웨어하우스와 데이터 레이크에서 분석하기 위해 해당 데이터를 신속하게 준비할 수 있습니다. AWS Glue Studio는 ETL 워크플로를 모니터링하고 의도한 대로 작동하는지 검증하는 도구도 제공합니다. 각 노드에 대한 데이터 집합을 미리 볼 수 있습니다. 이렇게 하면 작업의 각 단계에서 데이터 샘플을 표시하여 ETL 작업을 디버그하는 데 도움이 됩니다.

AWS Glue Studio는 다음을 쉽게 수행할 수 있는 시각적 인터페이스를 제공합니다.

  • Amazon S3, Amazon Kinesis 또는 JDBC 소스에서 데이터를 가져옵니다.

  • 데이터를 조인, 샘플 또는 변환하는 트랜스포메이션을 구성합니다.

  • 변환된 데이터의 대상 위치를 지정합니다.

  • 작업의 각 지점에서 스키마 또는 데이터 집합의 샘플을 봅니다.

  • AWS Glue Studio에서 생성된 작업을 실행, 모니터링, 관리합니다.

AWS Glue Studio의 기능

AWS Glue Studio를 사용하면 데이터를 수집, 변환, 정리하는 작업을 생성하고 관리할 수 있습니다. 고급 사용자는 AWS Glue Studio를 사용하여 작업 스크립트 문제를 해결하고 작업 스크립트를 편집할 수 있습니다.

시각적 작업 편집기

AWS Glue Studio에서 작업을 생성하고 편집할 때 다음 작업을 수행할 수 있습니다.

  • 구현할 작업에 노드를 더 추가합니다.

    • 여러 데이터 원본.

    • 여러 데이터 대상.

    • 이전에 지원되지 않았던 외부 데이터 스토어용 커넥터를 사용하는 데이터 원본 및 대상

  • 작업 다이어그램의 각 노드에 있는 데이터의 샘플을 봅니다.

  • 기존 노드의 상위 노드를 변경합니다.

  • 다음과 같은 변환을 추가합니다.

    • 데이터 원본을 조인합니다.

    • 데이터에서 특정 필드를 선택합니다.

    • 필드를 삭제합니다.

    • 필드의 이름을 바꿉니다.

    • 필드의 데이터 유형을 변경합니다.

    • 데이터의 선택 필드를 Amazon S3 버킷(spigot)의 JSON 파일에 씁니다.

    • 데이터 집합에서 데이터를 필터링합니다.

    • 하나의 데이터 집합을 2개의 데이터 집합으로 분할합니다.

    • 데이터 집합에서 누락된 값을 찾고 별도의 열에 누락된 값을 제공합니다.

    • SQL을 사용하여 데이터를 쿼리하고 변환합니다.

    • 사용자 정의 코드를 사용합니다.

작업 스크립트를 대화형으로 개발하고 디버깅하기 위한 노트북 인터페이스

AWS Glue Studio는 간편한 작업 작성 및 데이터 탐색을 위해 원클릭 설정으로 향상된 노트북 환경을 제공합니다. 노트북과 연결이 자동으로 구성됩니다. Jupyter Notebook 기반의 노트북 인터페이스를 통해 AWS Glue 서버리스 Apache Spark ETL 인프라를 사용하여 스크립트와 워크플로를 대화형으로 개발, 디버깅, 배포할 수 있습니다. 노트북 환경에서 임시 쿼리, 데이터 분석, 시각화(예: 테이블 및 그래프)를 수행할 수 있습니다.

AWS Glue Studio의 노트북 편집기 인터페이스는 다음과 같은 기능을 제공합니다.

  • 프로비저닝하거나 관리할 클러스터가 없습니다.

  • 노트북 실행을 기다리는 유휴 클러스터에 대한 비용이 없습니다.

  • 사전 구성이 필요하지 않습니다.

  • 동일한 개발 환경에 대한 리소스 경합이 없습니다.

  • 설치 및 사용이 용이합니다.

  • AWS Glue ETL 작업이 실행되는 곳과 정확히 동일한 실행 환경에서 테스트합니다.

작업 스크립트 코드 편집기

AWS Glue Studio에는 작업용 추출, 변환, 로드 코드를 작성하거나 사용자 지정하기 위한 스크립트 편집기도 있습니다. AWS Glue Studio의 시각적 편집기를 사용하여 ETL 작업을 신속하게 설계한 다음, 생성된 스크립트를 편집하여 작업의 고유한 구성 요소에 대한 코드를 작성할 수 있습니다.

새 작업을 생성할 때 Spark 작업 또는 Python 셸 작업에 대한 스크립트를 작성하도록 선택할 수 있습니다. Python 또는 Scala를 사용하여 Spark 작업에 대한 작업 ETL 스크립트를 코딩할 수 있습니다. Python 셸 작업을 생성하는 경우 작업 ETL 스크립트는 Python 3.6을 사용합니다.

AWS Glue Studio의 스크립트 편집기 인터페이스는 다음과 같은 기능을 제공합니다.

  • 스크립트에서 원본, 대상 및 변환을 삽입, 수정 및 삭제합니다.

  • 데이터 원본, 대상 및 변환에 대한 인수를 추가하거나 수정합니다.

  • 구문 및 키워드 강조 표시

  • 로컬 단어, Python 키워드 및 코드 조각에 대한 자동 완성 제안.

작업 성능 대시보드

AWS Glue Studio는 ETL 작업에 대한 포괄적인 실행 대시보드를 제공합니다. 대시보드에는 특정 기간의 작업 실행에 대한 정보가 표시됩니다. 대시보드에 표시되는 정보는 다음과 같습니다.

  • 작업 개요 요약 - 총 작업, 현재 실행, 완료된 실행 및 실패한 작업을 보여주는 개괄적인 개요입니다.

  • 상태 요약 - 작업자 유형 및 작업 유형과 같은 작업 속성을 기반으로 개괄적인 작업 지표를 제공합니다.

  • 작업 실행 시간 표시줄 - 현재 선택한 기간 동안의 성공, 실패 및 총 실행의 막대 그래프 요약입니다.

  • 작업 실행 분석 - 선택한 시간대의 작업 실행 세부 목록입니다.

데이터 집합 분할 지원

AWS Glue Studio를 사용하여 분할된 데이터 집합을 효율적으로 처리할 수 있습니다. Amazon S3에서 불필요한 데이터를 나열하고 읽는 것을 방지하기 위해 SQL 표현식 또는 사용자 정의 함수를 사용하여 분할된 데이터를 로드, 필터링, 변환 및 저장할 수 있습니다.

언제 AWS Glue Studio를 사용해야 합니까?

간단한 시각적 인터페이스를 위해 AWS Glue Studio를 사용하여 데이터를 정리하고 변환하는 ETL 워크플로를 생성하고 AWS Glue에서 실행합니다.

AWS Glue Studio를 사용하면 ETL 개발자가 반복 가능한 프로세스를 쉽게 생성하여 대규모의 반정형 데이터 집합을 이동 및 변환하고 데이터 레이크와 데이터 웨어하우스에 로드할 수 있습니다. 선택적으로 코드를 사용하여 사용자 지정할 수 있는 AWS Glue ETL 워크플로를 개발하고 관리하기 위한 상자 및 화살표 스타일의 시각적 인터페이스를 제공합니다. AWS Glue Studio는 기존 ETL 도구의 사용 편의성과 AWS Glue 빅 데이터 처리 엔진의 강력한 기능 및 유연성을 결합합니다.

AWS Glue Studio는 시각적 편집기에서 코드 조각을 나타내는 노드를 추가하는 등 ETL 스크립트를 사용자 지정하는 여러 가지 방법을 제공합니다.

보다 간편한 작업 관리를 위해 AWS Glue Studio를 사용하세요. AWS Glue Studio는 작업이 서로 어떻게 관련되어 있는지를 명확하게 설명하고 작업 실행의 전반적인 진행 상황을 표시하는 작업 및 작업 실행 관리 인터페이스를 제공합니다. 작업 관리 페이지를 사용하면 작업에 대한 대량 작업을 쉽게 수행할 수 있습니다(이전에는 AWS Glue 콘솔에서 수행하기 어려웠음). 모든 작업 실행은 검색하고 필터링할 수 있는 단일 인터페이스에서 사용할 수 있습니다. 이를 통해 ETL 작업 및 사용하는 리소스에 대한 지속적으로 업데이트된 뷰가 제공됩니다. AWS Glue Studio의 실시간 대시보드를 사용하여 작업 실행을 모니터링하고 의도한 대로 작동하는지 검증할 수 있습니다.

AWS Glue Studio에 액세스

AWS Glue Studio에 액세스하려면 AWS Glue Studio에 대한 IAM 권한 설정에 설명된 것처럼 필요한 권한이 있는 사용자로 AWS에 로그인합니다. 그런 다음 AWS Management Console에 로그인하고 https://console.aws.amazon.com/glue/에서 AWS Glue 콘솔을 열 수 있습니다. 탐색 창에서 AWS Glue Studio 링크를 클릭합니다.

AWS Glue Studio 요금

AWS Glue Studio를 사용하는 경우 데이터 미리 보기에 대한 요금이 부과됩니다. 작업에 대한 IAM 역할을 지정하면 시각적 편집기가 원본 데이터를 샘플링하고 변환을 실행하기 위한 Apache Spark 세션을 시작합니다. AWS는 개발 엔드포인트 요금(DEVED-DPU-Hour)으로 2개의 DPU에 대해 요금을 청구하며 일반적으로 30분 세션마다 0.44 USD의 요금이 부과됩니다. 요금은 리전마다 다를 수 있습니다. 30분 세션이 끝나면 모든 노드의 [데이터 미리 보기(Data preview)] 탭에서 [재시도(Retry)]를 선택하거나 시각적 편집기 페이지를 다시 로드하여 동일한 속도로 새 30분 세션을 시작할 수 있습니다.

또한 작업에서 사용하거나 상호 작용하는 기본 AWS 서비스(예: AWS Glue, 데이터 원본 및 데이터 대상)에 대한 비용도 지불합니다. 요금 정보는 AWS Glue 요금을 참조하십시오.