AWS Glue란 무엇입니까? - AWS Glue

문서의 영문과 번역 사이에 충돌이 있는 경우에는 영문 버전을 따릅니다. 번역 버전은 기계 번역을 사용하여 제공합니다.

AWS Glue란 무엇입니까?

AWS Glue는 완전 관리형 추출, 변환 및 로드(ETL) 서비스로, 효율적인 비용으로 간단하게 여러 데이터 스토어 및 데이터 스트림 간에 원하는 데이터를 분류, 정리, 보강, 이동합니다. AWS Glue는 AWS Glue 데이터 카탈로그로 알려진 중앙 메타데이터 리포지토리, 자동으로 Python 및 Scala 코드를 생성하는 ETL 엔진, 그리고 종속성 확인, 작업 모니터링 및 재시도를 관리하는 유연한 스케줄러로 구성됩니다. AWS Glue는 서버리스이므로 설정하거나 관리할 인프라가 없습니다.

AWS Glue는 반정형 데이터와 함께 작동하도록 설계되었습니다. 여기에서는 ETL 스크립트에서 사용할 수 있는 동적 프레임이라는 구성 요소를 소개합니다. 동적 프레임은 데이터를 행과 열로 구성하는 데 사용되는 데이터 추상화인 Apache Spark 데이터 프레임과 유사합니다. 단, 각 레코드가 자기 설명적이므로 처음에는 스키마가 필요하지 않습니다. 동적 프레임을 사용하면 동적 프레임용으로 특별히 설계된 고급 변환 세트와 스키마 유연성을 얻을 수 있습니다. 동적 프레임과 Spark 데이터 프레임 간에 변환할 수 있으므로 AWS Glue 및 Spark 변환을 모두 활용하여 원하는 유형의 분석을 수행할 수 있습니다.

AWS Glue 콘솔을 사용하여 데이터를 발견하고 변환하며 검색 및 쿼리가 가능하도록 만들 수 있습니다. 콘솔은 기초 서비스를 호출하여 필요한 작업을 조직하고 데이터를 변환합니다. AWS Glue API 작업을 사용하여 AWS Glue 서비스로 접속합니다. 또한 익숙한 개발 환경을 사용하여 Python 또는 Scala Apache Spark ETL 코드를 편집, 디버그 및 테스트하는 방법에 대한 상세한 정보를 알아봅니다.

요금 정보는 AWS Glue 요금을 참조하십시오.

언제 AWS Glue를 사용해야 합니까?

AWS Glue를 사용하여 데이터 웨어하우스 또는 데이터 레이크의 스토리지에 데이터를 구성, 정리, 검증 및 포맷할 수 있습니다. AWS 클라우드 데이터를 데이터 스토어로 변환하고 이동할 수 있습니다. 정기 보고 및 분석을 위해 데이터를 개별 정적 또는 스트리밍 데이터 원본에서 데이터 웨어하우스 또는 데이터 레이크로 로드할 수 있습니다. 데이터 웨어하우스 또는 데이터 레이크에 데이터를 저장하면 비즈니스의 여러 다른 부분에서 비롯된 정보를 통합하고 의사 결정을 위한 일반 소스를 제공할 수 있습니다.

AWS Glue는 데이터 웨어하우스 또는 데이터 레이크를 구축할 때 많은 작업을 단순화합니다.

  • 중앙 카탈로그의 데이터 스토어에 대한 메타데이터를 발견하고 분류합니다. 클릭스트림 혹은 프로세스 로그와 같이 반정형 데이터를 실행할 수 있습니다.

  • 예약된 크롤러 프로그램의 테이블 정의로 AWS Glue 데이터 카탈로그를 채웁니다. 크롤러는 분류자 로직을 호출하여 데이터의 스키마, 포맷 및 데이터 유형을 유추합니다. 메타데이터는 AWS Glue 데이터 카탈로그에 테이블로 저장되고 ETL 작업 절차의 권한 부여에 사용됩니다.

  • ETL 스크립트를 소스에서 대상으로 생성하여 데이터를 변환, 평면화 및 보강합니다.

  • 선호에 따라 스키마 변화를 감지하고 적용합니다.

  • 일정 또는 이벤트를 기반으로 ETL 작업 트리거합니다. 작업을 자동적으로 시작하여 데이터를 데이터 웨어하우스 또는 데이터 레이크로 이동합니다. 트리거는 작업간 종속성 흐름을 생성하는 데 사용될 수 있습니다.

  • 실행 시간 지표를 모아서 데이터 웨어하우스 또는 데이터 레이크의 활동을 모니터링합니다.

  • 자동으로 오류 및 재시도를 처리합니다.

  • 필요한 만큼 확장하여 작업을 실행합니다.

서버리스 쿼리가 Amazon S3 데이터 레이크에 반해 실행될 때 AWS Glue를 사용할 수 있습니다. AWS Glue는 Amazon Simple Storage Service(Amazon S3) 데이터를 분류하여 Amazon Athena 및 Amazon Redshift Spectrum에서 쿼리할 수 있도록 만듭니다. 크롤러로 메타데이터를 기본 데이터와 동기화된 채로 남아있습니다. Athena와 Redshift Spectrum는 AWS Glue 데이터 카탈로그 데이터 카탈로그를 사용하여 Amazon S3 데이터 레이크를 직접 쿼리할 수 있습니다. AWS Glue의 경우, 하나의 통합된 인터페이스를 통해 데이터를 다양한 데이터 사일로로 로딩할 필요 없이 데이터를 액세스하고 분석할 수 있습니다.

AWS Glue로 이벤트 중심 ETL 파이프라인을 생성할 수 있습니다. AWS Lambda 함수에서 AWS Glue ETL 작업을 호출하여 새로운 데이터가 Amazon S3에서 사용 가능하게 되자마자 ETL 작업을 실행할 수 있습니다. ETL 작업의 일부로써 AWS Glue 데이터 카탈로그에 새로운 데이터 세트를 등록합니다.

AWS Glue를 사용하여 데이터 자산을 이해합니다. 다양한 AWS 서비스를 사용하여 데이터를 저장하고 AWS Glue 데이터 카탈로그를 사용하여 데이터의 통합 보기를 유지합니다. Data Catalog를 보고 소유한 데이터세트를 빠르게 검색하고 발견하며 관련 메타데이터를 하나의 중앙 리포지토리에 유지합니다. Data Catalog는 외부 Apache Hive Metastore의 드롭인 교체물로 사용됩니다.