AWS Glue이란 무엇입니까? - AWS Glue

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS Glue이란 무엇입니까?

AWS Glue는 완전 관리형 추출, 변환 및 로드(ETL) 서비스로, 효율적인 비용으로 간단하게 여러 데이터 스토어 및 데이터 스트림 간에 원하는 데이터를 분류, 정리, 보강, 이동합니다. AWS Glue는 AWS Glue Data Catalog로 알려진 중앙 메타데이터 리포지토리, 자동으로 Python 및 Scala 코드를 생성하는 ETL 엔진, 그리고 종속성 확인, 작업 모니터링 및 재시도를 관리하는 유연한 스케줄러로 구성됩니다. AWS Glue는 서버리스이므로 설정하거나 관리할 인프라가 없습니다.

AWS Glue는 반정형 데이터와 함께 작동하도록 설계되었습니다. 여기에서는 ETL 스크립트에서 사용할 수 있는 동적 프레임이라는 구성 요소를 소개합니다. 동적 프레임은 데이터를 행과 열로 구성하는 데 사용되는 데이터 추상화인 Apache Spark 데이터 프레임과 유사합니다. 단, 각 레코드가 자기 설명적이므로 처음에는 스키마가 필요하지 않습니다. 동적 프레임을 사용하면 동적 프레임용으로 특별히 설계된 고급 변환 세트와 스키마 유연성을 얻을 수 있습니다. 동적 프레임과 Spark 데이터 프레임 간에 변환할 수 있으므로 AWS Glue 및 Spark 변환을 모두 활용하여 원하는 유형의 분석을 수행할 수 있습니다.

AWS Glue 콘솔을 사용하여 데이터를 발견하고 변환하며 검색 및 쿼리가 가능하도록 만들 수 있습니다. 콘솔은 기초 서비스를 호출하여 필요한 작업을 조직하고 데이터를 변환합니다. AWS Glue API 작업을 사용하여 AWS Glue 서비스로 접속합니다. 또한 익숙한 개발 환경을 사용하여 Python 또는 Scala Apache Spark ETL 코드를 편집, 디버그 및 테스트하는 방법에 대한 상세한 정보를 알아봅니다.

요금 정보는 AWS Glue 요금을 참조하십시오.

언제 AWS Glue를 사용해야 합니까?

다음을 수행할 수 있습니다.AWS Glue데이터 웨어하우스 또는 데이터 레이크의 스토리지용 데이터를 조직하고 정리하고 인증하고 인증합니다. 변환하고 이동할 수 있습니다. AWS 클라우드 데이터를 데이터 스토어로 복사합니다. 정기 보고 및 분석을 위해 데이터를 개별 정적 또는 스트리밍 데이터 원본에서 데이터 웨어하우스 또는 데이터 레이크로 로드할 수 있습니다. 데이터 웨어하우스 또는 데이터 레이크에 데이터를 저장하면 비즈니스의 여러 다른 부분에서 비롯된 정보를 통합하고 의사 결정을 위한 일반 소스를 제공할 수 있습니다.

AWS Glue는 데이터 웨어하우스 또는 데이터 레이크를 구축할 때 많은 작업을 단순화합니다.

  • 중앙 카탈로그의 데이터 스토어에 대한 메타데이터를 발견하고 분류합니다. 클릭스트림 혹은 프로세스 로그와 같이 반정형 데이터를 실행할 수 있습니다.

  • 예약된 크롤러 프로그램의 테이블 정의로 AWS Glue Data Catalog를 채웁니다. 크롤러는 분류자 로직을 호출하여 데이터의 스키마, 포맷 및 데이터 유형을 유추합니다. 메타데이터는 AWS Glue Data Catalog에 테이블로 저장되고 ETL 작업 절차의 권한 부여에 사용됩니다.

  • ETL 스크립트를 소스에서 대상으로 생성하여 데이터를 변환, 평면화 및 보강합니다.

  • 선호에 따라 스키마 변화를 감지하고 적용합니다.

  • 일정 또는 이벤트를 기반으로 ETL 작업 트리거합니다. 작업을 자동적으로 시작하여 데이터를 데이터 웨어하우스 또는 데이터 레이크로 이동합니다. 트리거는 작업간 종속성 흐름을 생성하는 데 사용될 수 있습니다.

  • 실행 시간 지표를 모아서 데이터 웨어하우스 또는 데이터 레이크의 활동을 모니터링합니다.

  • 자동으로 오류 및 재시도를 처리합니다.

  • 필요한 만큼 확장하여 작업을 실행합니다.

다음을 수행할 수 있습니다.AWS GlueAmazon S3 데이터 레이크에 대해 서버를 사용하지 않는 쿼리를 실행할 때 AWS GlueAmazon S3 (Amazon Simple Storage Service) 데이터를 카탈로그로 분류하여 Amazon Athena 및 Amazon Redshift Spectrum 를 사용하여 쿼리할 수 있습니다. 크롤러로 메타데이터는 기본 데이터와 동기화된 상태를 유지합니다. Athena Redshift 스펙트럼을 사용하여 Amazon S3 데이터 레이크를 직접 쿼리할 수 있습니다.AWS Glue Data Catalog. AWS Glue의 경우, 하나의 통합된 인터페이스를 통해 데이터를 다양한 데이터 사일로로 로딩할 필요 없이 데이터를 액세스하고 분석할 수 있습니다.

다음을 수행할 수 있습니다. ETL 파이프라인을 생성할 수 있습니다.AWS Glue. Amazon S3 에서 새 데이터를 사용할 수 있게 되자마자 ETL 작업을 실행할 수 있습니다.AWS Glue에서 ETL 작업 작업AWS Lambda함수를 사용합니다. ETL 작업의 일부로써 AWS Glue Data Catalog에 새로운 데이터 세트를 등록합니다.

다음을 수행할 수 있습니다.AWS Glue를 사용하여 데이터 자산을 이해합니다. 당신은 다양한 사용하여 데이터를 저장할 수 있습니다AWS서비스를 사용하여 데이터의 통합 보기를 유지합니다.AWS Glue Data Catalog. 데이터 카탈로그를 보고 소유한 데이터세트를 빠르게 검색하고 발견하며 관련 메타데이터를 하나의 중앙 리포지토리에 유지합니다. 데이터 카탈로그는 외부 Apache Hive Metastore의 드롭인 교체물로 사용됩니다.