AWS Glue에서 데이터 검색 및 카탈로그 작성 - AWS Glue

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS Glue에서 데이터 검색 및 카탈로그 작성

AWS Glue Data Catalog는 조직의 데이터 세트에 대한 메타데이터를 저장하는 중앙 집중식 리포지토리입니다. 즉, 데이터 소스의 위치, 스키마 및 런타임 메트릭에 대한 인덱스로 동작합니다. 메타데이터는 메타데이터 테이블에 저장되며, 여기서 각 테이블은 단일 데이터 스토어를 나타냅니다.

데이터 소스를 자동으로 스캔하고 메타데이터를 추출하는 크롤러를 사용하여 데이터 카탈로그를 채울 수 있습니다. 크롤러는 AWS 내부(AWS 기반) 및 외부 데이터 소스에 연결할 수 있습니다.

지원되는 데이터 소스에 대한 자세한 내용은 어떤 데이터 스토어를 크롤할 수 있나요? 섹션을 참조하세요.

특정 요구 사항에 따라 테이블 구조, 스키마 및 파티셔닝 구조를 정의하여 데이터 카탈로그에서 수동으로 테이블을 생성할 수도 있습니다.

수동으로 메타데이터 테이블을 생성하는 것에 대한 자세한 내용은 수동으로 메타데이터 정의 섹션을 참조하세요.

데이터 카탈로그에서 이 정보를 사용하여 ETL 작업을 생성하고 모니터링할 수 있습니다. 데이터 카탈로그는 다른 AWS 분석 서비스와 통합되어 데이터 소스에 대한 통합 보기를 제공하므로 데이터를 더 쉽게 관리하고 분석할 수 있습니다.

  • Amazon Athena - SQL을 사용하여 Amazon S3 데이터에 대한 테이블 메타데이터를 데이터 카탈로그에 저장하고 쿼리합니다.

  • AWS Lake Formation - 세분화된 데이터 액세스 정책을 중앙에서 정의하고 관리하며 데이터 액세스를 감사합니다.

  • Amazon EMR - 빅 데이터 처리를 위해 데이터 카탈로그에 정의된 데이터 소스에 액세스합니다.

  • Amazon SageMaker - 기계 학습 모델을 빠르고 확실하게 구축하고, 학습시키고, 배포합니다.

데이터 카탈로그의 주요 기능

다음은 데이터 카탈로그의 주요 기능입니다.

메타데이터 리포지토리

데이터 카탈로그는 중앙 메타데이터 리포지토리로 작동하며, 데이터 소스의 위치, 스키마 및 속성에 대한 정보를 저장합니다. 이 메타데이터는 기존 관계형 데이터베이스 카탈로그와 유사하게 데이터베이스 및 테이블로 구성됩니다.

자동 데이터 검색 기능

AWS Glue 크롤러는 새 데이터 소스나 업데이트된 데이터 소스를 자동으로 검색하고 카탈로그를 작성하여 수동 메타데이터 관리에 따른 오버헤드를 줄이고 데이터 카탈로그가 최신 상태로 유지되도록 보장합니다. 데이터 카탈로그는 데이터 소스의 카탈로그를 작성함으로써 사용자와 애플리케이션이 조직 내에서 사용 가능한 데이터 자산을 더 쉽게 발견하고 이해할 수 있도록 도와주며 데이터 재사용과 협업을 촉진시킵니다.

데이터 카탈로그는 Amazon S3, Amazon RDS, Amazon Redshift, Apache Hive 등을 비롯한 매우 다양한 데이터 소스를 지원합니다. 또한 AWS Glue 크롤러를 사용하여 이러한 소스에서 메타데이터를 자동으로 추론하고 저장할 수 있습니다.

자세한 내용은 크롤러를 사용하여 데이터 카탈로그 채우기 단원을 참조하십시오.

스키마 관리

데이터 카탈로그는 스키마 추론, 진화 및 버전 관리를 포함하여 데이터 소스의 스키마를 자동으로 캡처하고 관리합니다. 데이터 카탈로그에서 AWS Glue ETL 작업을 사용하여 스키마 및 파티션을 업데이트할 수 있습니다.

테이블 최적화

AWS 분석 서비스(예: Amazon Athena 및 Amazon EMR)와 AWS Glue ETL 작업에서 읽기 성능을 향상시키기 위해 데이터 카탈로그는 데이터 카탈로그의 Iceberg 테이블에 대해 관리형 압축(작은 Amazon S3 객체를 큰 객체로 압축하는 프로세스)을 제공합니다. AWS Glue 콘솔, AWS Lake Formation 콘솔, AWS CLI 또는 AWS API를 사용하여 데이터 카탈로그에 있는 개별 Iceberg 테이블에 대한 압축을 활성화하거나 비활성화할 수 있습니다.

자세한 내용은 Iceberg 테이블 최적화 단원을 참조하십시오.

열 통계값

추가 데이터 파이프라인을 설정하지 않고도 Parquet, ORC, JSON, ION, CSV 및 XML과 같은 데이터 형식의 데이터 카탈로그 테이블에 대한 열 수준 통계를 계산할 수 있습니다. 열 통계는 열 내 값에 대한 통찰력을 얻어 데이터 프로필을 이해하는 데 도움이 됩니다. 데이터 카탈로그는 최소값, 최대값, 총 null 값, 총 고유 값, 값의 평균 길이, 실제 값의 총 발생 횟수 등과 같은 열 값에 대한 통계 생성을 지원합니다.

자세한 내용은 열 통계를 사용한 쿼리 성능 최적화 단원을 참조하십시오.

데이터 계보

데이터 카탈로그는 데이터에 대해 수행된 변환 및 작업의 기록을 유지 관리하며, 데이터 계보 정보를 제공합니다. 이 계보 정보는 감사, 규정 준수 및 데이터 출처 이해에 유용합니다.

다른 AWS 서비스와의 통합

데이터 카탈로그는 AWS Lake Formation, Amazon Athena, Amazon Redshift Spectrum, Amazon EMR 등과 같은 다른 AWS 서비스와 원활하게 통합됩니다. 이 통합을 통해 일관된 단일 메타데이터 계층을 사용하여 다양한 데이터 스토어 간에서 데이터를 쿼리하고 분석할 수 있습니다.

보안 및 액세스 제어

AWS Glue는 AWS Lake Formation과 통합되어 Data Catalog 리소스에 대한 세분화된 액세스 제어를 지원하므로 조직의 정책 및 요구 사항에 따라 데이터 자산에 대한 사용 권한을 관리하고 액세스를 보호할 수 있습니다. AWS Glue는 AWS Key Management Service(AWS KMS)와 통합되어 데이터 카탈로그에 저장된 메타데이터를 암호화합니다.