최신 데이터 레이크

Apache Iceberg 소개

Apache Iceberg는 데이터베이스 또는 데이터 웨어하우스에서만 사용할 수 있었던 데이터 레이크 테이블의 기능을 제공하는 오픈 소스 테이블 형식입니다. 확장 및 성능을 위해 설계되었으며 수백 기가바이트가 넘는 테이블을 관리하는 데 적합합니다. Iceberg 테이블의 주요 기능은 다음과 같습니다.

삭제, 업데이트 및 병합. Iceberg는 데이터 레이크 테이블에 사용할 데이터 웨어하우징을 위한 표준 SQL 명령을 지원합니다.
빠른 스캔 계획 및 고급 필터링. Iceberg는 엔진에서 쿼리 계획 및 실행 속도를 높이는 데 사용할 수 있는 파티션 및 열 수준 통계와 같은 메타데이터를 저장합니다.
전체 스키마 진화. Iceberg는 부작용 없이 열 추가, 삭제, 업데이트 또는 이름 변경을 지원합니다.
파티션 진화. 데이터 볼륨 또는 쿼리 패턴이 변경될 때 테이블의 파티션 레이아웃을 업데이트할 수 있습니다. Iceberg는 테이블이 분할된 열을 변경하거나 복합 파티션에 열을 추가하거나 복합 파티션에서 열을 제거할 수 있도록 지원합니다.
숨겨진 파티셔닝. 이 기능은 불필요한 파티션을 자동으로 읽는 것을 방지합니다. 따라서 사용자가 테이블의 파티셔닝 세부 정보를 이해하거나 쿼리에 추가 필터를 추가할 필요가 없습니다.
버전 롤백. 사용자는 트랜잭션 전 상태로 되돌려 문제를 신속하게 해결할 수 있습니다.
시간 이동. 사용자는 테이블의 특정 이전 버전을 쿼리할 수 있습니다.
직렬화 가능한 격리. 테이블 변경은 원자성이므로 독자는 부분적이거나 커밋되지 않은 변경 사항을 볼 수 없습니다.
동시 라이터. Iceberg는 낙관적 동시성을 사용하여 여러 트랜잭션이 성공할 수 있도록 합니다. 충돌이 발생할 경우 작성자 중 한 명이 트랜잭션을 다시 시도해야 합니다.
파일 형식을 엽니다. Iceberg는 Apache Parquet, Apache Avro 및 Apache ORC를 비롯한 여러 오픈 소스 파일 형식을 지원합니다.

요약하면 Iceberg 형식을 사용하는 데이터 레이크는 트랜잭션 일관성, 속도, 규모 및 스키마 진화의 이점을 누릴 수 있습니다. 이러한 기능 및 기타 Iceberg 기능에 대한 자세한 내용은 Apache Iceberg 설명서를 참조하세요.

AWS Apache Iceberg에 대한 지원

Apache Iceberg는 널리 사용되는 오픈 소스 데이터 처리 프레임워크와 Amazon EMR, Amazon Athena, Amazon Redshift, AWS 서비스 등의에서 지원됩니다AWS Glue. 다음 다이어그램은 Iceberg를 기반으로 하는 데이터 레이크의 간소화된 참조 아키텍처를 보여줍니다.

Apache Iceberg의 트랜잭션 데이터 레이크 아키텍처입니다 AWS.

다음은 네이티브 Iceberg 통합을 AWS 서비스 제공합니다. 간접적으로 또는 Iceberg 라이브러리를 패키징하여 Iceberg와 상호 작용할 수 AWS 서비스 있는 추가 기능이 있습니다.

Amazon S3는 내구성, 가용성, 확장성, 보안, 규정 준수 및 감사 기능으로 인해 데이터 레이크를 빌드하기에 가장 좋은 곳입니다. Iceberg는 Amazon S3와 원활하게 상호 작용하도록 설계 및 구축되었으며 Iceberg 설명서에 나열된 많은 Amazon S3 기능을 지원합니다.
Amazon EMR은 Apache Spark, Flink, Trino 및 Hive와 같은 오픈 소스 프레임워크를 사용하여 페타바이트 규모의 데이터 처리, 대화형 분석 및 기계 학습을 위한 빅 데이터 솔루션입니다. Amazon EMR은 사용자 지정 Amazon Elastic Compute Cloud(Amazon EC2) 클러스터, Amazon Elastic Kubernetes Service(Amazon EKS) AWS Outposts또는 Amazon EMR Serverless에서 실행할 수 있습니다.
Amazon Athena는 오픈 소스 프레임워크를 기반으로 구축된 서버리스 대화형 분석 서비스입니다. 오픈 테이블 및 파일 형식을 지원하며 페타바이트 단위의 데이터를 분석하는 간단하고 유연한 방법을 제공합니다. Athena는 Iceberg에 대한 읽기, 시간 이동, 쓰기 및 DDL 쿼리를 기본적으로 지원하고 Iceberg 메타스토어 AWS Glue Data Catalog 에를 사용합니다.
Amazon Redshift는 클러스터 기반 및 서버리스 배포 옵션을 모두 지원하는 페타바이트 규모의 클라우드 데이터 웨어하우스입니다. Amazon Redshift Spectrum은에 등록 AWS Glue Data Catalog 되고 Amazon S3에 저장된 외부 테이블을 쿼리할 수 있습니다. Redshift Spectrum은 Iceberg 스토리지 형식도 지원합니다.
AWS Glue는 분석, 기계 학습(ML) 및 애플리케이션 개발을 위해 여러 소스에서 데이터를 더 쉽게 검색, 준비, 이동 및 통합할 수 있는 서버리스 데이터 통합 서비스입니다. AWS Glue 3.0 이상 버전은 데이터 레이크를 위한 Iceberg 프레임워크를 지원합니다. AWS Glue 를 사용하여 Amazon S3의 Iceberg 테이블에서 읽기 및 쓰기 작업을 수행하거나를 사용하여 Iceberg 테이블로 작업할 수 있습니다 AWS Glue Data Catalog. 삽입, 업데이트, Spark 쿼리 및 Spark 쓰기와 같은 추가 작업도 지원됩니다.
AWS Glue Data Catalog는 Iceberg 테이블을 지원하는 Hive 메타스토어 호환 데이터 카탈로그 서비스를 제공합니다.
AWS Glue 크롤러는에 Iceberg 테이블을 등록하는 자동화를 제공합니다 AWS Glue Data Catalog.
Amazon Data Firehose는 Amazon S3, Amazon Redshift, Amazon OpenSearch Service, Amazon OpenSearch Serverless, Splunk, Apache Iceberg 테이블과 같은 대상과 Datadog, Dynatrace, LogicMonitor, MongoDB, New Relic, Coralogix, Elastic 등 지원되는 타사 서비스 공급자가 소유한 모든 사용자 지정 HTTP 또는 HTTP 엔드포인트에 실시간 스트리밍 데이터를 제공하기 위한 완전 관리형 서비스입니다. Firehose를 사용하면 애플리케이션을 작성하거나 리소스를 관리할 필요가 없습니다. 데이터 생산자가 데이터를 Firehose로 보내도록 구성하면 지정한 대상으로 데이터를 자동 전송합니다. 전송 전에 데이터를 변환하도록 Firehose를 구성할 수도 있습니다.
Amazon SageMaker AI는 Iceberg 형식을 사용하여 Amazon SageMaker AI 특성 저장소에 특성 세트를 저장할 수 있도록 지원합니다.
AWS Lake Formation는 Athena 또는 Amazon Redshift에서 사용하는 Iceberg 테이블을 포함하여 데이터에 액세스할 수 있는 거칠고 세분화된 액세스 제어 권한을 제공합니다. Iceberg 테이블의 권한 지원에 대한 자세한 내용은 Lake Formation 설명서를 참조하세요.

AWS 에는 Iceberg를 지원하는 다양한 서비스가 있지만 이러한 모든 서비스를 다루는 것은이 가이드의 범위를 벗어납니다. 다음 섹션에서는 Amazon EMR 및 Amazon AWS Glue Amazon Athena SQL의 Spark(배치 및 구조화된 스트리밍)에 대해 설명합니다. 다음 섹션에서는 Athena SQL의 Iceberg 지원을 간략하게 살펴봅니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

소개

Athena SQL에서 아이스버그 테이블 시작하기

최신 데이터 레이크

최신 데이터 레이크의 고급 사용 사례

Apache Iceberg 소개

AWS Apache Iceberg에 대한 지원