로 데이터 가져오기 AWS Glue Data Catalog - AWS Lake Formation

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

로 데이터 가져오기 AWS Glue Data Catalog

AWS Glue Data Catalog (데이터 카탈로그)에서 페더레이션 카탈로그를 생성하고 Amazon S3 데이터 레이크와 Amazon Redshift 데이터 웨어하우스 간에 데이터를 통합할 수 있습니다. 또한 PostgreSQL Amazon DynamoDB, Google BigQuery, MySQL 등의 타사 데이터 소스와 같은 운영 데이터베이스의 데이터를 통합할 수 있습니다. 데이터 카탈로그는 서로 다른 시스템에서 데이터를 더 쉽게 관리하고 검색할 수 있도록 중앙 집중식 메타데이터 리포지토리를 제공합니다.

데이터 카탈로그는 페더레이션 커넥터를 통해 30개 이상의 외부 데이터 소스와 통합됩니다. 이 통합을 사용하면 AWS 먼저 데이터를 수집하기 위해 데이터 파이프라인을 빌드하지 않고도 이러한 외부 소스에서 데이터를 쿼리할 수 있습니다.

외부 데이터를 카탈로그화한 후를 사용하여 데이터 카탈로그에서 데이터 액세스 권한을 AWS Lake Formation 중앙에서 관리할 수 있습니다. 데이터 레이크 관리자는 태그 기반 액세스 제어(LF 태그) 및 명명된 리소스 방법을 사용하여 동일한 계정 또는 여러 계정 내의 다른 IAM 보안 주체(사용자 또는 역할)에게 세분화된 액세스 권한을 부여할 수 있습니다.

LF 태그를 사용하면 데이터 관리자는 도메인 및 민감도 수준과 같은 속성을 기반으로 리소스를 논리적으로 구성하여 권한 관리를 간소화하는 동시에 Athena, Amazon EMR AWS Glue 또는 Redshift Spectrum을 포함한 분석 및 기계 학습 서비스 전반에서 일관된 액세스 제어를 보장할 수 있습니다.

데이터 카탈로그는 외부 데이터 세트 및 외부 메타스토어에 대한 데이터 및 권한을 관리하는 다음과 같은 방법을 제공합니다.

  • Amazon Redshift 데이터 웨어하우스의 데이터를 로 가져오기 AWS Glue Data Catalog - 기존 Amazon Redshift 네임스페이스 또는 클러스터를 데이터 카탈로그에 등록하고 데이터 카탈로그에서 다중 수준 페더레이션 카탈로그를 생성합니다.

    Amazon EMR Serverless 및 Amazon Athena와 같이 Apache Iceberg REST 카탈로그 OpenAPI 사양과 호환되는 모든 쿼리 엔진을 사용하여 데이터에 액세스할 수 있습니다.

  • 외부 데이터 소스에서 데이터 카탈로그로 페더레이션 - AWS Glue 연결을 사용하여 데이터 카탈로그를 외부 데이터 소스에 연결하고 페더레이션 카탈로그를 생성하여 Lake Formation을 사용하여 데이터 세트에 대한 액세스 권한을 중앙에서 관리합니다. 메타데이터를 데이터 카탈로그로 마이그레이션할 필요가 없습니다.

  • Amazon S3 테이블 버킷을 데이터 카탈로그와 통합(미리 보기) - Amazon S3 테이블을 데이터 카탈로그 객체로 게시 및 카탈로그화하고 Lake Formation 콘솔에서 또는 AWS Glue API 작업을 사용하여 카탈로그를 Lake Formation 데이터 위치로 등록할 수 있습니다.

  • 데이터 카탈로그에서 Amazon Redshift 테이블을 관리하기 위한 카탈로그 생성 - 현재 Amazon Redshift 생산자 클러스터 또는 Amazon Redshift 데이터 공유를 사용할 수 없지만 데이터 카탈로그를 사용하여 Amazon Redshift 테이블을 생성하고 관리하고 싶을 수 있습니다. glue:CreateCatalog API 작업 또는 AWS Lake Formation 콘솔을 사용하여 카탈로그 유형을 Redshift로 설정하여 AWS Glue 관리형 카탈로그를 생성하여 시작할 수 Managed Catalog source 있습니다.

  • 데이터 카탈로그를 사용하여 Amazon Redshift 데이터 공유 게시 - 데이터 카탈로그에 Amazon Redshift 데이터 공유를 게시하고 Lake Formation을 사용하여 데이터 공유의 데이터 액세스를 중앙에서 관리하고 사용자 액세스를 제한합니다.

    Amazon Redshift Spectrum을 사용하여 데이터를 쿼리할 수 있습니다.

  • 데이터 카탈로그를 외부 Hive 메타스토어에 연결 - 데이터 카탈로그를 외부 메타스토어에 연결하여 Lake Formation을 사용하여 Amazon S3의 데이터 세트에 대한 액세스 권한을 관리합니다. 메타데이터를 데이터 카탈로그로 마이그레이션할 필요가 없습니다.

  • Lake Formation을 AWS Data Exchange와 통합 - Lake Formation은를 통해 데이터에 대한 라이선스 액세스를 지원합니다 AWS Data Exchange. Lake Formation 데이터에 라이선스를 부여하려면 AWS Data Exchange 사용 설명서란 무엇입니까 AWS Data Exchange?를 참조하세요.