에서 외부 데이터 소스로 페더레이션 AWS Glue Data Catalog

연결을 사용하여 AWS Glue Data Catalog (데이터 카탈로그)를 Amazon Redshift, Snowflake와 같은 데이터 웨어하우스, Amazon RDS Amazon DynamoDB, Oracle과 같은 클라우드 데이터베이스, Amazon MSK와 같은 스트리밍 서비스, Teradata와 같은 온프레미스 시스템에 연결할 수 있습니다 AWS Glue . 이러한 연결은에 저장 AWS Glue Data Catalog 되고 AWS Lake Formation에 등록되므로 사용 가능한 각 데이터 소스에 대한 페더레이션 카탈로그를 생성할 수 있습니다.

페더레이션 카탈로그는 외부 데이터 시스템의 데이터베이스를 가리키는 최상위 컨테이너입니다. ETL(추출, 변환 및 로드) 프로세스 없이 외부 데이터 시스템에서 직접 데이터를 쿼리할 수 있습니다.

AWS Glue 연결에 대한 자세한 내용은 AWS Glue 개발자 안내서의 데이터에 연결을 참조하세요.

데이터 레이크 관리자는 Amazon SageMaker Lakehouse 또는를 사용하여 페더레이션 카탈로그를 생성할 수 있습니다Amazon Athena.

그런 다음 데이터 레이크 관리자는 Lake Formation을 사용하여 카탈로그 내 객체에 대한 세분화된 권한을 부여하여 카탈로그, 데이터베이스, 테이블, 열, 행 또는 셀과 같은 다양한 수준에서 액세스를 제어할 수 있습니다. 데이터 분석가는 Athena를 사용하여 카탈로그화된 데이터 소스를 검색하고 쿼리할 수 있으며, Lake Formation은 정의된 액세스 정책을 적용합니다. 분석가는 각 소스에 개별적으로 연결할 필요 없이 단일 쿼리로 여러 소스의 데이터를 조인할 수 있습니다.

주제

워크플로

데이터 레이크 관리자 또는 필요한 권한이 있는 사용자는를 AWS Glue Data Catalog 외부 데이터 소스에 연결하는 다음 단계를 완료합니다.

데이터 소스에 대한 AWS Glue 연결을 생성합니다. 연결을 등록할 때 연결을 등록하는 데 사용되는 IAM 역할은 Lambda 함수 및 Amazon S3 유출 버킷 위치에 액세스할 수 있어야 합니다.
Lake Formation과의 연결을 등록합니다.
AWS Glue 연결을 사용하여 데이터 카탈로그에 페더레이션 카탈로그를 생성하여 사용 가능한 데이터 소스에 연결합니다. 데이터베이스, 테이블 및 뷰는 데이터 카탈로그에 자동으로 카탈로그화되고 Lake Formation에 등록됩니다.
Lake Formation 권한을 사용하여 데이터 분석가에게 특정 카탈로그, 데이터베이스 및 테이블에 대한 액세스 권한을 부여합니다. Lake Formation을 사용하여 데이터 레이크, 웨어하우스 및 OLTP 소스에서 세분화된 액세스 제어 정책을 정의할 수 있으므로 행 수준 및 열 수준 보안 필터를 사용할 수 있습니다.

그러면 데이터 분석가는 별도의 연결이나 데이터 소스 자격 증명 없이 Athena의 SQL 쿼리를 사용하여 데이터 카탈로그를 통해 모든 데이터에 액세스할 수 있습니다. 분석가는 여러 소스의 데이터를 스캔하는 페더레이션 SQL 쿼리를 실행하여 복잡한 데이터 파이프라인 없이 현재 위치의 데이터를 조인할 수 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

추가 리소스

사전 조건