AWS Lake Formation(이)란 무엇인가요? - AWS Lake Formation

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS Lake Formation(이)란 무엇인가요?

AWS Lake Formation 개발자 안내서에 오신 것을 환영합니다.

AWS Lake Formation운 분석 및 기계 학습을 위한 데이터를 중앙에서 관리하고, 보호하고, 전 세계적으로 공유할 수 있도록 지원합니다. Lake Formation을 사용하면 Amazon Simple Storage Service(S3) 의 데이터 레이크 데이터와 AWS Glue Data Catalog의 해당 메타데이터에 대한 세분화된 액세스 제어를 관리할 수 있습니다.

Lake Formation은 IAM 권한 모델을 보강하는 자체 권한 모델을 제공합니다. Lake Formation 권한 모델을 사용하면 관계형 데이터베이스 관리 시스템(RDBMS)과 마찬가지로 간단한 권한 부여 또는 취소 메커니즘을 통해 데이터 레이크에 저장된 데이터에 세분화된 액세스가 가능합니다. Lake Formation 권한은 Amazon Athena, Amazon QuickSight, Amazon Redshift Spectrum, Amazon EMR 및 AWS Glue 등을 비롯한 AWS 분석 및 기계 학습 서비스 전반에 걸쳐 열, 행 및 셀 수준에서 세분화된 제어를 통해 적용됩니다.

의 Lake Formation 하이브리드 액세스 모드를 AWS Glue Data Catalog 사용하면 Amazon S3 및 작업에 대한 Lake Formation 권한과 IAM 권한 정책을 모두 사용하여 카탈로그에 포함된 데이터를 보호하고 액세스할 수 있습니다. AWS Glue 데이터 관리자는 하이브리드 액세스 모드를 통해 한 번에 하나의 데이터 레이크 사용 사례에 집중하여 Lake Formation 권한을 선택적, 점진적으로 온보딩할 수 있습니다.

또한 Lake Formation을 사용하면 여러 AWS 계정, AWS 조직에서 내부 및 외부적으로 데이터를 공유하거나 다른 계정의 IAM 보안 주체와 직접 데이터를 공유하여 AWS Glue Data Catalog 메타데이터 및 기본 데이터에 대한 세분화된 액세스를 제공할 수 있습니다.

Lake Formation 기능

Lake Formation을 사용하면 데이터 사일로를 제거하고 다양한 유형의 정형 및 비정형 데이터를 중앙 집중식 리포지토리에 결합할 수 있습니다. 먼저 Amazon S3 또는 관계형 및 NoSQL 데이터베이스의 기존 데이터 스토어를 식별하고 데이터를 데이터 레이크로 이동합니다. 그런 다음 분석을 위해 데이터를 크롤링하고 분류하고 준비합니다. 다음으로, 사용자가 선택한 분석 서비스를 통해 데이터에 대한 안전한 셀프 서비스 액세스를 제공합니다.

데이터 수집 및 관리

이미 AWS에 있는 데이터베이스에서 데이터 가져오기

기존 데이터베이스의 위치를 지정하고 액세스 보안 인증을 제공하면 Lake Formation이 데이터와 해당 메타데이터(스키마)를 읽고 데이터 소스의 내용을 이해합니다. 그런 다음 데이터를 새 데이터 레이크로 가져와 중앙 카탈로그에 메타데이터를 기록합니다. Lake Formation을 사용하면 Amazon RDS에서 실행되거나 Amazon EC2에서 호스팅되는 MySQL, PostgreSQL, SQL Server, MariaDB 및 Oracle 데이터베이스에서 데이터를 가져올 수 있습니다. 대량 및 증분 데이터 로드가 모두 지원됩니다.

기타 외부 소스에서 데이터 가져오기

Lake Formation을 사용하면 JDBC(Java Database Connectivity)와 연결하여 온프레미스 데이터베이스에서 데이터를 이동할 수 있습니다. 대상 소스를 식별하고 콘솔에서 액세스 보안 인증을 제공하면 Lake Formation이 데이터를 읽고 데이터 레이크에 로드합니다. 위에 나열된 데이터베이스 이외의 다른 데이터베이스에서 데이터를 가져오려면 AWS Glue를 사용하여 사용자 지정 ETL 작업을 생성하면 됩니다.

데이터 분류 및 레이블 지정

AWS Glue 크롤러를 사용하여 Amazon S3에서 데이터를 읽고 데이터베이스 및 테이블 스키마를 추출하여 검색 가능한 AWS Glue Data Catalog에 데이터를 저장할 수 있습니다. 그런 다음 Lake Formation Lake Formation 태그 기반 액세스 제어(TBAC)를 사용하여 데이터베이스, 테이블 및 열에 대한 권한을 관리합니다. 데이터 카탈로그에 테이블을 추가하는 방법에 대한 자세한 내용은 데이터 카탈로그 테이블 및 데이터베이스 생성 섹션을 참조하세요.

보안 관리

액세스 제어 정의 및 관리

Lake Formation은 데이터 레이크의 데이터에 대한 액세스 제어를 관리할 수 있는 단일 장소를 제공합니다. 데이터베이스, 테이블, 열, 행 및 셀 수준에서 데이터에 대한 액세스를 제한하는 보안 정책을 정의할 수 있습니다. 이러한 정책은 외부 자격 증명 공급자를 통해 페더레이션할 때 IAM 사용자 및 역할, 사용자 및 그룹에 적용됩니다. 세분화된 제어를 사용하여 Amazon Redshift Spectrum, Athena, AWS Glue ETL 및 Amazon EMR for Apache Spark 내에서 Lake Formation으로 보호되는 데이터에 액세스할 수 있습니다. IAM 자격 증명을 생성할 때마다 IAM 모범 사례를 따라야 합니다. 자세한 내용은 IAM 사용 설명서의 보안 모범 사례를 참조하세요.

하이브리드 액세스 모드

Lake Formation 하이브리드 액세스 모드는 AWS Glue Data Catalog의 데이터베이스 및 테이블에 대한 Lake Formation 권한을 선택적으로 활성화할 수 있는 유연성을 제공합니다. 하이브리드 액세스 모드를 사용하면 이제 다른 기존 사용자 또는 워크로드의 권한 정책을 중단하지 않고 특정 사용자 집합에 대해 Lake Formation 권한을 설정할 수 있는 증분 경로가 제공됩니다. 자세한 설명은 하이브리드 액세스 모드 섹션을 참조하세요.

감사 로깅 구현

Lake Formation은 CloudTrail 액세스를 모니터링하고 중앙에서 정의된 정책의 준수 여부를 확인할 수 있는 포괄적인 감사 로그를 제공합니다. Lake Formation을 통해 데이터 레이크의 데이터를 읽는 분석 및 기계 학습 서비스 전반에서 데이터 액세스 기록을 감사할 수 있습니다. 이를 통해 어떤 사용자 또는 역할이 언제 어떤 서비스를 통해 어떤 데이터에 액세스하려고 시도했는지 확인할 수 있습니다. CloudTrailAPI와 콘솔을 사용하여 다른 로그에 액세스하는 것과 동일한 방식으로 감사 CloudTrail 로그에 액세스할 수 있습니다. CloudTrail 로그에 대한 자세한 내용은 을 참조하십시오AWS CloudTrail을 사용하여 AWS Lake Formation API 호출 로깅.

행 및 셀 수준 보안

Lake Formation은 열과 행의 조합에 대한 액세스를 제한할 수 있는 데이터 필터를 제공합니다. 행 및 셀 수준의 보안을 사용하여 개인 식별 정보(PII)와 같은 민감한 데이터를 보호합니다. 행 수준 보안에 대한 자세한 내용은 데이터 필터링 개요 섹션을 참조하세요.

태그 기반 액세스 제어

Lake Formation 태그 기반 액세스 제어를 사용하면 LF-tag라는 사용자 지정 레이블을 생성하여 수백 또는 수천 개의 데이터 권한을 관리할 수 있습니다. 이제 LF-태그를 정의하여 데이터베이스, 테이블 또는 열에 첨부할 수 있습니다. 그런 다음 분석, 기계 학습(ML), 추출, 변환, 로드(ETL) 서비스 전반에서 제어된 액세스를 공유하여 사용할 수 있습니다. LF 태그를 사용하면 수천 개의 리소스에 대한 정책 정의를 몇 개의 논리적 태그로 대체하여 데이터 거버넌스를 쉽게 확장할 수 있습니다. Lake Formation은 이 메타데이터에 대한 텍스트 기반 검색을 제공하므로 사용자가 분석에 필요한 데이터를 빠르게 찾을 수 있습니다.

교차 계정 액세스

Lake Formation 권한 관리 기능은 중앙 집중식 접근 방식을 통해 여러 AWS 계정에 분산된 데이터 레이크의 보안 및 관리를 단순화하여 데이터 카탈로그 및 Amazon S3 위치에 대한 세분화된 액세스 제어를 제공합니다. 자세한 설명은 Lake Formation에서의 교차 계정 데이터 공유 섹션을 참조하세요.

데이터 공유

데이터 공유 기능을 사용하면 데이터나 메타데이터를 Amazon S3 또는 AWS Glue Data Catalog로 마이그레이션하지 않고도 Amazon Redshift와 같은 다양한 데이터 소스에 저장된 데이터 세트에 대한 권한을 설정할 수 있습니다. 다음과 같은 방법을 사용하여 Lake Formation에서 데이터를 공유할 수 있습니다.

자세한 내용은 Lake Formation에서 데이터 공유를 참조하세요.

  • Lake Formation을 Amazon Redshift 데이터 공유와 통합 - Lake Formation을 사용하면 Amazon Redshift 데이터 공유의 데이터베이스, 테이블, 열 및 행 수준 액세스 권한을 중앙에서 관리하고 데이터 공유 내의 객체에 대한 사용자 액세스를 제한할 수 있습니다.

  • 외부 메타스토어에 AWS Glue Data Catalog 연결 - Lake Formation을 사용하여 외부 메타스토어에 AWS Glue Data Catalog를 연결하고 Amazon S3의 데이터 세트에 대한 액세스 권한을 관리합니다. AWS Glue Data Catalog에 메타데이터를 마이그레이션할 필요가 없습니다.

    자세한 내용은 외부 메타스토어를 사용하는 데이터 세트에 대한 권한 관리을(를) 참조하세요.

  • Lake Formation과 AWS Data Exchange 통합 — Lake Formation은 AWS Data Exchange를 통해 데이터에 대한 라이선싱 액세스를 지원합니다. Lake Formation 데이터 라이선싱에 관심이 있는 경우 AWS Data Exchange 사용 설명서의 AWS Data Exchange란 무엇인가요?를 참조하세요.

Lake Formation 시작하기

다음 단원부터 시작하는 것이 좋습니다.

  • AWS Lake Formation: 작동 방식 - 필수 용어와 다양한 구성 요소가 상호 작용하는 방식에 대해 알아봅니다.

  • Lake Formation 시작하기 - 필수 조건에 대한 정보를 얻고 중요한 설정 작업을 완료합니다.

  • 자습서— step-by-step 튜토리얼을 따라 Lake Formation을 사용하는 방법을 알아보세요.

  • AWS Lake Formation의 보안 - Lake Formation의 데이터에 대한 보안 액세스를 지원하는 방법을 알아봅니다.