Lake Formation의 청사진 및 워크플로 - AWS Lake Formation

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Lake Formation의 청사진 및 워크플로

워크플로는 복잡한 다중 작업 추출, 전환, 적재(ETL) 활동을 캡슐화합니다. 워크플로는 AWS Glue 크롤러, 작업 및 트리거를 생성하여 데이터 로드 및 업데이트를 조정합니다. Lake Formation은 워크플로를 단일 엔터티로 실행하고 추적합니다. 요청 시 또는 일정에 따라 실행되도록 워크플로를 구성할 수 있습니다.

Lake Formation에서 생성한 워크플로는 AWS Glue 콘솔에서 DAG(방향성 비순환 그래프)로 표시됩니다. 각 DAG 노드는 작업, 크롤러 또는 트리거입니다. 진행 상황을 모니터링하고 문제를 해결하기 위해 워크플로에서 각 노드의 상태를 추적할 수 있습니다.

Lake Formation 워크플로가 완료되면 해당 워크플로를 실행한 사용자에게 워크플로가 생성하는 데이터 카탈로그 테이블에 대한 Lake Formation SELECT 권한이 부여됩니다.

AWS Glue에서 워크플로를 생성할 수도 있습니다. 그러나 Lake Formation을 사용하면 청사진에서 워크플로를 생성할 수 있으므로 Lake Formation에서 워크플로를 생성하는 것이 훨씬 간단합니다. Lake Formation은 다음과 같은 유형의 청사진을 제공합니다.

  • 데이터베이스 스냅샷 - 모든 테이블의 데이터를 JDBC 소스의 데이터 레이크로 로드하거나 다시 로드합니다. 제외 패턴에 따라 소스에서 일부 데이터를 제외할 수 있습니다.

  • 증분 데이터베이스 - 이전에 설정한 북마크를 기반으로 JDBC 소스에서 데이터 레이크로 새 데이터만 로드합니다. 포함시킬 JDBC 소스 데이터베이스의 개별 테이블을 지정합니다. 각 테이블에 대해 북마크 열과 북마크 정렬 순서를 선택하여 이전에 로드된 데이터를 추적할 수 있습니다. 테이블 집합에 대해 증분 데이터베이스 청사진을 처음 실행하면 워크플로는 테이블에서 모든 데이터를 로드하고 다음 증분 데이터베이스 청사진 실행을 위한 북마크를 설정합니다. 따라서 데이터 소스의 각 테이블을 파라미터로 지정하기만 하면 데이터베이스 스냅샷 청사진 대신 증분 데이터베이스 청사진을 사용하여 모든 데이터를 로드할 수 있습니다.

  • 로그 파일 - Elastic Load Balancing 로그 및 Application Load Balancer 로그를 비롯한 AWS CloudTrail로그 파일 소스에서 데이터를 대량으로 로드합니다.

다음 테이블을 참조하면 데이터베이스 스냅샷을 사용할지 증분 데이터베이스 청사진을 사용할지 결정하는 데 도움이 됩니다.

데이터베이스 스냅샷 사용... 증분 데이터베이스 사용...
  • 스키마 개선이 유연합니다. (열 이름이 변경되고, 이전 열이 삭제되며, 새 열이 그 자리에 추가됩니다.)

  • 소스와 대상 간에 완전한 일관성이 필요합니다.

  • 스키마 개선이 점진적입니다. (열 추가만 연속됩니다.)

  • 새 행만 추가되고 이전 행은 업데이트되지 않습니다.

참고

사용자는 Lake Formation에서 생성한 청사진 및 워크플로를 편집할 수 없습니다.