Lake Formation 포메이션의 청사진 및 워크플로우 - AWS Lake Formation

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Lake Formation 포메이션의 청사진 및 워크플로우

워크플로를 사용하여 복잡한 다중 작업 추출, 변환, 로드 (ETL) 활동을 캡슐화합니다. 워크플로는 AWS Glue 크롤러, 작업 및 트리거를 생성하여 데이터 로드 및 업데이트를 조정합니다. Lake Formation은 워크플로를 단일 개체로 실행하고 추적합니다. 요청 시 또는 일정에 따라 실행되도록 워크플로를 구성할 수 있습니다.

Lake Formation에서 생성한 워크플로우는 AWS Glue 콘솔에서 DAG (방향성 비순환 그래프) 로 표시됩니다. 각 DAG 노드는 작업, 크롤러 또는 트리거입니다. 진행 상황을 모니터링하고 문제를 해결하려면 워크플로우에서 각 노드의 상태를 추적할 수 있습니다.

Lake Formation 워크플로가 완료되면 워크플로를 실행한 사용자에게 워크플로우가 만드는 데이터 카탈로그 테이블에 대한 Lake Formation SELECT 권한이 부여됩니다.

에서 AWS Glue 워크플로를 만들 수도 있습니다. 그러나 Lake Formation Formation을 사용하면 청사진에서 워크플로를 만들 수 있으므로 Lake Formation Formation에서는 워크플로를 만드는 것이 훨씬 간단하고 자동화됩니다. Lake Formation 포메이션은 다음과 같은 유형의 청사진을 제공합니다.

  • 데이터베이스 스냅샷 — 모든 테이블의 데이터를 JDBC 소스의 데이터 레이크로 로드하거나 다시 로드합니다. 제외 패턴에 따라 소스에서 일부 데이터를 제외할 수 있습니다.

  • 증분 데이터베이스 — 이전에 설정한 북마크를 기반으로 JDBC 소스에서 새 데이터만 데이터 레이크로 로드합니다. 포함할 JDBC 소스 데이터베이스의 개별 테이블을 지정합니다. 각 테이블에 대해 북마크 열과 북마크 정렬 순서를 선택하여 이전에 로드된 데이터를 추적할 수 있습니다. 테이블 세트에 대해 증분 데이터베이스 블루프린트를 처음 실행하면 워크플로는 테이블의 모든 데이터를 로드하고 다음 증분 데이터베이스 블루프린트 실행을 위한 북마크를 설정합니다. 따라서 데이터 소스의 각 테이블을 파라미터로 지정하면 데이터베이스 스냅샷 블루프린트 대신 증분 데이터베이스 블루프린트를 사용하여 모든 데이터를 로드할 수 있습니다.

  • 로그 파일 — Elastic Load Balancing 로그 및 Application Load Balancer 로그를 비롯한 AWS CloudTrail 로그 파일 소스에서 데이터를 대량으로 로드합니다.

다음 표는 데이터베이스 스냅샷을 사용할지 아니면 증분 데이터베이스 청사진을 사용할지 결정하는 데 도움이 됩니다.

다음과 같은 경우 데이터베이스 스냅샷을 사용하십시오. 다음과 같은 경우 증분 데이터베이스를 사용하십시오.
  • 스키마 진화는 유연합니다. (열 이름이 변경되고 이전 열이 삭제되며 새 열이 그 자리에 추가됩니다.)

  • 소스와 대상 간에 완전한 일관성이 필요합니다.

  • 스키마 진화는 점진적입니다. (컬럼은 연속해서 추가될 뿐입니다.)

  • 새 행만 추가되고 이전 행은 업데이트되지 않습니다.

참고

사용자는 Lake Formation Formation에서 만든 청사진 및 워크플로를 편집할 수 없습니다.