기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
중요 기능 및 개념
로깅 및 모니터링
AWS Glue 에는 여러 로깅 및 모니터링 옵션이 있습니다. 기본적으로는 Amazon CloudWatch의 로그 그룹에 aws-glue
로그를 AWS Glue 보냅니다. 이러한 로그에는 시작 및 종료 시간, 구성 설정, 발생했을 수 있는 모든 오류 또는 경고와 같은 정보가 포함됩니다.
또한 AWS Glue Spark ETL 작업은 고급 모니터링을 위해 활성화해야 하는 다음 옵션을 제공합니다.
-
작업 지표는 30초마다 CloudWatch의 AWS Glue 네임스페이스에 작업별 지표를 보고합니다. 처리된 레코드, 총 입력/출력 데이터 크기, 런타임과 같은 작업별 지표는 작업 성능에 대한 통찰력을 제공합니다. 이를 통해 병목 현상이나 구성을 최적화할 기회를 파악하는 데 도움을 얻을 수 있습니다.
-
연속 로깅은 실시간 Apache Spark 작업 로그를 CloudWatch의
/aws-glue/jobs/logs-v2
로그 그룹으로 스트리밍합니다. 실시간 로그를 사용하면 AWS Glue 작업이 실행되는 동안 동적으로 모니터링할 수 있습니다. -
Spark UI는 각 단계의 이벤트 타임라인, 방향성 비순환 그래프, 작업 환경 변수 등 Spark 작업에 대한 정보를 볼 수 있는 Spark 기록 서버 웹 인터페이스를 제공합니다. 지속된 Spark UI 이벤트 로그는 Amazon S3에 저장되며, 실시간으로 또는 작업이 완료된 후에 사용할 수 있습니다.
-
작업 실행 통찰력은 일반적인 Spark 예외를 수신하고, 근본 원인 분석을 수행하고, 문제 해결을 위한 권장 조치를 제공함으로써 작업 디버깅 및 최적화를 단순화합니다. 이 통찰력은 CloudWatch에 저장됩니다.
자동화
AWS Glue 는 ETL 작업을 자동화하는 두 가지 주요 방법인 트리거와 워크플로를 제공합니다.
AWS Glue 트리거
실행되면 AWS Glue 트리거가 지정된 작업과 크롤러를 시작합니다. 트리거는 온디맨드로, 사전 정의된 일정에 따라, 또는 특정 이벤트를 기반으로 트리거될 수 있습니다. 트리거를 사용하여 종속 작업과 크롤러의 체인을 설계할 수 있습니다. 자세한 내용은 AWS Glue 트리거를 참조하십시오.
AWS Glue 워크플로
더 복잡한 워크로드의 경우 AWS Glue 워크플로를 사용하여 방향성 비순환 그래프를 생성하고 별도의 AWS Glue 엔터티(트리거, 크롤러 및 작업) 간에 종속성을 구축할 수 있습니다. 또한 워크플로는 매개 변수를 공유하고, 진행 상황을 모니터링하고, 관련 엔터티 간에 문제를 해결할 수 있는 통합 인터페이스를 제공합니다.
AWS Glue 워크플로 내에서 많은 관련 엔터티를 설정하는 것은 점점 더 복잡해질 수 있습니다. 개발자는 복잡한 데이터 파이프라인을 데이터 과학자 및 비즈니스 분석가와 공유하기 위한 AWS Glue 청사진
AWS Glue 블루프린트 및 워크플로에 대한 자세한 내용은 의 블루프린트 및 워크플로를 사용하여 복잡한 ETL 활동 수행을 참조하세요 AWS Glue.
다른 AWS 서비스를 사용하여 AWS Glue 작업 오케스트레이션
더 많은 자동화 옵션을 위해는 AWS Lambda AWS Step Functions, 및 Amazon Managed Workflows for Apache Airflow(Amazon MWAA)와 같은 다른 AWS 서비스와 AWS Glue 통합합니다.
AWS Glue ETL 작업에 대한 다양한 오케스트레이션 방법을 비교하려면 운영상 우수한 데이터 파이프라인 구축을 참조하세요.
작업 북마크
의 작업 북마크 AWS Glue 는 ETL 작업의 진행 상황을 추적하는 데 사용되므로 후속 작업 실행에서 데이터를 재처리할 필요가 없습니다. 작업 북마크가 활성화되면는 이미 처리된 데이터의 레코드를 AWS Glue 유지합니다. 그런 다음 실행할 때마다 데이터 소스의 새 데이터만 처리합니다. 자세한 내용은 작업 북마크를 사용하여 처리된 데이터 추적을 참조하십시오.