AWS Glue 블루프린트 클래스 참조 - AWS Glue

AWS Glue 블루프린트 클래스 참조

AWS Glue 블루프린트용 라이브러리는 워크플로 레이아웃 스크립트에서 사용하는 세 가지 클래스인 Job, CrawlerWorkflow를 정의합니다.

작업 클래스

Job 클래스는 AWS Glue ETL 작업을 나타냅니다.

필수 생성자 인수

다음은 Job 클래스에 대한 필수 생성자 인수입니다.

인수 이름 유형 설명
Name str 작업에 할당할 이름입니다. AWS Glue는 작업을 다른 블루프린트 실행에서 생성된 작업과 구별하기 위해 이름에 임의로 생성된 접미사를 추가합니다.
Role str 실행 중 작업이 수임해야 하는 역할의 Amazon 리소스 이름(ARN)입니다.
Command dict API 문서의 JobCommand 구조에 지정된 작업 명령.
선택적 생성자 인수

다음은 Job 클래스에 대한 선택적 생성자 인수입니다.

인수 이름 유형 설명
DependsOn dict 작업이 종속된 워크플로 엔터티의 목록입니다. 자세한 정보는 DependsOn 인수 사용을 참조하십시오.
WaitForDependencies str 작업이 종속된 모든 엔터티가 실행되기 전에 완료될 때까지 기다릴지 아니면 하나라도 완료될 때까지 기다릴지 나타냅니다. 자세한 정보는 WaitForDependencies 인수 사용을 참조하십시오. 작업이 하나의 엔티티에만 종속되는 경우 생략합니다.
(작업 속성) - AWS Glue API 설명서의 작업 구조에 나열된 모든 작업 속성(CreatedOnLastModifiedOn 제외)입니다.

크롤러 클래스

Crawler 클래스는 AWS Glue 크롤러를 나타냅니다.

필수 생성자 인수

다음은 Crawler 클래스에 대한 필수 생성자 인수입니다.

인수 이름 유형 설명
Name str 크롤러에 할당할 이름입니다. AWS Glue는 크롤러를 다른 블루프린트 실행에서 생성된 크롤러와 구별하기 위해 이름에 임의로 생성된 접미사를 추가합니다.
Role str 크롤러가 실행 중 수임해야 하는 역할의 ARN입니다.
Targets dict 크롤링할 대상 컬렉션입니다. Targets 클래스 생성자 인수는 API 문서의 CrawlerTargets 구조에 정의되어 있습니다. 모두 Targets 생성자 인수는 선택 사항이지만 적어도 하나는 전달해야합니다.
선택적 생성자 인수

다음은 Crawler 클래스에 대한 선택적 생성자 인수입니다.

인수 이름 유형 설명
DependsOn dict 크롤러가 종속된 워크플로 엔터티의 목록입니다. 자세한 정보는 DependsOn 인수 사용을 참조하십시오.
WaitForDependencies str 크롤러가 종속된 모든 엔터티가 실행되기 전에 완료될 때까지 기다릴지 아니면 하나라도 완료될 때까지 기다릴지 나타냅니다. 자세한 정보는 WaitForDependencies 인수 사용을 참조하십시오. 크롤러가 하나의 엔티티에만 종속된 경우에는 생략합니다.
(크롤러 속성) - 다음 예외사항과 함께 AWS Glue API 설명서의 크롤러 구조에 나열된 모든 크롤러 속성:
  • State

  • CrawlElapsedTime

  • CreationTime

  • LastUpdated

  • LastCrawl

  • Version

워크플로 클래스

Workflow 클래스는 AWS Glue 워크플로를 나타냅니다. 워크플로 레이아웃 스크립트는 Workflow 객체를 반환합니다. AWS Glue에서는 이 객체를 기반으로 하여 워크플로를 생성합니다.

필수 생성자 인수

다음은 Workflow 클래스에 대한 필수 생성자 인수입니다.

인수 이름 유형 설명
Name str 워크플로에 할당할 이름입니다.
Entities Entities 워크플로에 포함할 엔터티 (작업 및 크롤러)의 컬렉션입니다. Entities 클래스 생성자는 Crawler 객체의 목록인 Crawlers 인수와 Job 객체의 목록인 Jobs 인수를 허용합니다.
선택적 생성자 인수

다음은 Workflow 클래스에 대한 선택적 생성자 인수입니다.

인수 이름 유형 설명
Description str 워크플루 구조 섹션을 참조하세요.
DefaultRunProperties dict 워크플루 구조 섹션을 참조하세요.
OnSchedule str cron 표현식입니다.

클래스 메서드

세 클래스 모두 다음 메서드를 포함합니다.

validate()

객체의 속성을 검증하고 오류가 발견되면 메시지를 출력하고 종료합니다. 오류가 없으면 출력을 생성하지 않습니다. Workflow 클래스의 경우 워크플로의 모든 엔터티에서 자신을 호출합니다.

to_json()

객체를 JSON으로 직렬화합니다. 또한 validate()를 호출합니다. Workflow 클래스의 경우 JSON 객체에는 작업 및 크롤러 목록과 작업 및 크롤러 종속성 사양에 의해 생성된 트리거 목록이 포함됩니다.