Referência de classes de esquema do AWS Glue - AWS Glue

Referência de classes de esquema do AWS Glue

As bibliotecas para esquemas do AWS Glue definem três classes que você pode usar no script de layout do fluxo de trabalho: Job, Crawler e Workflow.

Classe Job

A classe Job representa um trabalho de ETL do AWS Glue.

Argumentos construtores obrigatórios

Veja os argumentos construtores obrigatórios para a classe Job.

Nome do argumento Tipo Descrição
Name str O nome a ser atribuído ao trabalho. O AWS Glue adiciona um sufixo gerado aleatoriamente ao nome para distinguir o trabalho daqueles criados por outras execuções de esquema.
Role str O nome do recurso da Amazon (ARN) da função que o trabalho deve assumir ao executar.
Command dict Comando Job (Trabalho), conforme especificado em Estrutura JobCommand na documentação da API.
Argumentos construtores opcionais

Veja os argumentos construtores opcionais para a classe Job.

Nome do argumento Tipo Descrição
DependsOn dict Lista de entidades de fluxo de trabalho das quais o trabalho depende. Para ter mais informações, consulte Usar o argumento DependsOn.
WaitForDependencies str Indica se o trabalho deve esperar até que todas as entidades das quais depende sejam concluídas antes de executar ou até que qualquer uma seja concluída. Para ter mais informações, consulte Usar o argumento WaitForDependencies. Omita, se o trabalho depender de apenas uma entidade.
(Propriedades do trabalho) - Qualquer uma das propriedades do trabalho listadas em Estrutura Job na documentação da API do AWS Glue (exceto CreatedOn e LastModifiedOn).

Classe Crawler

A classe Crawler representa um crawler do AWS Glue.

Argumentos construtores obrigatórios

Veja os argumentos construtores obrigatórios para a classe Crawler.

Nome do argumento Tipo Descrição
Name str O nome a ser atribuído ao crawler. O AWS Glue adiciona um sufixo gerado aleatoriamente ao nome para distinguir o trabalho daqueles criados por outras execuções de esquema.
Role str ARN da função que o crawler deve assumir ao executar.
Targets dict Coleção de destinos a serem rastreados. Os argumentos construtores da classe Targets são definidos em Estrutura CrawlerTargets na documentação da API. Todos os argumentos construtores de Targets são opcionais, mas você deve informar pelo menos um.
Argumentos construtores opcionais

Veja os argumentos construtores opcionais para a classe Crawler.

Nome do argumento Tipo Descrição
DependsOn dict Lista de entidades de fluxo de trabalho das quais o crawler depende. Para ter mais informações, consulte Usar o argumento DependsOn.
WaitForDependencies str Indica se o crawler deve esperar até que todas as entidades das quais depende sejam concluídas antes de executar ou até que qualquer uma seja concluída. Para ter mais informações, consulte Usar o argumento WaitForDependencies. Omita, se o crawler depender de apenas uma entidade.
(Propriedades do crawler) - Qualquer uma das propriedades do crawler listadas em Estrutura Crawler na documentação da API do AWS Glue, com as seguintes exceções:
  • State

  • CrawlElapsedTime

  • CreationTime

  • LastUpdated

  • LastCrawl

  • Version

Classe Workflow

A classe Workflow representa um fluxo de trabalho do AWS Glue. O script de layout de fluxo de trabalho retorna um objeto Workflow. AWS Glue cria um fluxo de trabalho com base nesse objeto.

Argumentos construtores obrigatórios

Veja os argumentos construtores obrigatórios para a classe Workflow.

Nome do argumento Tipo Descrição
Name str O nome a ser atribuído ao fluxo de trabalho.
Entities Entities Uma coleção de entidades (trabalhos e crawlers) a serem incluídas no fluxo de trabalho. O construtor da classe Entities aceita um argumento Jobs, que é uma lista de objetos Job, e um argumento Crawlers, que é uma lista de objetos Crawler.
Argumentos construtores opcionais

Veja os argumentos construtores opcionais para a classe Workflow.

Nome do argumento Tipo Descrição
Description str Consulte Estrutura Workflow.
DefaultRunProperties dict Consulte Estrutura Workflow.
OnSchedule str Uma expressão cron.

Classe Methods

Todas as três classes incluem os seguintes métodos.

validate()

Valida as propriedades do objeto e, se forem encontrados erros, emite uma mensagem e sai. Não gera saída se não houver erros. Para a classe Workflow, chama a si mesma em cada entidade no fluxo de trabalho.

to_json()

Serializa o objeto em JSON. Também chama validate(). Para a classe Workflow, o objeto JSON inclui listas de trabalhos e crawlers e uma lista de acionadores gerados pelas especificações de dependência de trabalho e de crawler.