Configurar nós de destino de dados - AWS Glue

Configurar nós de destino de dados

O destino de dados é onde o trabalho grava os dados transformados.

Visão geral das opções de destino de dados

Seu destino de dados (também chamado de coletor de dados) pode ser:

  • S3: o trabalho grava os dados em um arquivo no local do Amazon S3 escolhido e no formato especificado.

    Se você configurar colunas de partição para o destino de dados, o trabalho grava o conjunto de dados no Amazon S3 em diretórios com base na chave de partição.

  • AWS Glue Data Catalog: o trabalho usa as informações associadas à tabela no Data Catalog para gravar os dados de saída em um local de destino.

    É possível criar a tabela manualmente ou com o crawler. Você também pode usar modelos do AWS CloudFormation para criar tabelas no Data Catalog.

  • Um conector: um conector é um pedaço de código que facilita a comunicação entre o armazenamento de dados e o AWS Glue. O trabalho usa o conector e a conexão associada para gravar os dados de saída em um local de destino. Você pode assinar um conector oferecido no AWS Marketplace ou pode criar seu próprio conector personalizado. Para obter mais informações, consulte Adição de conectores ao AWS Glue Studio

Você pode optar por atualizar o Data Catalog quando seu trabalho grava em um destino de dados do Amazon S3. Em vez de exigir que um crawler atualize o Data Catalog quando o esquema ou as partições mudam, essa opção facilita a manutenção das tabelas atualizadas. Essa opção simplifica o processo de disponibilização de dados para análise, adicionando opcionalmente novas tabelas ao Data Catalog e atualizando partições de tabela e o esquema de tabelas diretamente a partir do trabalho.

Editar o nó de destino de dados

O destino de dados é onde o trabalho grava os dados transformados.

Para adicionar ou configurar um nó de destino de dados em seu diagrama de trabalho
  1. (Opcional) se você precisar adicionar um nó de destino, escolha Target (Destino) na barra de ferramentas no topo do editor visual e escolha S3 ou Glue Data Catalog.

    • Se escolher S3 para o destino, o trabalho grava o conjunto de dados em um ou mais arquivos no local do Amazon S3 especificado.

    • Se escolher AWS Glue Data Catalog para o destino, o trabalho grava em um local descrito pela tabela selecionada no Data Catalog.

  2. Escolha um nó de destino dos dados no diagrama de trabalho. Quando você escolhe um nó, o painel de detalhes do nó aparece no lado direito da página.

  3. Escolha a guia Node properties (Propriedades do nó) e insira as seguintes informações:

    • Name (Nome): insira um nome a ser associado ao nó no diagrama de trabalho.

    • Node type (Tipo de nó): um valor já deve estar selecionado, mas você pode alterá-lo conforme necessário.

    • Node parents (Nós pais): o nó pai é o nó no diagrama de trabalho que fornece os dados de saída que você deseja gravar no local de destino. Para um diagrama de trabalho pré-preenchido, o nó de destino já deve ter o nó pai selecionado. Se não houver nenhum nó pai exibido, escolha um nó pai na lista.

      Um nó de destino tem um único nó pai.

  4. Configure as informações de Data target properties (Propriedades do destino dos dados). Para obter mais informações, consulte as seções a seguir:

  5. (Opcional) depois de configurar as propriedades do nó de destino, você pode visualizar o esquema de saída para seus dados escolhendo a guia Output schema (Esquema de saída) no painel de detalhes do nó. Na primeira vez que você escolher essa guia para qualquer nó em seu trabalho, você receberá uma solicitação para fornecer uma função do IAM para acessar os dados. Se você não tiver especificado uma função do IAM na guia Job details (Detalhes do trabalho), você receberá uma solicitação para inserir uma função do IAM aqui.

Uso do Amazon S3 para o destino de dados

Para todas as origens dos dados, exceto o Amazon S3 e os conectores, uma tabela deve existir noAWS Glue Data Catalog para o tipo de origem que você escolher. O AWS Glue Studio não cria a tabela do Data Catalog.

Para configurar um nó de destino de dados que grava no Amazon S3
  1. Vá para o editor visual para um trabalho novo ou salvo.

  2. Escolha um nó de origem dos dados no diagrama de trabalho.

  3. Escolha a guia Data source properties (Propriedades da origem dos dados) e insira as seguintes informações:

    • Format (Formato): escolha um formato na lista. Os tipos de formato disponíveis para os resultados dos dados são:

      • JSON: JavaScript Object Notation.

      • CSV: Comma-separated values (valores separados por vírgula).

      • Avro: JSON binário do Apache Avro.

      • Parquet: Armazenamento em colunas no Apache Parquet.

      • Glue Parquet: um tipo de gravador Parquet personalizado, otimizado como o formato de dados para DynamicFrames. Em vez de exigir um esquema pré-calculado para os dados, ele calcula e modifica o esquema dinamicamente.

      • ORC: formato colunar de linha otimizado (ORC) do Apache.

      Para saber mais sobre essas opções de formato, consulte Opções de formato para entradas e saídas de ETL no AWS Glue no Guia do desenvolvedor do AWS Glue.

    • Compression Type (Tipo de compactação): você pode optar por compactar os dados opcionalmente, usando o formato gzip ou bzip2. O padrão é sem compactação, ou None (Nenhum).

    • S3 Target Location (Local de destino do S3): o bucket do Amazon S3 e o local para a saída de dados. Você pode selecionar o botão Browse S3 (Procurar no S3) para ver os buckets do Amazon S3 aos quais você tem acesso e escolher um como destino.

    • Opções de atualização do Data Catalog

      • Do not update the Data Catalog (Não atualizar o Data Log): (padrão) escolha essa opção se você não quiser que o trabalho atualize o Data Catalog, mesmo que o esquema seja alterado ou novas partições sejam adicionadas.

      • Create a table in the Data Catalog and on subsequent runs, update the schema and add new partitions (Criar uma tabela no Data Catalog e em execuções subsequentes, atualizar o esquema e adicionar novas partições): se você escolher essa opção, o trabalho criará a tabela no Data Catalog na sua primeira execução. Em execuções de trabalho subsequentes, ele atualizará a tabela do Data Catalog, se o esquema for alterado ou novas partições forem adicionadas.

        Você também deve selecionar um banco de dados no Data Catalog e inserir um nome de tabela.

      • Create a table in the Data Catalog and on subsequent runs, keep existing schema and add new partitions (Criar uma tabela no Data Catalog e em execuções subsequentes, manter o esquema atual e adicionar novas partições): se você escolher essa opção, o trabalho criará a tabela no Data Catalog na sua primeira execução. Em execuções de trabalho subsequentes, ele atualizará a tabela do Data Catalog, mas apenas para adicionar novas partições.

        Você também deve selecionar um banco de dados no Data Catalog e inserir um nome de tabela.

      • Partition keys (Chaves de partição): escolha quais colunas usar como chaves de particionamento na saída. Para adicionar mais chaves de partição, escolha Add a partition key (Adicionar uma chave de partição.

Usar as tabelas do Data Catalog para o destino dos dados

Para todas as origens dos dados, exceto o Amazon S3 e os conectores, uma tabela deve existir noAWS Glue Data Catalog para o tipo de destino que você escolher. O AWS Glue Studio não cria a tabela do Data Catalog.

Para configurar as propriedades de dados para um destino que usa uma tabela do Data Catalog
  1. Vá para o editor visual para um trabalho novo ou salvo.

  2. Escolha um nó de destino dos dados no diagrama de trabalho.

  3. Selecione a guia Data target properties (Propriedades do destino de dados) e insira as seguintes informações:

    • Database (Banco de dados): escolha na lista o banco de dados que contém a tabela que você deseja usar como destino. Esse banco de dados já deve existir no Data Catalog.

    • Table (Tabela): escolha na lista a tabela que define o esquema de dados de saída. Essa tabela já deve existir no Data Catalog.

      Uma tabela no Data Catalog consiste em nomes de colunas, definições de tipos de dados, informações de partição e outros metadados relacionados a um conjunto de dados de destino. O trabalho grava em um local descrito por essa tabela no Data Catalog.

      Para obter mais informações sobre como criar tabelas no Data Catalog, consulte Definir tabelas no Data Catalog no Guia do desenvolvedor do AWS Glue.

    • Opções de atualização do Data Catalog

      • Do not change table definition (Não alterar a definição da tabela): (padrão) escolha essa opção se não quiser que o trabalho atualize o Data Catalog, mesmo que o esquema seja alterado ou novas partições sejam adicionadas.

      • Update schema and add new partitions (Atualizar esquema e adicionar novas partições): se você escolher essa opção, o trabalho atualizará a tabela do Data Catalog, se o esquema for alterado ou novas partições forem adicionadas.

      • Keep schema and add new partitions (Manter o esquema e adicionar novas partições): se você escolher essa opção, o trabalho atualizará a tabela do Data Catalog, mas apenas para adicionar novas partições.

      • Partition keys (Chaves de partição): escolha quais colunas usar como chaves de particionamento na saída. Para adicionar mais chaves de partição, escolha Add a partition key (Adicionar uma chave de partição.

Usar um conector para o destino de dados

Se você selecionar um conector como Node type (Tipo de nó), siga as instruções em Criação de trabalhos com conectores personalizados para concluir a configuração das propriedades do destino dos dados.