Trabalhar com crawlers no console do AWS Glue - AWS Glue

Trabalhar com crawlers no console do AWS Glue

Um crawler acessa seu armazenamento de dados, extrai metadados e cria definições de tabela do AWS Glue Data Catalog. O painel Crawlers no console do AWS Glue lista todos os crawlers que você cria. A lista exibe status e métricas da última execução do seu crawler.

nota

Se você optar por trazer suas próprias versões do driver JDBC, os crawlers do AWS Glue consumirão recursos em trabalhos do AWS Glue e buckets do Amazon S3 para garantir que o driver fornecido seja executado em seu ambiente. O uso adicional de recursos será refletido em sua conta. Além disso, fornecer seu próprio driver JDBC não significa que o crawler seja capaz de aproveitar todos os atributos do driver. Os drivers estão limitados às propriedades descritas em Adicionar uma conexão do AWS Glue.

Para adicionar um crawler usando o console
  1. Faça login no Console de Gerenciamento da AWS e abra o console do AWS Glue em https://console.aws.amazon.com/glue/. Escolha Crawlers no painel de navegação.

  2. Escolha Adicionar crawler e siga as instruções no assistente Adicionar crawler. O assistente o guiará pelas etapas a seguir.

    1. Defina as propriedades do crawler. Insira um nome e uma descrição (opcional) para o crawler.

      Opcionalmente, você pode marcar o crawler com uma Tag key (Chave de tag) e um Tag value (Valor de tag) opcional. Depois de serem criadas, as chaves de tag são somente leitura. Use as tags em alguns recursos para ajudar a organizá-los e identificá-los. Para ter mais informações, consulte Etiquetas da AWS no AWS Glue.

    2. Escolha as fontes de dados e os classificadores. Em Configuração da fonte de dados, escolha “Ainda não” ou “Sim” para responder à pergunta “Seus dados estão mapeados para as tabelas do AWS Glue? A opção "Ainda não" está selecionada por padrão.

      Se seus dados já estiverem mapeados para as tabelas do AWS Glue, escolha Adicionar uma fonte de dados. Para ter mais informações, consulte Adicionar uma conexão do AWS Glue.

      Na janela Adicionar fonte de dados, escolha a fonte de dados e as opções apropriadas para ela.

      (Opcional) Se você escolher JDBC como fonte de dados, poderá usar seus próprios drivers JDBC ao especificar o acesso da conexão em que as informações do driver são armazenadas.

    3. Faça as configurações de segurança. Escolha um perfil do IAM existente ou crie um novo.

      nota

      Para adicionar seu próprio driver JDBC, permissões adicionais precisam ser adicionadas. Para obter mais informações, consulte

      • Conceda permissões para as seguintes ações: CreateJob, DeleteJob, GetJob, GetJobRun, StartJobRun.

      • Conceda permissões para as ações do Amazon S3: s3:DeleteObjects, s3:GetObject, s3:ListBucket, s3:PutObject.

        nota

        s3:ListBucket não é necessário se a política de buckets do Amazon S3 estiver desabilitada.

      • Conceda acesso de entidade principal de serviço a bucket/pasta na política do Amazon S3.

      Exemplo de política do Amazon S3:

      { "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:ListBucket", "s3:DeleteObject" ], "Resource": [ "arn:aws:s3:::bucket-name/driver-parent-folder/driver.jar", "arn:aws:s3:::bucket-name" ] } ] }

      O AWS Glue cria as pastas a seguir (_crawler e _glue_job_crawler) no mesmo nível do driver JDBC no bucket do Amazon S3. Por exemplo, se o caminho do driver for <s3-path/driver_folder/driver.jar>, as seguintes pastas serão criadas se ainda não existirem:

      • <s3-path/driver_folder/_crawler>

      • <s3-path/driver_folder/_glue_job_crawler>

      Opcionalmente, você pode adicionar uma configuração de segurança para um crawler para especificar opções de criptografia em repouso.

    4. Defina a saída e o agendamento. Você pode escolher o banco de dados de destino, adicionar um prefixo para incluir aos nomes das tabelas e definir um limite máximo da tabela (opcional).

      Ao selecionar uma agenda de crawler, escolha a frequência.

    5. Revisar e criar. Escolha Editar para fazer alterações em qualquer uma das etapas do assistente. Quando terminar, escolha Criar crawler.

Quando você rastreia tabelas do DynamoDB, pode escolher um nome de tabela na lista de tabelas do DynamoDB na sua conta.

dica

Para obter mais informações sobre como configurar crawlers, consulte Propriedades do crawler.

Visualizar resultados e detalhes do crawler

Depois que o crawler é executado com êxito, ele cria definições de tabela no Data Catalog. Escolha Tables (Tabelas) no painel de navegação para ver as tabelas criadas pelo seu crawler no banco de dados que você especificou.

Você pode exibir informações relacionadas ao próprio crawler da seguinte forma:

  • A página Crawlers no console do AWS Glue exibe as seguintes propriedades para um crawler:

    Propriedade Descrição
    Nome

    Ao criar um crawler, você precisa atribuir a ele um nome único.

    Status

    Um crawler pode estar pronto, sendo iniciado, interrompido, programado ou com a programação em pausa. Um crawler em execução progride desde o início até a interrupção. Você pode retomar ou pausar uma programação vinculada a um crawler.

    Schedule (Programação)

    Você pode optar por executar seu crawler sob demanda ou escolher a frequência desejada usando uma programação. Para obter mais informações sobre como programar um crawler, consulte Programar um crawler.

    Last run (Última execução)

    A data e a hora da última vez em que o crawler foi executado.

    Log (Log)

    Links para todos os logs disponíveis referentes à última execução do crawler.

    Tables changes from last run (Alterações de tabelas desde a última execução)

    A quantidade das tabelas no AWS Glue Data Catalog que foram atualizadas pela última execução do crawler.

  • Para exibir o histórico de um crawler, escolha Crawlers no painel de navegação para ver os crawlers que você criou. Escolha um crawler na lista de crawlers disponíveis. Você pode ver as propriedades do crawler e o histórico do crawler na guia Crawler runs (Execuções de crawler).

    A guia Crawler runs (Execuções de crawler) exibe informações sobre cada vez que o crawler foi executado, incluindo Start time (UTC) (Horário inicial [UTC]), End time (UTC) (Horário final [UTC]), Duration (Duração), Status (Status), DPU hours (Horas de DPU) e Table changes (Alterações de tabela).

    A guia de execuções do crawler exibe apenas os crawls que ocorreram desde a data de lançamento do atributo de histórico do crawler e só retém os crawls por 12 meses. Crawls mais antigos não serão retornados.

  • Para ver informações adicionais, escolha uma guia na página de detalhes do crawler. Cada guia exibirá informações relacionadas ao crawler.

    • Schedule (Cronograma): todas as programações criadas para o crawler estarão visíveis aqui.

    • Data sources (Fontes de dados): todas as fontes de dados rastreadas pelo crawler estarão visíveis aqui.

    • Classifiers (Classificadores): todos os classificadores atribuídos ao crawler estarão visíveis aqui.

    • Tags (Tags): todas as tags criadas e atribuídas a um recurso do AWS estarão visíveis aqui.