Crawling em armazenamento de dados do Amazon S3 usando um endpoint da VPC - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Crawling em armazenamento de dados do Amazon S3 usando um endpoint da VPC

Para fins de segurança, auditoria ou controle, talvez você queira que seu armazenamento de dados do Amazon S3 ou suas tabelas de catálogo de dados baseadas no Amazon S3 sejam acessados somente por meio de um ambiente do Amazon Virtual Private Cloud (Amazon VPC). Este tópico descreve como criar e testar uma conexão com o armazenamento de dados do Amazon S3 ou com tabelas de catálogo de dados baseadas no Amazon S3 em um endpoint da VPC usando o tipo de conexão Network.

Realize as seguintes tarefas para executar um crawler no armazenamento de dados:

Pré-requisitos

Verifique se você atendeu a esses pré-requisitos para configurar o armazenamento de dados do Amazon S3 ou as tabelas de catálogo de dados baseadas no Amazon S3 para serem acessados por meio de um ambiente da Amazon Virtual Private Cloud (Amazon VPC).

  • Uma VPC configurada. Por exemplo: vpc-01685961063b0d84b. Para obter mais informações, consulte Conceitos básicos da Amazon VPC no Manual do usuário da Amazon VPC.

  • Um endpoint do Amazon S3 anexado à VPC. Por exemplo: vpc-01685961063b0d84b. Para obter mais informações, consulte Endpoints para o Amazon S3 no Manual do usuário da Amazon VPC.

    Exemplo de um endpoint do Amazon S3 anexado à VPC.
  • Uma entrada de rota apontando para o endpoint da VPC. Por exemplo: vpce-0ec5da4d265227786 na tabela de rotas usada pelo endpoint da VPC (vpce-0ec5da4d265227786).

    Exemplo de uma entrada de rota apontando para o endpoint da VPC.
  • Uma ACL da rede anexada à VPC permite o tráfego.

  • Um grupo de segurança anexado à VPC permite o tráfego.

Criar a conexão com o Amazon S3

Geralmente, você cria esses recursos dentro da Amazon Virtual Private Cloud (Amazon VPC), para que eles não possam ser acessados pela Internet pública. Por padrão, o AWS Glue não pode acessar recursos dentro de uma VPC. Para permitir que o AWS Glue acesse seus recursos dentro da VPC, é preciso fornecer informações adicionais de configuração específicas da VPC que incluem IDs de sub-redes da VPC e IDs de security groups. Para criar uma conexão Network, você precisa especificar as seguintes informações:

  • Uma ID da VPC

  • Uma sub-rede dentro da VPC

  • Um grupo de segurança

Para configurar uma conexão Network:

  1. Escolha Add connection (Adicionar conexão) no painel de navegação do console do AWS Glue.

  2. Insira o nome da conexão e escolha Network (Rede) como o tipo de conexão. Escolha Próximo.

    Selecionar o tipo de conexão.
  3. Configure as informações de VPC, sub-rede e grupos de segurança.

    • VPC: escolha o nome da VPC que contém seu armazenamento de dados.

    • Subnet (Sub-rede): escolha uma sub-rede em sua VPC.

    • Security groups (Grupos de segurança): escolha um ou mais grupos de segurança que permitam o acesso ao armazenamento de dados em sua VPC.

    Selecionar o tipo de conexão.
  4. Escolha Próximo.

  5. Verifique as informações de conexão e escolha Finish (Encerrar).

    Selecionar o tipo de conexão.

Testar a conexão com o Amazon S3

Depois de criar sua conexão Network, você pode testar a conectividade com seu armazenamento de dados do Amazon S3 em um endpoint da VPC.

Os seguintes erros podem ocorrer ao testar uma conexão:

  • INTERNET CONNECTION ERROR (Erro de conexão com a Internet): indica um problema de conexão

  • INVALID BUCKET ERROR (Erro de bucket inválido): indica um problema com o bucket do Amazon S3

  • Se CONNECTION ERROR (Erro de conexão com o S3): indica uma falha na conexão com o Amazon S3

  • INVALID CONNECTION TYPE (Tipo de conexão inválida): indica que o tipo de conexão não tem o valor esperado, NETWORK

  • INVALID CONNECTION TEST TYPE (Tipo teste de conexão inválido): indica um problema com o tipo de teste de conexão de rede

  • INVALID TARGET (Destino inválido): indica que o bucket do Amazon S3 não foi especificado corretamente

Para testar uma conexão Network:

  1. Selecione a conexão Network (Rede) no console do AWS Glue.

  2. Selecione Test connection (Testar conexão).

  3. Escolha a função do IAM criada na etapa anterior e especifique um bucket do Amazon S3.

  4. Escolha Test connection (Testar conexão) para iniciar o teste. Pode levar algum tempo para que o resultado seja exibido.

Testar a conexão.

Se você receber um erro, faça o seguinte:

  • Os privilégios corretos foram fornecidos para a função selecionada.

  • O bucket do Amazon S3 correto foi fornecido.

  • Os grupos de segurança e a ACL da rede permitem o tráfego de entrada e saída necessário.

  • A VPC especificada está conectada a um endpoint da VPC do Amazon S3.

Após ter testado com êxito a conexão, você pode criar um crawler.

Criar um crawler para um armazenamento de dados do Amazon S3

Agora é possível criar um crawler que especifica a conexão Network que você criou. Para obter mais detalhes sobre como criar um crawler, consulte Configurar um crawler.

  1. Comece escolhendo Crawlers no painel de navegação no console do AWS Glue.

  2. Escolha Adicionar crawler.

  3. Especifique o nome do crawler e escolha Next (Próximo).

  4. Quando a origem dos dados for solicitada, escolha S3 e especifique o prefixo do bucket do Amazon S3 e a conexão criada anteriormente.

    Testar a conexão.
  5. Se precisar, adicione outro armazenamento de dados na mesma conexão de rede.

  6. Escolha a função do IAM. A função do IAM deve permitir o acesso ao serviço do AWS Glue e o bucket do Amazon S3. Para ter mais informações, consulte Configurar um crawler.

    Testar a conexão.
  7. Defina a programação do crawler.

  8. Escolha um banco de dados existente no Data Catalog ou crie uma nova entrada de banco de dados.

    Testar a conexão.
  9. Conclua a configuração restante.

Criação de um crawler para tabelas de catálogo de dados baseadas no Amazon S3

Agora é possível criar um crawler que especifica a conexão de Network que você criou e um tipo de fonte de catálogo. Para obter mais detalhes sobre como criar um crawler, consulte Configurar um crawler.

  1. Comece escolhendo Crawlers no painel de navegação no console do AWS Glue.

  2. Escolha Adicionar crawler.

  3. Especifique o nome do crawler e escolha Next (Próximo).

  4. Quando o tipo de fonte do crawler for solicitado, escolha Existing catalog tables (Tabelas de catálogo existentes) e especifique as tabelas de catálogo existentes para crawling na lista de tabelas disponíveis.

    Selecionar o tipo de fonte do crawler.
  5. Escolha a função do IAM. A função do IAM deve permitir o acesso ao serviço do AWS Glue e o bucket do Amazon S3. Para ter mais informações, consulte Configurar um crawler.

  6. Defina a programação do crawler.

  7. Escolha um banco de dados existente no Data Catalog ou crie uma nova entrada de banco de dados.

  8. Conclua a configuração restante e revise suas etapas.

    Selecionar o tipo de fonte do crawler.

Executar um crawler

Execute seu crawler.

Executar seu crawler sob demanda.

Solução de problemas

Para solucionar problemas relacionados aos buckets do Amazon S3 usando um gateway da VPC, consulte Por que não consigo me conectar a um bucket do S3 usando um endpoint da VPC de gateway?