Usar um crawler para adicionar uma tabela - Amazon Athena

Usar um crawler para adicionar uma tabela

Os crawlers do AWS Glue ajudam a descobrir o esquema para conjuntos de dados e registrá-los no catálogo de dados do AWS Glue. Os crawlers passam pelos dados e determinam o esquema. Além disso, o crawler pode detectar e registrar partições. Para obter mais informações, consulte Definir crawlers no Guia do desenvolvedor do AWS Glue. Tabelas de dados que foram rastreadas com sucesso podem ser consultadas no Athena.

nota

O Athena não reconhece os padrões de exclusão que você especifica para um crawler do AWS Glue. Por exemplo, se você tem um bucket do Amazon S3 com os arquivos .csv e .json e exclui os arquivos .json do crawler, o Athena consulta os dois grupos de arquivos. Para evitar isso, coloque os arquivos que você deseja excluir em um local diferente.

Criar um crawler do AWS Glue

É possível criar um crawler começando no console do Athena e usando o console do AWS Glue de forma integrada. Ao criar o crawler, você especifica um local de dados no Amazon S3 para crawling.

Para criar um crawler no AWS Glue começando do console do Athena
  1. Abra o console do Athena em https://console.aws.amazon.com/athena/.

  2. No editor de consultas, ao lado de Tabelas e visualizações, escolha Criar e, em seguida, selecione Crawler do AWS Glue.

  3. No console do AWS Glue, na página Add crawler (Adicionar crawler), siga as etapas para criar um crawler. Para obter mais informações, consulte Usar crawlers do AWS Glue neste guia e Como preencher o AWS Glue Data Catalog no Guia do desenvolvedor do AWS Glue.

nota

O Athena não reconhece os padrões de exclusão que você especifica para um crawler do AWS Glue. Por exemplo, se você tem um bucket do Amazon S3 com os arquivos .csv e .json e exclui os arquivos .json do crawler, o Athena consulta os dois grupos de arquivos. Para evitar isso, coloque os arquivos que você deseja excluir em um local diferente.

Depois de um rastreamento, o crawler do AWS Glue atribui automaticamente determinados metadados para ajudar a torná-los compatíveis com outras tecnologias externas, como Apache Hive, Presto e Spark. Às vezes, o crawler pode atribuir incorretamente propriedades de metadados. Corrija manualmente as propriedades no AWS Glue antes de consultar a tabela usando o Athena. Para obter mais informações, consulte Exibir e editar detalhes da tabela no Guia do desenvolvedor do AWS Glue.

O AWS Glue pode atribuir indevidamente metadados quando um arquivo CSV tem aspas em torno de cada campo de dados, processando a propriedade serializationLib incorretamente. Para ter mais informações, consulte Lidar com dados CSV entre aspas.