Erros de cluster do Hive - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Erros de cluster do Hive

Geralmente, você pode encontrar a causa de um erro do Hive no arquivo syslog, que você vincula a partir do painel Steps (Etapas). Se você não conseguir determinar o problema lá, verifique a mensagem de erro de tentativa de tarefa do Hadoop. Vincule-se a ela no painel Task Attempts (Tentativas da tarefa).

Os erros a seguir são comuns em clusters do Hive.

Você está usando a versão mais recente do Hive?

A versão mais recente do Hive tem todos os patches e correções de erros atuais e pode resolver o problema.

Você encontrou um erro de sintaxe no script do Hive?

Se houver falha em uma etapa, examine o arquivo stdout de logs para a etapa que executou o script do Hive. Se o erro não estiver lá, examine o arquivo syslog dos logs das tentativas de tarefa que tiveram falha. Para obter mais informações, consulte Exibir arquivos de log do .

Houve falha em um trabalho quando executado interativamente?

Se você estiver executando o Hive interativamente no nó principal e houver falha no cluster, veja as entradas do syslog no log de tentativas de tarefa para a tentativa de tarefas com falha. Para obter mais informações, consulte Exibir arquivos de log do .

Você está tendo problemas para carregar ou descarregar dados do Amazon S3 no Hive?

Se você estiver com problemas para acessar dados no Amazon S3, verifique primeiro as possíveis causas listadas em Você está tendo problemas para carregar dados para carregar ou descarregar dados do Amazon S3?. Se nenhum desses problemas for a causa, considere as opções a seguir específicas para o Hive.

  • Verifique se você está usando a versão mais recente do Hive, que tem todos os patches e correções de erros atuais e pode resolver o problema. Para obter mais informações, consulte Apache Hive.

  • Usar INSERT OVERWRITE exige a listagem do conteúdo do bucket ou pasta do Amazon S3. Isso é uma operação cara. Se possível, remova manualmente o caminho, em vez de fazer com que o Hive liste e exclua os objetos existentes.

  • Se você usa versões de EMR lançamento da Amazon anteriores à 5.0, você pode usar o seguinte comando no HiveQL para pré-armazenar em cache os resultados de uma operação de lista do Amazon S3 localmente no cluster:

    set hive.optimize.s3.query=true;
  • Use partições estáticas sempre que possível.

  • Em algumas versões do Hive e da AmazonEMR, é possível que o uso ALTER TABLES falhe porque a tabela está armazenada em um local diferente do esperado pelo Hive. A solução é adicionar ou atualizar o seguinte no /home/hadoop/conf/core-site.xml:

    <property> <name>fs.s3n.endpoint</name> <value>s3.amazonaws.com</value> </property>