Errores de clúster de Hive - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Errores de clúster de Hive

Normalmente, puede encontrar la causa de un error de Hive en el archivo syslog, para el que tiene un enlace en el panel Steps (Pasos). Si no puede determinar el problema allí, consulte el mensaje de error de intento de tareas de Hadoop. Encontrará un enlace al mismo en el panel Task Attempts (Intentos de tareas).

Los siguientes errores son comunes en los clústeres de Hive.

¿Está utilizando la última versión de Hive?

La última versión de Hive presenta todas las revisiones actuales y correcciones de errores y podría resolver el problema.

¿Ha detectado un error de sintaxis en el script de Hive?

Si un paso devuelve un error, examine el archivo stdout de los registros para el paso que se ejecutó en el script de Hive. Si el error no se encuentra allí, examine el archivo syslog de los registros del intento de tarea que ha devuelto error. Para obtener más información, consulte Ver archivos de registro de .

¿Ha devuelto error un trabajo al ejecutarlo de forma interactiva?

Si ejecuta Hive de forma interactiva en el nodo principal y el clúster ha fallado, vea las entradas syslog en el registro de intento de tarea para el intento de tarea fallido. Para obtener más información, consulte Ver archivos de registro de .

¿Tiene problemas para cargar datos hacia o desde Amazon S3 en Hive?

Si tiene problemas para tener acceso a los datos en Amazon S3, compruebe antes las causas posibles incluidas en ¿Tiene problemas para cargar datos hacia o desde Amazon S3?. Si ninguno de estos problemas es la causa, tenga en cuenta las siguientes opciones específicas de Hive.

  • Asegúrese de utilizar la última versión de Hive que presenta todas las revisiones actuales y correcciones de errores que podría resolver el problema. Para obtener más información, consulte Apache Hive.

  • El uso de INSERT OVERWRITE requiere mostrar el contenido del bucket o carpeta de Amazon S3. Se trata de una operación costosa. Si es posible, elimine manualmente la ruta en lugar de que Hive enumere y elimine los objetos existentes.

  • Si utiliza EMR versiones de Amazon anteriores a la 5.0, puede utilizar el siguiente comando en HiveQL para almacenar previamente en caché los resultados de una operación de lista de Amazon S3 de forma local en el clúster:

    set hive.optimize.s3.query=true;
  • Utilice las particiones estáticas donde sea posible.

  • En algunas versiones de Hive y AmazonEMR, es posible que el uso ALTER TABLES falle porque la tabla está guardada en una ubicación diferente a la que esperaba Hive. La solución consiste en añadir o actualizar lo siguiente en /home/hadoop/conf/core-site.xml:

    <property> <name>fs.s3n.endpoint</name> <value>s3.amazonaws.com</value> </property>