Configuración de un metaalmacén externo para Hive - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración de un metaalmacén externo para Hive

De forma predeterminada, Hive registra la información del metaalmacén en una SQL base de datos My en el sistema de archivos del nodo principal. El metaalmacén contiene una descripción de la tabla y los datos subyacentes a partir de los que se creó, incluidos los nombres de particiones, tipos de datos, etc. Cuando un clúster termina, todos los nodos del clúster se cierran, incluido el nodo principal. Cuando esto ocurre, se pierden los datos locales porque los sistemas de archivos del nodo usan almacenamiento efímero. Si necesita que se conserven los datos del metaalmacén, debe crear un metaalmacén externo que exista fuera del clúster.

Dispone de dos opciones para crear un metaalmacén externo:

nota

Si utiliza Hive 3 y encuentra demasiadas conexiones con el metaalmacén de Hive, configure el parámetro datanucleus.connectionPool.maxPoolSize para que tenga un valor menor o aumente el número de conexiones que puede gestionar el servidor de base de datos. El aumento del número de conexiones se debe a la forma en que Hive calcula el número máximo de JDBC conexiones. Para calcular el valor óptimo de rendimiento, consulte Hive Configuration Properties.