Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Configuración de un metaalmacén externo para Hive
De forma predeterminada, Hive registra la información del metaalmacén en una SQL base de datos My en el sistema de archivos del nodo principal. El metaalmacén contiene una descripción de la tabla y los datos subyacentes a partir de los que se creó, incluidos los nombres de particiones, tipos de datos, etc. Cuando un clúster termina, todos los nodos del clúster se cierran, incluido el nodo principal. Cuando esto ocurre, se pierden los datos locales porque los sistemas de archivos del nodo usan almacenamiento efímero. Si necesita que se conserven los datos del metaalmacén, debe crear un metaalmacén externo que exista fuera del clúster.
Dispone de dos opciones para crear un metaalmacén externo:
-
AWS Glue Data Catalog (solo la EMR versión 5.8.0 o posterior de Amazon).
Para obtener más información, consulte Uso del catálogo de datos de AWS Glue como metaalmacén para Hive.
-
Amazon RDS o Amazon Aurora.
Para obtener más información, consulte Uso de una base de SQL datos My Database externa o Amazon Aurora.
nota
Si utiliza Hive 3 y encuentra demasiadas conexiones con el metaalmacén de Hive, configure el parámetro datanucleus.connectionPool.maxPoolSize
para que tenga un valor menor o aumente el número de conexiones que puede gestionar el servidor de base de datos. El aumento del número de conexiones se debe a la forma en que Hive calcula el número máximo de JDBC conexiones. Para calcular el valor óptimo de rendimiento, consulte Hive Configuration Properties