Configuración de un metaalmacén externo para Hive

Hive registra la información del metaalmacén de manera predeterminada en una base de datos de MySQL que se encuentra en el sistema de archivos del nodo principal. El metaalmacén contiene una descripción de la tabla y los datos subyacentes a partir de los que se creó, incluidos los nombres de particiones, tipos de datos, etc. Cuando un clúster termina, todos los nodos del clúster se cierran, incluido el nodo principal. Cuando esto ocurre, se pierden los datos locales porque los sistemas de archivos del nodo usan almacenamiento efímero. Si necesita que se conserven los datos del metaalmacén, debe crear un metaalmacén externo que exista fuera del clúster.

Dispone de dos opciones para crear un metaalmacén externo:

AWS Glue Data Catalog (solo Amazon EMR versión 5.8.0 o posterior).

Para obtener más información, consulte Uso del catálogo de datos de AWS Glue como metaalmacén para Hive.
Amazon RDS o Amazon Aurora.

Para obtener más información, consulte Uso de una base de datos MySQL externa o Amazon Aurora.

nota

Si utiliza Hive 3 y encuentra demasiadas conexiones con el metaalmacén de Hive, configure el parámetro datanucleus.connectionPool.maxPoolSize para que tenga un valor menor o aumente el número de conexiones que puede gestionar el servidor de base de datos. El aumento en el número de conexiones se debe a la forma en que Hive calcula el número máximo de conexiones JDBC. Para calcular el valor óptimo de rendimiento, consulte Hive Configuration Properties.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Diferencias y consideraciones sobre Hive en Amazon EMR

Uso del catálogo de datos de AWS Glue como metaalmacén para Hive