Configuration d'un metastore externe pour Hive - Amazon EMR

Configuration d'un metastore externe pour Hive

Par défaut, Hive enregistre les informations de metastore dans une base de données MySQL sur le système de fichiers du nœud primaire. Le metastore contient une description de la table et des données sous-jacentes sur lesquelles il est construit, notamment les noms de partition, les types de données, etc. Lorsqu'un cluster est suspendu, tous les nœuds de cluster sont arrêtés, y compris le nœud primaire. Lorsque cela arrive, les données locales sont perdues, car les systèmes de fichiers du nœud utilisent un magasin éphémère. Pour que le metastore persiste, vous devez créer un metastore externe qui existe en dehors du cluster.

Vous avez deux options pour un metastore externe :

Note

Si vous utilisez Hive 3 et que vous rencontrez trop de connexions au métastore Hive, configurez le paramètre datanucleus.connectionPool.maxPoolSize pour qu'il ait une valeur inférieure ou augmentez le nombre de connexions que le serveur de base de données peut gérer. L'augmentation du nombre de connexions est due à la façon dont Hive calcule le nombre maximum de connexions JDBC. Pour calculer la valeur optimale en termes de performances, consultez la section Propriétés de configuration de Hive.