Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Configuration d'un metastore externe pour Hive
Par défaut, Hive enregistre les informations du métastore dans une SQL base de données My sur le système de fichiers du nœud principal. Le metastore contient une description de la table et des données sous-jacentes sur lesquelles il est construit, notamment les noms de partition, les types de données, etc. Lorsqu'un cluster est suspendu, tous les nœuds de cluster sont arrêtés, y compris le nœud primaire. Lorsque cela arrive, les données locales sont perdues, car les systèmes de fichiers du nœud utilisent un magasin éphémère. Pour que le metastore persiste, vous devez créer un metastore externe qui existe en dehors du cluster.
Vous avez deux options pour un metastore externe :
-
AWS Glue Data Catalog (Amazon EMR version 5.8.0 ou ultérieure uniquement).
Pour de plus amples informations, veuillez consulter Utiliser le catalogue de données AWS Glue comme métastore pour Hive.
-
Amazon RDS ou Amazon Aurora.
Pour de plus amples informations, veuillez consulter Utilisation d'une base de SQL données My Database externe ou d'Amazon Aurora.
Note
Si vous utilisez Hive 3 et que vous rencontrez trop de connexions au métastore Hive, configurez le paramètre datanucleus.connectionPool.maxPoolSize
pour qu'il ait une valeur inférieure ou augmentez le nombre de connexions que le serveur de base de données peut gérer. L'augmentation du nombre de connexions est due à la façon dont Hive calcule le nombre maximum de JDBC connexions. Pour calculer la valeur optimale en termes de performances, consultez la section Propriétés de configuration de Hive