Configuration d'un metastore externe pour Hive

Par défaut, Hive enregistre les informations de metastore dans une base de données MySQL sur le système de fichiers du nœud primaire. Le metastore contient une description de la table et des données sous-jacentes sur lesquelles il est construit, notamment les noms de partition, les types de données, etc. Lorsqu'un cluster est suspendu, tous les nœuds de cluster sont arrêtés, y compris le nœud primaire. Lorsque cela arrive, les données locales sont perdues, car les systèmes de fichiers du nœud utilisent un magasin éphémère. Pour que le metastore persiste, vous devez créer un metastore externe qui existe en dehors du cluster.

Vous avez deux options pour un metastore externe :

AWS Glue Data Catalog (Amazon EMR version 5.8.0 ou ultérieure uniquement).

Pour de plus amples informations, veuillez consulter Utiliser le catalogue de données AWS Glue comme métastore pour Hive.
Amazon RDS ou Amazon Aurora.

Pour de plus amples informations, veuillez consulter Utilisation d'une base de données MySQL externe ou d'Amazon Aurora.

Note

Si vous utilisez Hive 3 et que vous rencontrez trop de connexions au métastore Hive, configurez le paramètre datanucleus.connectionPool.maxPoolSize pour qu'il ait une valeur inférieure ou augmentez le nombre de connexions que le serveur de base de données peut gérer. L'augmentation du nombre de connexions est due à la façon dont Hive calcule le nombre maximum de connexions JDBC. Pour calculer la valeur optimale en termes de performances, consultez la section Propriétés de configuration de Hive.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Différences et considérations pour Hive sur Amazon EMR

Utiliser le catalogue de données AWS Glue comme métastore pour Hive