Optimisation du compactage - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Optimisation du compactage

Les lacs de données Amazon S3 utilisant des formats de table ouverts tels qu'Apache Iceberg stockent les données sous forme d'objets S3. La présence de milliers de petits objets Amazon S3 dans une table de lac de données augmente la surcharge de métadonnées et affecte les performances de lecture. AWS Glue Data Catalog fournit un compactage géré pour les tables Iceberg, en compactant de petits objets en de plus grands objets pour de meilleures performances de lecture en AWS des services d'analyse tels que Amazon Athena et AmazonEMR, et AWS Glue ETLemplois. Data Catalog effectue le compactage sans interférer avec les requêtes simultanées et prend en charge le compactage uniquement pour les tables au format Parquet.

L'optimiseur de table surveille en permanence les partitions des tables et lance le processus de compactage lorsque le seuil est dépassé pour le nombre de fichiers et leur taille.

Dans le catalogue de données, le processus de compactage démarre et se poursuit si la table ou l'une des partitions de la table contient plus de cinq fichiers, chacun étant inférieur à 75 % de la taille du fichier cible (actuellement définie à 64 Mo).

Pour connaître les types de données, les formats de compression et les limitations pris en charge, consultezFormats pris en charge et limites pour le compactage géré des données .