Considérations et restrictions relatives aux tâches de maintenance - Amazon Simple Storage Service

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Considérations et restrictions relatives aux tâches de maintenance

Amazon S3 propose des opérations de maintenance pour améliorer les performances de vos tables ou compartiments de tables S3. Ces options sont le compactage des fichiers, la gestion des instantanés et la suppression des fichiers non référencés. Les restrictions et considérations suivantes se rapportent à ces options de gestion.

Considérations relatives au compactage

Les considérations suivantes se rapportent au compactage. Pour plus d’informations sur le compactage, consultez Entretien des tables.

  • Le compactage est pris en charge sur Apache Parquet les types de ORC fichiersAvro, et.

  • Le compactage écrit les nouveaux fichiers au Apache Parquet format par défaut. Pour compacter les fichiers au ORC format Avro or à la place, définissez la propriété de la write.format.default table sur avro ouorc.

  • Le compactage ne prend pas en charge le type de données :Fixed.

  • Le compactage ne prend pas en charge les types de compression : brotli, lz4.

  • Le compactage s'effectue selon un calendrier automatique. Si vous souhaitez éviter les frais associés au compactage, vous pouvez le désactiver manuellement pour une table à l'aide de l'opération PutTableMaintenanceConfigurationAPI.

Note

Apache Icebergutilise un modèle de simultanéité optimiste ainsi que la détection des conflits pour arbitrer les transactions d'écriture. Avec une simultanéité optimiste, les transactions effectuées par l'utilisateur et les transactions de compactage peuvent entrer en conflit et entraîner l'échec des transactions. En cas de conflit, les tâches de compactage seront réessayées en cas d'échec. Il est recommandé que vos pipelines utilisent également la logique des nouvelles tentatives pour éviter les transactions qui échouent en raison d'opérations contradictoires.

Considérations relatives à la gestion des instantanés

Les considérations suivantes se rapportent à la gestion des instantanés. Pour plus d’informations sur la gestion des instantanés, consultez Entretien des tables.

  • Les instantanés sont conservés seulement lorsque les deux critères suivants sont remplis : le nombre minimum d’instantanés à conserver et la période de conservation spécifiée.

  • La gestion des instantanés supprime les métadonnées des instantanés expirés d’Apache Iceberg, empêchant ainsi les requêtes d’historique d’instantanés expirés et supprimant éventuellement les fichiers de données associés.

  • La gestion des instantanés ne prend pas en charge les valeurs de conservation que vous configurez en tant que propriétés de table Iceberg dans le fichier metadata.json ou via une commande SQL ALTER TABLE SET TBLPROPERTIES, y compris la conservation basée sur les branches ou les balises. La gestion des instantanés est désactivée lorsque vous configurez une politique de conservation basée sur les branches ou les balises, ou lorsque vous configurez une politique de conservation sur le fichier metadata.json qui est plus longue que les valeurs configurées via l’API PutTableMaintenanceConfiguration. Dans ces cas, S3 n’expire pas et ne supprime pas les instantanés, et vous devez supprimer manuellement les instantanés ou supprimer les propriétés de votre table Iceberg pour éviter les frais de stockage.

Considérations relatives à la suppression des fichiers non référencés

Les considérations suivantes se rapportent à la suppression des fichiers non référencés. Pour plus d’informations sur la suppression des fichiers non référencés, consultez Entretien des seaux de table.

  • La suppression des fichiers non référencés supprime les fichiers de données et de métadonnées qui ne sont plus référencés par les métadonnées Iceberg si leur date de création est antérieure à la période de conservation.

Limites des opérations de maintenance des tables S3 et des seaux de table et connexes APIs

Opération de maintenance Propriété Configurable au niveau du compartiment de tables ? Configurable au niveau de la table ? Valeur par défaut Valeur minimale Routine Iceberg de maintenance associée API de contrôle des tables S3
Compactage targetFileSizeMB Non Oui 512 Mo 64 Mo rewriteDataFiles PutTableMaintenanceConfiguration
Gestion des instantanés minimumSnapshots Non Oui 1 1 ExpireSnapshots retainLast PutTableMaintenanceConfiguration
Gestion des instantanés maximumSnapshotAge Non Oui 120 heures 1 heure ExpireSnapshots expireOlderThan PutTableMaintenanceConfiguration
Suppression des fichiers non référencés unreferencedDays Oui Non 3 jours 1 jour deleteOrphanFiles PutTableBucketMaintenanceConfiguration
Suppression des fichiers non référencés nonCurrentDays Oui Non 10 jours 1 jour N/A PutTableBucketMaintenanceConfiguration
Note

S3 Tables applique la row-group-default taille des parquets de 128 Mo.