Unterstützte Formate und Einschränkungen für die verwaltete Datenkomprimierung - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Unterstützte Formate und Einschränkungen für die verwaltete Datenkomprimierung

Um die Leseleistung von AWS Analysediensten wie Amazon Athena, Amazon EMR und AWS Glue ETL-Jobs zu verbessern, AWS Glue Data Catalog bietet die verwaltete Komprimierung (ein Prozess, der kleine Amazon S3 S3-Objekte zu größeren Objekten komprimiert) für Iceberg-Tabellen im Datenkatalog.

Die Datenkomprimierung unterstützt eine Vielzahl von Datentypen und Komprimierungsformaten zum Lesen und Schreiben von Daten, einschließlich des Lesens von Daten aus verschlüsselten Tabellen.

Die Datenverdichtung unterstützt:

  • Dateitypen — Parquet

  • Datentypen — Boolean, Integer, Long, Float, Double, String, Decimal, Date, Time, Timestamp, String, UUID, Binary

  • Komprimierung — zstd, gzip, snappy, unkomprimiert

  • Verschlüsselung — Die Datenkomprimierung unterstützt nur die standardmäßige Amazon S3 S3-Verschlüsselung (SSE-S3) und die serverseitige KMS-Verschlüsselung (SSE-KMS).

  • Bin-Pack-Verdichtung

  • Schemaentwicklung

  • Tabellen mit Zieldateigröße (Schreiben). target-file-size-bytes Eigenschaft in Iceberg-Konfiguration) im inklusiven Bereich 128 MB bis 512 MB.

  • Regionen

    • Asien-Pazifik (Tokio)

    • Asien-Pazifik (Seoul)

    • Asia Pacific (Mumbai)

    • Asien-Pazifik (Singapur)

    • Europa (Irland)

    • Europe (London)

    • Europa (Frankfurt)

    • USA Ost (Nord-Virginia)

    • USA Ost (Ohio)

    • USA West (Nordkalifornien)

    • Südamerika (São Paulo)

  • Sie können die Verdichtung über das Konto ausführen, in dem sich der Datenkatalog befindet, wenn sich der Amazon-S3-Bucket, in dem die zugrunde liegenden Daten gespeichert werden, in einem anderen Konto befindet. Dazu benötigt die Verdichtungsrolle Zugriff auf den Amazon-S3-Bucket.

Die Datenverdichtung unterstützt derzeit nicht:

  • Dateitypen — Avro, ORC

  • Datentypen — Behoben

  • Komprimierung — brotli, lz4

  • Komprimierung von Dateien, während sich die Partitionsspezifikation weiterentwickelt.

  • Reguläre Sortierung oder Sortierung nach Z-Ordnung

  • Dateien zusammenführen oder löschen — Bei der Komprimierung werden Datendateien übersprungen, denen Löschdateien zugeordnet sind.

  • Komprimierung für kontenübergreifende Tabellen — Sie können die Komprimierung nicht für kontenübergreifende Tabellen ausführen.

  • Komprimierung für regionsübergreifende Tabellen — Sie können die Komprimierung nicht für regionsübergreifende Tabellen ausführen.

  • Aktivieren der Verdichtung für Ressourcenlinks

  • VPC-Endpunkte für Amazon-S3-Buckets

  • DynamoDB-Sperrmanager — Bei Verwendung der Datenkomprimierung sollten keine anderen Datenladeaufträge as org.apache.iceberg.aws.dynamodb verwendenlock-impl. DynamoDbLockManager.