Anzeigen von Spaltenstatistiken - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Anzeigen von Spaltenstatistiken

Nach erfolgreicher Generierung der Statistiken speichert Data Catalog diese Informationen für die kostenbasierten Optimierer in Amazon Athena und Amazon Redshift, um bei der Ausführung von Abfragen optimale Entscheidungen treffen zu können. Die Statistiken variieren je nach Spaltentyp.

AWS Management Console
Anzeigen von Spaltenstatistiken für eine Tabelle
  • Nach dem Ausführen der Spaltenstatistik-Aufgabe werden in der Registerkarte Spaltenstatistiken auf der Seite Tabellendetails die Statistiken für die Tabelle angezeigt.

    Der Screenshot zeigt Spalten, die bei der letzten Ausführung generiert wurden.

    Die folgenden Statistiken sind verfügbar:

    • Spaltenname: Der Spaltenname, der zur Generierung der Statistiken verwendet wurde.

    • Letzte Aktualisierung: Das Datum und die Uhrzeit der Erstellung.

    • Durchschnittliche Länge: durchschnittliche Länge der Werte in der Spalte.

    • Eindeutige Werte: Gesamtzahl der unterschiedlichen Werte in der Spalte. Wir schätzen die Anzahl unterschiedlicher Werte in einer Spalte mit einer relativen Fehlerquote von 5 %.

    • Höchstwert: der höchste Wert in der Spalte.

    • Mindestwert: der kleinste Wert in der Spalte.

    • Maximale Länge: die Länge des höchsten Werts in der Spalte.

    • Null-Werte: die Anzahl der Null-Werte in der Spalte.

    • „Wahr“-Werte: die Anzahl der „Wahr“-Werte in der Spalte.

    • „Falsch“-Werte: die Anzahl der „Falsch“-Werte in der Spalte.

    • numFiles: Die Gesamtzahl der Dateien in der Tabelle. Dieser Wert ist auf der Registerkarte Erweiterte Eigenschaften verfügbar.

AWS CLI

Im folgenden Beispiel wird gezeigt, wie Sie Spaltenstatistiken mithilfe von AWS CLI abrufen.

aws glue get-column-statistics-for-table \ --database-name <test_db> \ --table-name <test_tble> \ --column-names <col1>

Sie können die Spaltenstatistiken auch mithilfe der GetColumnStatisticsForTableAPI-Operation anzeigen.