Festlegen von Tabellenspeicherort und Partitionierungsebene - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Festlegen von Tabellenspeicherort und Partitionierungsebene

Standardmäßig gilt: Wenn ein Crawler für in Amazon S3 gespeicherte Daten Tabellen definiert, versucht der Crawler, Schemata zusammenzuführen und Tabellen auf oberster Ebene zu erstellen (year=2019). In einigen Fällen kann es vorkommen, dass der Crawler eine Tabelle für den Ordner month=Jan erstellen soll aber stattdessen eine Partition erstellt, da ein Ordner der gleichen Ebene (month=Mar) in dieselbe Tabelle gespeichert wurde.

Die Crawler-Option auf Tabellenebene bietet Ihnen die Flexibilität, dem Crawler mitzuteilen, wo sich die Tabellen befinden und wie Partitionen erstellt werden sollen. Wenn Sie eine Tabellen-Ebene angeben, wird die Tabelle auf dieser absoluten Ebene aus dem Amazon S3 Bucket erstellt.

Crawler-Gruppierung mit Tabellenebene, die als Ebene 2 angegeben ist.

Wenn Sie den Crawler auf der Konsole konfigurieren, können Sie einen Wert für die Crawler-Option Tabellen-Ebene angeben. Der Wert muss eine positive Ganzzahl sein, die die Tabellenposition (die absolute Ebene im Datensatz) angibt. Die Ebene für den Ordner der obersten Ebene ist 1. Beispiel: Wenn die Ebene auf 3 festgelegt wurde, wird die Tabelle für den Pfad mydataset/year/month/day/hour am Speicherort mydataset/year/month erstellt.

Console
Geben Sie eine Tabellenebene in der Crawler-Konfiguration an.
API

Legen Sie das Configuration-Feld mit einer Zeichenfolgendarstellung des folgenden JSON-Objekts fest, wenn Sie den Crawler mit der API konfigurieren, beispielsweise:

configuration = jsonencode( { "Version": 1.0, "Grouping": { TableLevelConfiguration = 2 } })
CloudFormation

In diesem Beispiel legen Sie die Option Tabellenebene fest, die in der Konsole in Ihrer CloudFormation Vorlage verfügbar ist:

"Configuration": "{ \"Version\":1.0, \"Grouping\":{\"TableLevelConfiguration\":2} }"