Arbeiten mit Classifiern in der AWS Glue-Konsole - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Arbeiten mit Classifiern in der AWS Glue-Konsole

Ein Classifier bestimmt das Schema Ihrer Daten. Sie können einen benutzerdefinierten Classifier erstellen und von AWS Glue aus auf ihn verweisen.

Classifier anzeigen

Zum Anzeigen einer Liste aller Classifier, die Sie erstellt haben, öffnen Sie die AWS Glue-Konsole über https://console.aws.amazon.com/glue/ und wählen Sie die Registerkarte Classifiers aus.

Die Liste zeigt die folgenden Eigenschaften für jeden Classifier an:

  • Classifier – Der Name des Classifiers. Beim Erstellen eines Classifiers müssen Sie einen Namen angeben.

  • Klassifizierung – Der Klassifizierungstyp der Tabellen, die von diesem Classifier abgeleitet werden.

  • Letzte Aktualisierung – Der letzte Zeitpunkt, zu dem dieser Classifier aktualisiert wurde.

Classifier verwalten

In der Liste Classifiers (Classifier) in der AWS Glue-Konsole können Sie Classifier hinzufügen, bearbeiten und löschen. Um weitere Details über einen Classifier zu sehen, wählen Sie den Classifier-Namen in der Liste aus. Zu den Details gehören die Informationen, die Sie beim Erstellen des Classifiers definiert haben.

Classifier erstellen

Zum Hinzufügen eines Classifiers in der AWS Glue-Konsole wählen Sie Add classifier (Classifier hinzufügen) aus. Wenn Sie einen Classifier definieren, geben Sie Werte für Folgendes an:

  • Classifier-Name – Geben Sie einen eindeutigen Namen für Ihren Classifier ein.

  • Classifier-Typ – Der Klassifizierungstyp der Tabellen, die von diesem Classifier abgeleitet werden.

  • Letzte Aktualisierung – Der letzte Zeitpunkt, zu dem dieser Classifier aktualisiert wurde.

Name des Classifiers

Geben Sie einen eindeutigen Namen für Ihren Classifier ein.

Classifier-Typ

Wählen Sie den zu erstellenden Classifier aus.

Konfigurieren Sie je nach gewähltem Classifier-Typ die folgenden Eigenschaften für Ihren Classifier:

Grok
  • Klassifizierung

    Beschreiben Sie das Format oder den Typ der Daten, die klassifiziert werden, oder geben Sie ein benutzerdefiniertes Label an.

  • Grok-Muster

    Dies dient dazu, Ihre Daten zu analysieren und in ein strukturiertes Schema einzufügen. Das Grok-Muster besteht aus benannten Mustern, die das Format Ihres Datenspeichers beschreiben. Sie schreiben dieses Grok-Muster mit den benannten integrierten Mustern von AWS Glue und mit benutzerdefinierten Mustern, die Sie in das Feld Custom patterns (Benutzerdefinierte Muster) einfügen. Auch wenn die Grok-Debugger-Ergebnisse nicht unbedingt mit den Ergebnissen von AWS Glue übereinstimmen, empfehlen wir, dass Sie Ihr Muster mit Beispieldaten und einem Grok-Debugger testen. Grok-Debugger finden Sie im Internet. Die benannten integrierten Muster, die von AWS Glue bereitgestellt werden, sind in der Regel mit Grok-Mustern kompatibel, die im Internet verfügbar sind.

    Erstellen Sie Ihr Grok-Muster durch iteratives Hinzufügen von benannten Mustern und überprüfen Sie Ihre Ergebnisse in einem Debugger. Diese Aktivität gibt Ihnen die Gewissheit, dass Ihre Daten analysiert werden können, wenn der AWS Glue-Crawler Ihr Grok-Muster ausführt.

  • Benutzerdefinierte Muster

    Für Grok-Classifier sind dies optionale Bausteine für das Grok pattern (Grok-Muster), das Sie schreiben. Wenn integrierte Muster Ihre Daten nicht analysieren können, müssen Sie möglicherweise ein benutzerdefiniertes Muster schreiben. Diese benutzerdefinierten Muster werden in diesem Feld definiert und im Feld Grok pattern (Grok-Muster) referenziert. Jedes benutzerdefinierte Muster wird in einer separaten Zeile definiert. Es besteht wie integrierte Muster aus einer benannten Musterdefinition, die reguläre Ausdruckssyntax (Regex) verwendet.

    Im folgenden Beispiel folgt auf den Namen MESSAGEPREFIX eine reguläre Ausdrucksdefinition für Ihre Daten, um festzustellen, ob das Muster eingehalten wird.

    MESSAGEPREFIX .*-.*-.*-.*-.*
XML
  • Row-Tag

    Für XML-Classifier ist dies der Name des XML-Tags zur Definition einer Tabellenzeile im XML-Dokument. Geben Sie den Namen ohne spitze Klammern < > an. Der Name muss den XML-Regeln für ein Tag entsprechen.

    Weitere Informationen finden Sie unter Angepasste XML-Classifier schreiben.

JSON
  • JSON-Pfad

    Für JSON-Classifier handelt es sich hierbei um den JSON-Pfad zum Objekt, Array oder Wert, das bzw. der eine Zeile der Tabelle, die erstellt wird, definiert. Geben Sie den Namen in JSON-Syntax entweder mit Punkt- oder Klammernnotation unter Verwendung von Operatoren an, die von AWS Glue unterstützt werden.

    Weitere Informationen finden Sie in der Liste der Operatoren in Angepasste JSON-Classifier schreiben.

CSV
  • Spaltentrennzeichen

    Ein Symbol zur Bezeichnung, wodurch die einzelnen Spalteneinträge in der Zeile voneinander getrennt werden. Wählen Sie das Begrenzungszeichen in der Liste aus, oder wählen Sie Other, um ein benutzerdefiniertes Trennzeichen einzugeben.

  • Anführungszeichen

    Ein einzelnes Zeichen oder Symbol zur Bezeichnung wodurch Inhalte zu einem einzelnen Spaltenwert miteinander kombiniert werden. Muss sich von dem Spaltentrennzeichen unterscheiden. Wählen Sie das Angebotssymbol aus der Liste aus, oder wählen Sie Other, um ein benutzerdefiniertes Anführungszeichen einzugeben.

  • Spaltenüberschriften

    Gibt das Verhalten an, wie Spaltenüberschriften in der CSV-Datei erkannt werden sollen. Sie können Has headings, No headings oder Detect headings wählen. Wenn Ihre benutzerdefinierte CSV-Datei Spaltenüberschriften besitzt, geben Sie eine durch Komma getrennte Liste der Spaltenüberschriften ein.

  • Zulassen von Dateien mit einzelner Spalte

    Damit die Tabelle als CSV klassifiziert wird, muss das Tabellenschema mindestens zwei Spalten und zwei Datenzeilen aufweisen. Verwenden Sie diese Option, um die Verarbeitung von Dateien zu erlauben, die nur eine Spalte enthalten.

  • Leerzeichen vor Identifizierung von Spaltenwerten abtrennen

    Diese Option gibt an, ob Werte vor dem Identifizieren des Typs der Spaltenwerte abgetrennt werden sollen.

  • Benutzerdefinierter Datentyp

    (Optional) – Geben Sie benutzerdefinierte Datentypen in eine kommagetrennte Liste ein. Die unterstützten Datentypen sind: „BINARY“, „BOOLEAN“, „DATE“, „DECIMAL“, „DOUBLE“, „FLOAT“, „INT“, „LONG“, „SHORT“, „STRING“, „TIMESTAMP“.

  • CSV-Serde

    (Optional) – Ein SerDe zur Verarbeitung von CSV im Klassifikator, der im Datenkatalog angewendet wird. Wählen Sie Open CSV SerDe, Lazy Simple SerDe, oder None aus. Sie können den None-Wert angeben, wenn der Crawler die Erkennung durchführen soll.

Weitere Informationen finden Sie unter Schreiben benutzerdefinierter Classifier.