Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Erstellen von Klassifikatoren mit dem AWS Glue Konsole
Ein Classifier bestimmt das Schema Ihrer Daten. Sie können einen benutzerdefinierten Classifier erstellen und von AWS Glue aus auf ihn verweisen.
Classifier erstellen
Um einen Klassifikator in der AWS Glue Konsole, wählen Sie Klassifikator hinzufügen. Wenn Sie einen Classifier definieren, geben Sie Werte für Folgendes an:
-
Classifier-Name – Geben Sie einen eindeutigen Namen für Ihren Classifier ein.
-
Classifier-Typ – Der Klassifizierungstyp der Tabellen, die von diesem Classifier abgeleitet werden.
-
Letzte Aktualisierung – Der letzte Zeitpunkt, zu dem dieser Classifier aktualisiert wurde.
- Name des Classifiers
-
Geben Sie einen eindeutigen Namen für Ihren Classifier ein.
- Classifier-Typ
-
Wählen Sie den zu erstellenden Classifier aus.
Konfigurieren Sie je nach gewähltem Classifier-Typ die folgenden Eigenschaften für Ihren Classifier:
- Grok
-
-
Klassifizierung
Beschreiben Sie das Format oder den Typ der Daten, die klassifiziert werden, oder geben Sie ein benutzerdefiniertes Label an.
-
Grok-Muster
Dies dient dazu, Ihre Daten zu analysieren und in ein strukturiertes Schema einzufügen. Das Grok-Muster besteht aus benannten Mustern, die das Format Ihres Datenspeichers beschreiben. Sie schreiben dieses Grok-Muster mit den benannten integrierten Mustern, die bereitgestellt werden von AWS Glue und benutzerdefinierte Muster, die Sie schreiben und in das Feld Benutzerdefinierte Muster aufnehmen. Obwohl die Ergebnisse des Grok-Debuggers möglicherweise nicht mit den Ergebnissen von übereinstimmen AWS Glue Genau, wir empfehlen Ihnen, Ihr Muster anhand einiger Beispieldaten mit einem Grok-Debugger auszuprobieren. Grok-Debugger finden Sie im Internet. Die benannten integrierten Muster werden bereitgestellt von AWS Glue sind im Allgemeinen mit Grok-Mustern kompatibel, die im Internet verfügbar sind.
Erstellen Sie Ihr Grok-Muster durch iteratives Hinzufügen von benannten Mustern und überprüfen Sie Ihre Ergebnisse in einem Debugger. Diese Aktivität gibt Ihnen die Gewissheit, dass wenn AWS Glue Der Crawler führt Ihr Grok-Muster aus, Ihre Daten können analysiert werden.
-
Benutzerdefinierte Muster
Für Grok-Classifier sind dies optionale Bausteine für das Grok pattern (Grok-Muster), das Sie schreiben. Wenn integrierte Muster Ihre Daten nicht analysieren können, müssen Sie möglicherweise ein benutzerdefiniertes Muster schreiben. Diese benutzerdefinierten Muster werden in diesem Feld definiert und im Feld Grok pattern (Grok-Muster) referenziert. Jedes benutzerdefinierte Muster wird in einer separaten Zeile definiert. Es besteht wie integrierte Muster aus einer benannten Musterdefinition, die reguläre Ausdruckssyntax (Regex) verwendet.
Im folgenden Beispiel folgt auf den Namen MESSAGEPREFIX
eine reguläre Ausdrucksdefinition für Ihre Daten, um festzustellen, ob das Muster eingehalten wird.
MESSAGEPREFIX .*-.*-.*-.*-.*
- XML
-
-
Row-Tag
Für XML-Classifier ist dies der Name des XML-Tags zur Definition einer Tabellenzeile im XML-Dokument. Geben Sie den Namen ohne spitze Klammern < >
an. Der Name muss den XML-Regeln für ein Tag entsprechen.
Weitere Informationen finden Sie unter Angepasste XML-Classifier schreiben.
- JSON
-
-
JSON-Pfad
Für JSON-Classifier handelt es sich hierbei um den JSON-Pfad zum Objekt, Array oder Wert, das bzw. der eine Zeile der Tabelle, die erstellt wird, definiert. Geben Sie den Namen entweder in einer JSON-Syntax mit Punkt oder Klammer ein AWS Glue unterstützte Operatoren.
Weitere Informationen finden Sie in der Liste der Operatoren in Angepasste JSON-Classifier schreiben.
- CSV
-
-
Spaltentrennzeichen
Ein Symbol zur Bezeichnung, wodurch die einzelnen Spalteneinträge in der Zeile voneinander getrennt werden. Wählen Sie das Begrenzungszeichen in der Liste aus, oder wählen Sie Other
, um ein benutzerdefiniertes Trennzeichen einzugeben.
-
Anführungszeichen
Ein einzelnes Zeichen oder Symbol zur Bezeichnung wodurch Inhalte zu einem einzelnen Spaltenwert miteinander kombiniert werden. Muss sich von dem Spaltentrennzeichen unterscheiden. Wählen Sie das Angebotssymbol aus der Liste aus, oder wählen Sie Other
, um ein benutzerdefiniertes Anführungszeichen einzugeben.
-
Spaltenüberschriften
Gibt das Verhalten an, wie Spaltenüberschriften in der CSV-Datei erkannt werden sollen. Sie können Has headings
, No
headings
oder Detect headings
wählen. Wenn Ihre benutzerdefinierte CSV-Datei Spaltenüberschriften besitzt, geben Sie eine durch Komma getrennte Liste der Spaltenüberschriften ein.
-
Zulassen von Dateien mit einzelner Spalte
Damit die Tabelle als CSV klassifiziert wird, muss das Tabellenschema mindestens zwei Spalten und zwei Datenzeilen aufweisen. Verwenden Sie diese Option, um die Verarbeitung von Dateien zu erlauben, die nur eine Spalte enthalten.
-
Leerzeichen vor Identifizierung von Spaltenwerten abtrennen
Diese Option gibt an, ob Werte vor dem Identifizieren des Typs der Spaltenwerte abgetrennt werden sollen.
-
Benutzerdefinierter Datentyp
(Optional) – Geben Sie benutzerdefinierte Datentypen in eine kommagetrennte Liste ein. Die unterstützten Datentypen sind: „BINARY“, „BOOLEAN“, „DATE“, „DECIMAL“, „DOUBLE“, „FLOAT“, „INT“, „LONG“, „SHORT“, „STRING“, „TIMESTAMP“.
-
CSV-Serde
(Optional) — A SerDe für die Verarbeitung von CSV im Classifier, das im Datenkatalog angewendet wird. Wählen Sie Open CSV SerDe
, Lazy Simple SerDe
, oder None
aus. Sie können den None
-Wert angeben, wenn der Crawler die Erkennung durchführen soll.
Weitere Informationen finden Sie unter Schreiben von benutzerdefinierten Klassifikatoren für verschiedene Datenformate.
Classifier anzeigen
Um eine Liste aller von Ihnen erstellten Klassifikatoren zu sehen, öffnen Sie die AWS Glue Konsole unter https://console.aws.amazon.com/glue/, und wählen Sie den Tab Classifiers aus.
Die Liste zeigt die folgenden Eigenschaften für jeden Classifier an:
-
Classifier – Der Name des Classifiers. Beim Erstellen eines Classifiers müssen Sie einen Namen angeben.
-
Klassifizierung – Der Klassifizierungstyp der Tabellen, die von diesem Classifier abgeleitet werden.
-
Letzte Aktualisierung – Der letzte Zeitpunkt, zu dem dieser Classifier aktualisiert wurde.
Classifier verwalten
Aus der Klassifikatoren-Liste im AWS Glue In der Konsole können Sie Klassifikatoren hinzufügen, bearbeiten und löschen. Um weitere Details über einen Classifier zu sehen, wählen Sie den Classifier-Namen in der Liste aus. Zu den Details gehören die Informationen, die Sie beim Erstellen des Classifiers definiert haben.