Regelgenerator für Data Quality - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Regelgenerator für Data Quality

Mit dem Regelgenerator der Data Quality Definition Language (DQDL) können Sie Datenqualitätsregeln zur Auswertung Ihrer Daten erstellen. Wählen Sie zunächst einen Regeltyp aus und geben Sie dann die Parameter im Regeleditor an. Der Regeleditor zeigt Ihnen auch alle Fehler und Warnungen an, während Sie Regeln erstellen.

Das DQDL-Handbuch enthält eine umfassende Dokumentation zum Erstellen von Regeln mithilfe der DQDL-Syntax, integrierten Regeltypen und Beispielen.

Knoten für Bewertung der Datenqualität

Beim Arbeiten mit dem Transformationsknoten Bewertung der Datenqualität und dem DQDL-Regelgenerator können Sie den Arbeitsbereich erweitern.

  • Um die Registerkarte Transformieren so zu erweitern, dass sie den gesamten Bildschirm ausfüllt, wählen Sie das Erweiterungssymbol in der oberen rechten Ecke des Bereichs Knotendetails.

  • Um den DQDL-Regeleditor zu erweitern, wählen Sie das Symbol <<, um den Regeleditor zu erweitern und die Registerkarten Regeltypen und Schema zu reduzieren.

    Der Screenshot zeigt ein Auftragsdiagramm mit dem Knoten Bewertung der Datenqualität.

Komponenten

Es gibt 26 Regeltypen, die in AWS Glue Studio integriert sind. Jeder Regeltyp verfügt über eine Beschreibung und Beispiele, wie er verwendet werden kann.

Regeltypen für die Datenqualität

AWS Glue Studio stellt integrierte Regeltypen bereit, die das Erstellen einer Regel vereinfachen. Weitere Informationen zu Regeltypen finden Sie unter Referenz zu DQDL-Regeltypen.

Schema

Auf der Registerkarte Schema werden die Spaltennamen und der Datentyp des übergeordneten Knotens angezeigt. Es werden Schemas mehrerer Knoten angezeigt. Sie können das Eingabeschema anzeigen, nach Spaltennamen suchen und die Spalte in den Regeleditor einfügen.

Der Screenshot zeigt den Regeleditor mit einer vollständigen Regel, die den Regeltyp Vollständigkeit verwendet.

Regeleditor

Der Regeleditor ist ein Texteditor, in dem Sie Regeln schreiben und bearbeiten können. Wenn Sie einen Regeltyp aus dem DQDL Regelgenerator auswählen, wird der Regeltyp dem Regel-Editor hinzugefügt. Anschließend können Sie Parameter angeben, Regeln hinzufügen und Regeln nach Bedarf bearbeiten, indem Sie den Text ändern. AWS Glue Studio validiert die Regeln im Regeleditor und zeigt Fehler und Warnungen an, falls vorhanden.

Errors and warnings (Fehler und Warnungen)

Wenn eine Regel nicht der DQDL-Regelsyntax entspricht, zeigt der Regeleditor mehrere visuelle Indikatoren an, die darauf hinweisen, dass ein Fehler vorliegt:

  • Der Regeleditor zeigt ein Fehlersymbol und eine rote Farbe in der Zeile mit dem Fehler an.

  • Der Regeleditor zeigt die Anzahl der Fehler neben dem roten Fehlersymbol an.

  • Wenn Sie die Zeile mit dem Fehler auswählen, werden unten im Regeleditor Beschreibungen des Fehlers und der Fehlerstelle (Zeile und Spalte) angezeigt.

Der Screenshot zeigt den DQDL-Regeleditor mit Fehleranzeigen in Zeile 1 und unten im Regeleditor mit der Anzahl der Fehler. Nachfolgend finden Sie die Beschreibung des Fehlers.

Maßnahmen zur Datenqualität

Standardmäßig ist diese Aktion nicht ausgewählt und der Auftrag wird seine Ausführung auch dann beenden, wenn die Datenqualitätsregeln fehlschlagen.

Wählen Sie zwischen den folgenden Aktionen. Sie können Aktionen verwenden, um Ergebnisse in CloudWatch zu veröffentlichen oder Aufträge basierend auf bestimmten Kriterien anzuhalten. Aktionen sind erst verfügbar, nachdem Sie eine Regel erstellt haben.

  • Ergebnisse auf CloudWatch veröffentlichen – Wenn Sie einen Auftrag ausführen, fügen Sie die Ergebnisse zu CloudWatch hinzu.

  • Auftrag fehlschlagen, wenn die Datenqualität fehlschlägt – Wenn die Datenqualitätsregeln fehlschlagen, wird auch der Auftrag fehlschlagen.

Ausgabe zur Transformation der Datenqualität

  • Originaldaten – Wählen Sie diese Option, um Originaleingabedaten auszugeben. Diese Option ist ideal, wenn Sie den Auftrag anhalten möchten, wenn Qualitätsprobleme erkannt werden.

  • Datenqualitätsmetriken – Wählen Sie die Ausgabe von konfigurierten Regeln und deren Status als bestanden oder nicht bestanden. Diese Option ist nützlich, wenn Sie eine benutzerdefinierte Aktion durchführen möchten.

Ausgabeeinstellungen für die Datenqualität

Legen Sie den Speicherort der Datenqualitätsergebnisse fest, indem Sie den Amazon-S3-Speicherort als Datenqualitäts-Ausgabeziel angeben.