AWS Glue Qualität der Daten - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

AWS Glue Qualität der Daten

AWS Glue Mit Data Quality können Sie die Qualität Ihrer Daten messen und überwachen, sodass Sie gute Geschäftsentscheidungen treffen können. AWS Glue Data Quality basiert auf dem DeeQu Open-Source-Framework und bietet ein verwaltetes, serverloses Erlebnis. AWS Glue Data Quality arbeitet mit der Data Quality Definition Language (DQDL), einer domänenspezifischen Sprache, mit der Sie Datenqualitätsregeln definieren. Weitere Informationen zu DQDL und unterstützten Regeltypen finden Sie unterReferenz zur Data Quality Definition Language (DQDL).

Weitere Produktdetails und Preise finden Sie auf der Serviceseite für AWS Glue Data Quality.

Vorteile und wichtige Features

Zu den Vorteilen und Hauptmerkmalen von AWS Glue Data Quality gehören:

  • Serverlos — Es erfolgt keine Installation, kein Patching oder keine Wartung.

  • Schneller Einstieg — AWS Glue Data Quality analysiert Ihre Daten schnell und erstellt Datenqualitätsregeln für Sie. Sie können mit zwei Klicks loslegen: „Datenqualitätsregeln erstellen → Regeln empfehlen“.

  • Erkennen von Datenqualitätsproblemen — Verwenden Sie maschinelles Lernen (ML), um Anomalien und hard-to-detect Datenqualitätsprobleme zu erkennen.

  • Improvisieren Sie Ihre Regeln — mit mehr als 25 out-of-the-box DQ-Regeln können Sie Regeln erstellen, die Ihren spezifischen Bedürfnissen entsprechen.

  • Qualität bewerten und fundierte Geschäftsentscheidungen treffen – Sobald Sie die Regeln bewertet haben, erhalten Sie einen Datenqualitätswert, der einen Überblick über den Zustand Ihrer Daten bietet. Verwenden Sie den Wert von Data Quality, um sichere Geschäftsentscheidungen zu treffen.

  • Schlechte Daten im Visier — AWS Glue Data Quality hilft Ihnen dabei, genau die Datensätze zu identifizieren, die zu einem Rückgang Ihrer Qualitätswerte geführt haben. Identifizieren, isolieren und beheben Sie sie ganz einfach.

  • Pay-as-you-go — Für die Nutzung von AWS Glue Data Quality benötigen Sie keine Jahreslizenzen.

  • Keine Bindung — AWS Glue Data Quality basiert auf Open Source DeeQu, sodass Sie die Regeln, die Sie erstellen, in einer offenen Sprache aufbewahren können.

  • Datenqualitätsprüfungen — Sie können Datenqualitätsprüfungen Data Catalog und AWS Glue ETL Pipelines durchsetzen, sodass Sie die Datenqualität im Ruhezustand und bei der Übertragung verwalten können.

  • ML-basierte Datenqualitätserkennung — Verwenden Sie maschinelles Lernen (ML), um Anomalien und hard-to-detect Datenqualitätsprobleme zu erkennen.

  • Offene Sprache für ausdrückliche Regeln — stellt sicher, dass Datenqualitätsregeln einheitlich und einfach verfasst werden. Geschäftsanwender können Datenqualitätsregeln einfach in einer einfachen Sprache ausdrücken, die sie verstehen können. Für Ingenieure bietet diese Sprache die Flexibilität, Code zu generieren, eine konsistente Versionskontrolle zu implementieren und Bereitstellungen zu automatisieren.

Funktionsweise

Es gibt zwei Einstiegspunkte für AWS Glue Datenqualität: die AWS Glue ETL Jobs AWS Glue Data Catalog und. Dieser Abschnitt bietet einen Überblick über die Anwendungsfälle und AWS Glue Funktionen, die von den einzelnen Einstiegspunkten unterstützt werden.

Datenqualität für AWS Glue Data Catalog

AWS Glue Data Quality bewertet Objekte, die in der gespeichert sind. AWS Glue Data Catalog Es bietet Nicht-Programmierern eine einfache Möglichkeit, Datenqualitätsregeln einzurichten. Zu diesen Persönlichkeiten gehören Datenverwalter und Geschäftsanalysten.

Sie können diese Option für die folgenden Anwendungsfälle wählen:

  • Sie möchten Datenqualitätsaufgaben für Datensätze durchführen, die Sie bereits im AWS Glue Data Catalog katalogisiert haben.

  • Sie arbeiten an der Datenverwaltung und müssen kontinuierlich Datenqualitätsprobleme in Ihrem Data Lake identifizieren oder bewerten.

Sie können die Datenqualität für den Datenkatalog über die folgenden Schnittstellen verwalten:

  • Die Managementkonsole AWS Glue

  • AWS Glue APIs

Informationen zu den ersten Schritten mit AWS Glue Data Quality for the AWS Glue Data Catalog finden Sie unterErste Schritte mit AWS Glue Data Quality für den Data Catalog.

Datenqualität für AWS Glue ETL Jobs

AWS Glue Mit Data Quality for AWS Glue ETL Jobs können Sie proaktive Datenqualitätsaufgaben ausführen. Proaktive Aufgaben helfen Ihnen, fehlerhafte Daten zu identifizieren und herauszufiltern, bevor Sie einen Datensatz in Ihren Data Lake laden.

Sie können Datenqualität für ETL Jobs für die folgenden Anwendungsfälle wählen:

  • Sie möchten Datenqualitätsaufgaben in Ihre ETL Jobs integrieren

  • Sie möchten Code schreiben, der Datenqualitätsaufgaben in ETL Skripten definiert

  • Sie möchten die Qualität der Daten, die in Ihren visuellen Daten-Pipelines fließen, verwalten

Sie können die Datenqualität für ETL Jobs mithilfe der folgenden Schnittstellen verwalten:

  • AWS Glue Studio, AWS Glue Studio Notizbücher und AWS Glue interaktive Sitzungen

  • AWS Glue Bibliotheken für ETL Scripting

  • AWS Glue APIs

Informationen zu den ersten Schritten mit Datenqualität für ETL Jobs finden Sie unter Tutorial: Erste Schritte mit Datenqualität im AWS Glue Studio Benutzerhandbuch.

Vergleich der Datenqualität für den Datenkatalog mit der Datenqualität für ETL Jobs

Diese Tabelle bietet einen Überblick über die Funktionen, die von den einzelnen Einstiegspunkten für AWS Glue Datenqualität unterstützt werden.

Funktion Datenqualität für den Datenkatalog Datenqualität für ETL Jobs
Datenquellen Amazon S3, Amazon Redshift, mit dem Datenkatalog kompatible JDBC Quellen und transaktionale Data-Lake-Formate wie Apache Iceberg, Apache Hudi und Delta Lake. Beachten Sie, dass Iceberg, Delta und Tabellen nicht unterstützt werden, wenn Tabellen AWS Lake Formation verwaltet werden. HUDI Amazon Athena katalogisierte Ansichten AWS Glue Data Catalog werden nicht unterstützt. Alle Datenquellen werden von unterstützt AWS Glue, einschließlich benutzerdefinierter Konnektoren und Konnektoren von Drittanbietern.
Empfehlungen für Data-Quality-Regeln Unterstützt Nicht unterstützt
DQDLRegeln erstellen und ausführen Unterstützt Unterstützt
Auto-Scaling Nicht unterstützt Unterstützt
AWS Glue Flex-Unterstützung Nicht unterstützt Unterstützt
Planung Wird beim Auswerten von Data-Quality-Regeln und über Schrittfunktionen unterstützt. Wird bei der Verwendung von Schrittfunktionen und Workflows unterstützt.
Identifizieren von Datensätzen, bei denen die Datenqualitätsprüfungen fehlgeschlagen sind Nicht unterstützt Unterstützt
Integration mit Amazon Eventbridge Unterstützt Unterstützt
Integration mit AWS Cloudwatch Unterstützt Unterstützt
Schreiben von Datenqualitätsergebnissen in Amazon S3 Unterstützt Unterstützt
Inkrementelle Datenqualität Wird über Pushdown-Prädikate unterstützt Wird über AWS Glue Lesezeichen unterstützt
AWS CloudFormation Unterstützung Unterstützt Unterstützt
ML-gestützte Anomalieerkennung Nicht unterstützt Unterstützt
Dynamische Regeln Nicht unterstützt Unterstützt

Überlegungen

Beachten Sie die folgenden Punkte, bevor Sie AWS Glue Data Quality verwenden:

Terminologie

In der folgenden Liste werden Begriffe definiert, die sich auf AWS Glue Datenqualität beziehen.

Definitionssprache für Datenqualität (DQDL)

Eine domänenspezifische Sprache, mit der Sie AWS Glue Datenqualitätsregeln schreiben können.

Weitere Informationen DQDL dazu finden Sie in der Referenz zur Data Quality Definition Language (DQDL) Anleitung.

Datenqualität

Beschreibt, wie gut ein Datensatz seinen spezifischen Zweck erfüllt. AWS Glue Data Quality bewertet Regeln anhand eines Datensatzes, um die Datenqualität zu messen. Jede Regel prüft auf bestimmte Merkmale wie Datenaktualität oder -integrität. Zur Quantifizierung der Datenqualität können Sie einen Datenqualitätswert verwenden.

Datenqualitätswert

Der Prozentsatz der Datenqualitätsregeln, die erfüllt werden (das Ergebnis ist wahr), wenn Sie einen Regelsatz mit AWS Glue Data Quality auswerten.

Regel

Ein DQDL Ausdruck, der Ihre Daten auf ein bestimmtes Merkmal überprüft und einen booleschen Wert zurückgibt. Weitere Informationen finden Sie unter Regelstruktur.

Analysator

Ein DQDL Ausdruck, der Datenstatistiken sammelt. Ein Analysator sammelt Datenstatistiken, die von ML-Algorithmen verwendet werden können, um Anomalien und hard-to-detect Datenqualitätsprobleme im Laufe der Zeit zu erkennen.

Regelsatz

Eine AWS Glue Ressource, die eine Reihe von Datenqualitätsregeln umfasst. Ein Regelsatz muss einer Tabelle im AWS Glue Data Catalog zugeordnet sein. Wenn Sie einen Regelsatz speichern, AWS Glue weist er dem Regelsatz einen Amazon-Ressourcennamen (ARN) zu.

Datenqualitätswert

Der Prozentsatz der Datenqualitätsregeln, die bei der Auswertung eines Regelsatzes mit AWS Glue Data Quality erfolgreich sind (das Ergebnis ist wahr).

Beobachtung

Eine von AWS Glue generierte unbestätigte Erkenntnis, die durch die Analyse von Datenstatistiken gewonnen wird, die im Laufe der Zeit anhand von Regeln und Analysatoren erfasst wurden.

Einschränkungen

AWS Glue Einschränkungen des Datenqualitätsdienstes:

  • Ein Regelsatz kann 2.000 Regeln enthalten. Wenn Ihre Regelsätze größer sind, empfehlen wir, sie in mehrere Regelsätze aufzuteilen.

  • Die Größe des Regelsatzes beträgt 65 KB. Wenn Ihre Regelsätze größer sind, empfehlen wir, sie in mehrere Regelsätze aufzuteilen.

  • AWS Glue Data Quality sammelt Statistiken, wenn Sie eine Regel oder einen Analysator erstellen. Das Speichern dieser Statistiken ist mit keinen Kosten verbunden. Es gibt jedoch ein Limit von 100.000 Statistiken pro Konto, und diese Statistiken werden maximal zwei Jahre lang aufbewahrt.

Versionshinweise für AWS Glue Datenqualität

In diesem Thema werden die in AWS Glue Data Quality eingeführten Funktionen beschrieben.

Allgemeine Verfügbarkeit: neue Features

Die folgenden neuen Funktionen sind mit der allgemeinen Verfügbarkeit von AWS Glue Data Quality verfügbar:

  • Die Möglichkeit, festzustellen, welche Datensätze die Datenqualitätsprüfungen nicht bestanden haben, wird jetzt unterstützt in AWS Glue Studio

  • Neue Regeltypen für die Datenqualität, wie z. B. die Validierung der referenziellen Integrität von Daten zwischen zwei Datensätzen, der Vergleich von Daten zwischen zwei Datensätzen und Datentypprüfungen

  • Verbesserte Benutzererfahrung in der AWS Glue Data Catalog

  • Unterstützung für Apache Iceberg, Apache Hudi und Delta Lake

  • Unterstützung für Amazon Redshift

  • Vereinfachte Benachrichtigung mit Amazon EventBridge

  • AWS CloudFormation Unterstützung für die Erstellung von Regelsätzen

  • Leistungsverbesserungen: Caching-Option in ETL und AWS Glue Studio für eine schnellere Leistung bei der Bewertung der Datenqualität

27. November 2023 (Vorschau)

12. März 2024

26. Juni 2024

  • DQDLVerbesserungen

    • DQDLunterstützt jetzt die WHERE-Klausel, sodass Sie Daten filtern können, bevor Sie DQ-Regeln anwenden

7. August 2024

  • Anomalieerkennung und dynamische Regeln sind jetzt allgemein verfügbar