Anomalieerkennung in AWS Glue Data Quality - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Anomalieerkennung in AWS Glue Data Quality

Ingenieure verwalten Hunderte von Daten-Pipelines gleichzeitig. Jede Pipeline kann Daten aus verschiedenen Quellen extrahieren und in den Data Lake oder andere Datenrepositorien laden. Um sicherzustellen, dass qualitativ hochwertige Daten für die Entscheidungsfindung bereitgestellt werden, legen sie Datenqualitätsregeln fest. Diese Regeln bewerten die Daten auf der Grundlage fester Kriterien, die den aktuellen Geschäftsstand widerspiegeln. Wenn sich das Geschäftsumfeld jedoch ändert, ändern sich die Dateneigenschaften, wodurch diese festen Kriterien überholt sind und die Datenqualität beeinträchtigt wird.

Beispielsweise hat ein Dateningenieur in einem Einzelhandelsunternehmen eine Regel festgelegt, nach der der Tagesumsatz einen bestimmten one-million-dollar Schwellenwert überschreiten muss. Nach einigen Monaten überstieg der Tagesumsatz zwei Millionen Dollar, sodass der Schwellenwert nicht mehr gültig war. Der Dateningenieur konnte die Regeln nicht aktualisieren, um die aktuellen Schwellenwerte widerzuspiegeln, da keine Benachrichtigung erfolgte und die Regel aufwändig manuell analysiert und aktualisiert werden musste. Später im Monat stellten Geschäftsanwender einen Umsatzrückgang von 25% fest. Nach stundenlangen Untersuchungen stellten die Dateningenieure fest, dass eine ETL Pipeline, die für das Extrahieren von Daten aus einigen Geschäften zuständig war, ausgefallen war, ohne dass Fehler aufgetreten sind. Die Regel mit veralteten Schwellenwerten funktionierte weiterhin erfolgreich, ohne dass dieses Problem erkannt wurde.

Alternativ hätten proaktive Warnmeldungen, die diese Anomalien erkennen können, es Benutzern ermöglichen, dieses Problem zu erkennen. Darüber hinaus kann die Überwachung der Saisonalität im Geschäft auf erhebliche Probleme mit der Datenqualität hinweisen. Beispielsweise können die Einzelhandelsumsätze an Wochenenden und in der Weihnachtszeit am höchsten sein, während sie an Wochentagen relativ niedrig sind. Eine Abweichung von diesem Muster kann auf Probleme mit der Datenqualität oder Veränderungen der Geschäftsumstände hinweisen. Mit Datenqualitätsregeln können saisonale Muster nicht erkannt werden, da hierfür fortschrittliche Algorithmen erforderlich sind, die aus vergangenen Mustern lernen und saisonale Schwankungen erfassen können, um Abweichungen zu erkennen.

Schließlich finden es Benutzer schwierig, Regeln zu erstellen und zu verwalten, da der Regelerstellungsprozess technisch ist und die Erstellung dieser Regeln zeitaufwändig ist. Aus diesem Grund ziehen sie es vor, zuerst Dateneinblicke zu untersuchen, bevor sie Regeln definieren. Kunden müssen in der Lage sein, Anomalien mühelos zu erkennen, sodass sie Datenqualitätsprobleme proaktiv erkennen und fundierte Geschäftsentscheidungen treffen können.

Funktionsweise

Anmerkung

Die Erkennung von Anomalien wird nur in AWS Glue ETL unterstützt. Dies wird in der Datenqualität, die auf dem Datenkatalog basiert, nicht unterstützt.

Dieser Screenshot zeigt den Prozess der Anomalieerkennung in Data Quality.

AWS Glue Data Quality kombiniert die Leistungsfähigkeit regelbasierter Datenqualitäts- und Anomalieerkennungsfunktionen, um qualitativ hochwertige Daten zu liefern. Um loszulegen, müssen Sie zuerst Regeln und Analysatoren konfigurieren und dann die Anomalieerkennung aktivieren.

Regeln

Regeln — Regeln drücken die Erwartungen an Ihre Daten in einer offenen Sprache aus, der sogenannten Data Quality Definition Language ()DQDL. Ein Beispiel für eine Regel ist unten dargestellt. Diese Regel ist erfolgreich, wenn die Spalte `passenger_count` keine leeren NULL Werte oder Werte enthält:

Rules = [ IsComplete "passenger_count" ]

Analysatoren

In Situationen, in denen Sie die kritischen Spalten kennen, aber möglicherweise nicht genug über die Daten wissen, um spezifische Regeln zu schreiben, können Sie diese Spalten mit Analyzern überwachen. Analyzer sind eine Möglichkeit, Datenstatistiken zu sammeln, ohne explizite Regeln zu definieren. Ein Beispiel für die Konfiguration von Analyzern ist unten dargestellt:

Analyzers = [ AllStatistics "fare_amount", DistinctValuesCount "pulocationid", RowCount ]

In diesem Beispiel sind drei Analyzer konfiguriert:

  1. Der erste Analyzer, `AllStatistics „fare_amount"`, erfasst alle verfügbaren Statistiken für das Feld `fare_amount`.

  2. Der zweite Analyzer, `DistinctValuesCount „pulocationid"`, erfasst die Anzahl der unterschiedlichen Werte in der Spalte `pulocationid`.

  3. Der dritte Analyzer, `RowCount`, erfasst die Gesamtzahl der Datensätze im Datensatz.

Analysatoren dienen als einfache Methode zur Erfassung relevanter Datenstatistiken, ohne dass komplexe Regeln festgelegt werden müssen. Durch die Überwachung dieser Statistiken können Sie Einblicke in die Datenqualität gewinnen und potenzielle Probleme oder Anomalien identifizieren, die möglicherweise weitere Untersuchungen oder die Erstellung spezifischer Regeln erfordern.

Datenstatistik

Sowohl Analyzer als auch Rules in AWS Glue Data Quality erfassen Datenstatistiken, auch bekannt als Datenprofile. Diese Statistiken bieten Einblicke in die Eigenschaften und die Qualität Ihrer Daten. Die gesammelten Statistiken werden im Laufe der Zeit innerhalb des AWS Glue-Dienstes gespeichert, sodass Sie Änderungen in Ihren Datenprofilen verfolgen und analysieren können.

Sie können diese Statistiken einfach abrufen und zur weiteren Analyse oder Langzeitspeicherung in Amazon S3 schreiben, indem Sie die entsprechende APIs Option aufrufen. Diese Funktion ermöglicht es Ihnen, die Erstellung von Datenprofilen in Ihre Datenverarbeitungsabläufe zu integrieren und die gesammelten Statistiken für verschiedene Zwecke zu nutzen, z. B. für die Überwachung der Datenqualität und die Erkennung von Anomalien.

Durch das Speichern der Datenprofile in Amazon S3 können Sie die Skalierbarkeit, Haltbarkeit und Wirtschaftlichkeit des Objektspeicherservices von Amazon nutzen. Darüber hinaus können Sie andere AWS Dienste oder Tools von Drittanbietern nutzen, um die Datenprofile zu analysieren und zu visualisieren, sodass Sie tiefere Einblicke in Ihre Datenqualität gewinnen und fundierte Entscheidungen über Datenmanagement und Datenverwaltung treffen können.

Hier ist ein Beispiel für Datenstatistiken, die im Laufe der Zeit gespeichert wurden.

Der Screenshot zeigt ein Liniendiagramm mit Statistiken zur Datenqualität im Zeitverlauf.
Anmerkung

AWS Glue Data Quality erfasst Statistiken nur einmal, auch wenn Sie sowohl Rule als auch Analyzer für dieselben Spalten haben, wodurch der Prozess der Statistikgenerierung effizient wird.

Anomalieerkennung

AWS Glue Data Quality erfordert mindestens drei Datenpunkte, um Anomalien zu erkennen. Es verwendet einen Algorithmus für maschinelles Lernen, um aus vergangenen Trends zu lernen und dann future Werte vorherzusagen. Wenn der tatsächliche Wert nicht innerhalb des vorhergesagten Bereichs liegt, erstellt AWS Glue Data Quality eine Anomaliebeobachtung. Es bietet eine visuelle Darstellung des tatsächlichen Werts und der Trends. In der folgenden Grafik werden vier Werte angezeigt.

Der Screenshot zeigt ein Liniendiagramm mit Ereignissen bei der Erkennung von Datenqualitätsanomalien im Zeitverlauf.
  1. Die aktuelle Statistik und ihr Trend im Zeitverlauf.

  2. Ein abgeleiteter Trend, der durch Lernen aus dem tatsächlichen Trend abgeleitet wird. Dies ist nützlich, um die Trendrichtung zu verstehen.

  3. Die mögliche Obergrenze für die Statistik.

  4. Die mögliche Untergrenze für die Statistik.

  5. Empfohlene Datenqualitätsregeln, mit denen diese Probleme in future erkannt werden können.

In Bezug auf Anomalien sind einige wichtige Dinge zu beachten:

  • Wenn Anomalien generiert werden, hat dies keinen Einfluss auf die Datenqualitätswerte.

  • Wenn eine Anomalie erkannt wird, wird sie bei nachfolgenden Durchläufen als normal angesehen. Der Algorithmus für maschinelles Lernen betrachtet diesen anomalen Wert als Eingabe, sofern er nicht ausdrücklich ausgeschlossen wird.

Umschulung

Eine Umschulung des Modells zur Erkennung von Anomalien ist entscheidend, um die richtigen Anomalien zu erkennen. Wenn Anomalien erkannt werden, nimmt AWS Glue Data Quality die Anomalie als Normalwert in das Modell auf. Um sicherzustellen, dass die Anomalieerkennung korrekt funktioniert, ist es wichtig, Feedback zu geben, indem die Anomalie bestätigt oder abgelehnt wird. AWS Glue Data Quality bietet Mechanismen sowohl in AWS Glue Studio als auch APIs zur Bereitstellung von Feedback zum Modell. Weitere Informationen finden Sie in der Dokumentation zur Einrichtung der Anomalieerkennung in AWS ETL Glue-Pipelines.

Einzelheiten zum Algorithmus zur Erkennung von Anomalien

  • Der Algorithmus zur Erkennung von Anomalien untersucht Datenstatistiken im Zeitverlauf. Der Algorithmus berücksichtigt alle verfügbaren Datenpunkte und ignoriert alle Statistiken, die explizit ausgeschlossen wurden.

  • Diese Datenstatistiken werden im AWS Glue-Dienst gespeichert, und Sie können AWS KMS Schlüssel zur Verschlüsselung bereitstellen. Informationen zur Bereitstellung von AWS KMS Schlüsseln zur Verschlüsselung der AWS Glue-Datenqualitätsstatistiken finden Sie im Sicherheitsleitfaden.

  • Die Zeitkomponente ist entscheidend für den Algorithmus zur Erkennung von Anomalien. Basierend auf vergangenen Werten bestimmt AWS Glue Data Quality die Ober- und Untergrenzen. Bei dieser Bestimmung wird die Zeitkomponente berücksichtigt. Die Grenzwerte unterscheiden sich für dieselben Werte in einem Intervall von einer Minute, einem Stundenintervall oder einem Tagesintervall.

Erfassung der Saisonalität

AWS Der Algorithmus zur Erkennung von Anomalien von Glue Data Quality kann saisonale Muster erfassen. Es kann beispielsweise nachvollziehen, dass sich die Muster an Wochentagen von den Mustern am Wochenende unterscheiden. Dies ist im folgenden Beispiel zu sehen, in dem AWS Glue Data Quality einen saisonalen Trend in den Datenwerten erkennt. Sie müssen nichts Spezielles tun, um diese Funktion zu aktivieren. Im Laufe der Zeit lernt AWS Glue Data Quality saisonale Trends kennen und erkennt Anomalien, wenn diese Muster durchbrechen.

Der Screenshot zeigt eine Registerkarte „Datenqualität“ mit Daten, die Anomalien bei der Erfassung saisonaler Trends zeigen.

Kosten

Die Gebühr richtet sich nach der Zeit, die für die Erkennung von Anomalien benötigt wird. Für jede Statistik wird 1€ DPU für die Zeit berechnet, die zur Erkennung von Anomalien benötigt wird. Ausführliche Beispiele finden Sie unter AWS Glue Pricing.

Die wichtigsten Überlegungen

Die Speicherung der Statistiken ist kostenlos. Es gibt jedoch ein Limit von 100.000 Statistiken pro Konto. Diese Statistiken werden für maximal zwei Jahre gespeichert.