Datenherkunft in Amazon DataZone (Vorschau) - Amazon DataZone

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Datenherkunft in Amazon DataZone (Vorschau)

Wichtig

Derzeit befindet sich die Data Lineage-Funktionalität in Amazon DataZone in einer Vorschauversion.

Bei Data Lineage in Amazon DataZone handelt es sich um eine API OpenLineage kompatible Funktion, mit der Sie Herkunftsereignisse von oder über OpenLineage -fähige Systeme erfassen und visualisieren können, um Datenherkünfte nachzuverfolgenAPIs, Transformationen zu verfolgen und den unternehmensübergreifenden Datenverbrauch zu verfolgen. Sie bietet Ihnen einen umfassenden Überblick über Ihre Datenbestände, sodass Sie die Herkunft der Ressourcen und ihre Verbindungskette nachvollziehen können. Die Herkunftsdaten umfassen Informationen zu den Aktivitäten im Geschäftsdatenkatalog DataZone von Amazon, einschließlich Informationen über die katalogisierten Vermögenswerte, die Abonnenten dieser Vermögenswerte und die Aktivitäten, die außerhalb des Geschäftsdatenkatalogs stattfinden, der programmatisch mithilfe von erfasst wurde. APIs

Mithilfe DataZone von OpenLineage Amazon-kompatiblen Funktionen APIs können Domainadministratoren und Datenproduzenten Abstammungsereignisse erfassen und speichern, die über das hinausgehen, was in Amazon verfügbar ist DataZone, einschließlich Transformationen in Amazon S3. AWS Glue und andere Dienstleistungen. Dies bietet den Datennutzern einen umfassenden Überblick und hilft ihnen, Vertrauen in die Herkunft der Ressource zu gewinnen, während Datenproduzenten die Auswirkungen von Änderungen an einer Ressource einschätzen können, indem sie ihre Nutzung verstehen. Darüber hinaus DataZone versioniert Amazon die Herkunft mit jedem Ereignis, sodass Benutzer die Herkunft zu jedem Zeitpunkt visualisieren oder Transformationen im Verlauf einer Anlage oder eines Auftrags vergleichen können. Diese historische Herkunft ermöglicht ein tieferes Verständnis der Entwicklung von Daten, was für die Fehlerbehebung, Prüfung und Sicherstellung der Integrität von Datenbeständen unerlässlich ist.

Mit Data Lineage können Sie in Amazon DataZone Folgendes erreichen:

  • Verstehen Sie die Herkunft von Daten: Zu wissen, woher die Daten stammen, fördert das Vertrauen in Daten, da Sie ein klares Verständnis ihrer Ursprünge, Abhängigkeiten und Transformationen erhalten. Diese Transparenz hilft dabei, fundierte datengestützte Entscheidungen zu treffen.

  • Machen Sie sich mit den Auswirkungen von Änderungen an Datenleitungen vertraut: Wenn Änderungen an Datenleitungen vorgenommen werden, kann die Herkunft verwendet werden, um alle nachgelagerten Verbraucher zu identifizieren, die betroffen sein sollen. Auf diese Weise kann sichergestellt werden, dass Änderungen vorgenommen werden, ohne den kritischen Datenfluss zu stören.

  • Identifizieren Sie die Hauptursache von Datenqualitätsproblemen: Wenn in einem nachgelagerten Bericht ein Datenqualitätsproblem festgestellt wird, kann die Herkunft, insbesondere die Herkunft auf Spaltenebene, verwendet werden, um die Daten (auf Spaltenebene) zurückzuverfolgen, um das Problem bis zu seiner Quelle zu identifizieren. Dies kann Datentechnikern helfen, das Problem zu identifizieren und zu beheben.

  • Verbessern Sie die Datenverwaltung und -konformität: Anhand der Herkunft auf Spaltenebene kann die Einhaltung von Datenmanagement- und Datenschutzbestimmungen nachgewiesen werden. Die Herkunft auf Spaltenebene kann beispielsweise verwendet werden, um zu zeigen, wo sensible Daten (z. B.PII) gespeichert sind und wie sie in nachgelagerten Aktivitäten verarbeitet werden.

Arten von Abstammungsknoten in Amazon DataZone

In Amazon DataZone werden Informationen zur Datenherkunft in Knoten dargestellt, die Tabellen und Ansichten darstellen. Je nach Kontext des Projekts, z. B. bei einem Projekt, das oben links im Datenportal ausgewählt wurde, können die Produzenten sowohl das Inventar als auch die veröffentlichten Ressourcen einsehen, wohingegen Verbraucher nur die veröffentlichten Ressourcen einsehen können. Wenn Sie die Registerkarte Herkunft auf der Seite mit den Asset-Details zum ersten Mal öffnen, ist der katalogisierte Datensatzknoten der Ausgangspunkt für die Navigation flussaufwärts oder flussabwärts durch die Abstammungsknoten Ihres Abstammungsdiagramms.

Die folgenden Typen von Data Lineage-Knoten werden in Amazon DataZone unterstützt:

  • Datensatzknoten — Dieser Knotentyp enthält Informationen zur Datenherkunft zu einem bestimmten Datenbestand.

    • Datensatzknoten, die Informationen enthalten über AWS Im DataZone Amazon-Katalog veröffentlichte Glue- oder Amazon Redshift-Assets werden automatisch generiert und enthalten eine entsprechende AWS Glue oder Amazon Redshift Redshift-Symbol innerhalb des Knotens.

    • Datensatzknoten, die Informationen über Assets enthalten, die nicht im DataZone Amazon-Katalog veröffentlicht wurden, werden manuell von Domain-Administratoren (Produzenten) erstellt und durch ein standardmäßiges benutzerdefiniertes Asset-Symbol innerhalb des Knotens dargestellt.

  • Job-Knoten (Run) — Dieser Knotentyp zeigt die Details des Jobs an, einschließlich der letzten Ausführung eines bestimmten Jobs und der Ausführungsdetails. Dieser Knoten erfasst auch mehrere Ausführungen des Auftrags und kann in den Knotendetails auf der Registerkarte Verlauf eingesehen werden. Sie können die Knotendetails anzeigen, indem Sie auf das Knotensymbol klicken.

Schlüsselattribute in Abstammungsknoten

Das sourceIdentifier Attribut in einem Abstammungsknoten stellt die Ereignisse dar, die in einem Datensatz stattfinden. Der Name sourceIdentifier des Abstammungsknotens ist der Identifier des Datensatzes (Tabelle/Ansicht usw.). Es wird zur Durchsetzung der Eindeutigkeit der Abstammungsknoten verwendet. Zum Beispiel kann es nicht zwei Abstammungsknoten mit demselben Namen geben. sourceIdentifier Im Folgenden finden Sie Beispiele für sourceIdentifier Werte für verschiedene Knotentypen:

  • Für Datensatzknoten mit dem jeweiligen Datensatztyp:

    • Objekt: amazon.datazone.asset/< > assetId

    • Angebot (veröffentlichtes Asset): amazon.datazone.listing/< > listingId

    • AWS <region><account-id><database>Klebetabelle: arn:aws:glue: ::table//<table-name>

    • <account-id><table-type (table/view etc) > <database><schema>Amazon Redshift Redshift-Tabelle/-Ansicht: arn:aws: <redshift/redshift-serverless><region>: :/</>//clusterIdentifierworkgroupName<table-name>

    • Für jeden anderen Typ von Datensatzknoten, die mithilfe von Open-Lineage-Runereignissen importiert wurden, wird<namespace>/<name>des Eingabe-/Ausgabe-Datensatzes wie für den Knoten verwendet. sourceIdentifier

  • Für Jobs:

    • <jobs_namespace>Für Job-Knoten, die mithilfe von Open-Lineage-Runereignissen importiert wurden,. <job_name>wird verwendet als. sourceIdentifier

  • Für Jobläufe:

    • <jobs_namespace>Für Job-Run-Knoten, die mithilfe von Open-Lineage-Runereignissen importiert wurden,. <job_name>/<run_id>wird als verwendet. sourceIdentifier

Bei Objekten createAssetAPI, die mit erstellt wurden, sourceIdentifier müssen diese aktualisiert werden, createAssetRevision API um die Zuordnung des Objekts zu Upstream-Ressourcen zu ermöglichen.

Visualisierung der Datenherkunft

Die Seite mit den DataZone Asset-Details von Amazon bietet eine grafische Darstellung der Datenherkunft, sodass Datenbeziehungen im Upstream- oder Downstream-Bereich einfacher visualisiert werden können. Die Seite mit den Asset-Details bietet die folgenden Funktionen zum Navigieren im Diagramm:

  • Herkunft auf Spaltenebene: Erweitern Sie die Herkunft auf Spaltenebene, sofern diese in Datensatzknoten verfügbar ist. Dadurch werden automatisch Beziehungen zu Datensatzknoten vor- oder nachgelagerten Datensatzknoten angezeigt, sofern Quellspalteninformationen verfügbar sind.

  • Spaltensuche: wenn die Standardanzeige für die Anzahl der Spalten 10 ist. Wenn es mehr als 10 Spalten gibt, wird die Seitennummerierung aktiviert, um zu den restlichen Spalten zu navigieren. Um eine bestimmte Spalte schnell anzuzeigen, können Sie auf dem Datensatzknoten suchen, der nur die gesuchte Spalte auflistet.

  • Nur Datensatzknoten anzeigen: Wenn Sie umschalten möchten, dass nur die Stammknoten des Datensatzes angezeigt und die Job-Knoten herausgefiltert werden, können Sie oben links im Graph Viewer auf das Symbol „Ansicht öffnen“ klicken und die Option Nur Datensatzknoten anzeigen aktivieren. Dadurch werden alle Job-Knoten aus dem Diagramm entfernt und Sie können nur in den Datensatzknoten navigieren. Beachten Sie, dass das Diagramm nicht flussaufwärts oder flussabwärts erweitert werden kann, wenn die Option Nur Datensatzknoten anzeigen aktiviert ist.

  • Detailbereich: Jeder Abstammungsknoten enthält Details, die erfasst und angezeigt werden, wenn er ausgewählt wird.

    • Der Datensatzknoten verfügt über einen Detailbereich, in dem alle Details angezeigt werden, die für diesen Knoten für einen bestimmten Zeitstempel erfasst wurden. Jeder Datensatzknoten hat drei Registerkarten: Herkunftsinformationen, Schema und Verlauf. Auf der Registerkarte „Verlauf“ werden die verschiedenen Versionen des für diesen Knoten erfassten Abstammungsereignisses aufgeführt. Alle erfassten Details API werden mithilfe von Metadatenformularen oder einem JSON Viewer angezeigt.

    • Der Job-Knoten verfügt über einen Detailbereich, in dem Jobdetails mit Registerkarten angezeigt werden, nämlich: Job-Info und Historie. Im Detailbereich werden auch Abfragen oder Ausdrücke erfasst, die im Rahmen der Auftragsausführung erfasst wurden. Auf der Registerkarte Verlauf werden die verschiedenen Versionen des für diesen Job erfassten Auftragsereignisses aufgeführt. Alle erfassten Details API werden mithilfe von Metadatenformularen oder einem JSON Viewer angezeigt.

  • Versions-Tabs: Alle Abstammungsknoten in Amazon DataZone Data Lineage verfügen über eine Versionierung. Für jeden Datensatz- oder Job-Knoten werden die Versionen als Historie erfasst, sodass Sie zwischen den verschiedenen Versionen navigieren können, um festzustellen, was sich im Laufe der Zeit geändert hat. Für jede Version wird auf der Herkunft-Seite ein neuer Tab geöffnet, der Ihnen beim Vergleich oder bei der Gegenüberstellung hilft.

Autorisierung von Data Lineage bei Amazon DataZone

Schreibberechtigungen — Um Abstammungsdaten in Amazon zu veröffentlichen DataZone, benötigen Sie eine IAM Rolle mit einer Berechtigungsrichtlinie, die eine ALLOW Aktion für die PostLineageEvent API beinhaltet. Diese IAM Autorisierung erfolgt auf API Gateway-Ebene.

Leseberechtigungen — es gibt zwei Operationen: GetLineageNode und ListLineageNodeHistory die sind in der AmazonDataZoneDomainExecutionRolePolicy verwalteten Richtlinie enthalten, sodass jeder Benutzer in der DataZone Amazon-Domain sie aufrufen kann, um das Data Lineage Graph zu durchlaufen.

Beispielerfahrung mit Data Lineage bei Amazon DataZone

Sie können das Data Lineage-Beispielerlebnis nutzen, um die Datenherkunft in Amazon zu durchsuchen und zu verstehen DataZone, einschließlich der Durchquerung von Upstream- oder Downstream-Prozessen in Ihrem Data Lineage-Diagramm, der Erkundung von Versionen und Herkunft auf Spaltenebene.

Gehen Sie wie folgt vor, um das Data Lineage-Beispiel in Amazon auszuprobieren: DataZone

  1. Navigieren Sie zum DataZone Amazon-Datenportal URL und melden Sie sich mit Single Sign-On (SSO) oder Ihrem AWS Anmeldeinformationen. Wenn Sie ein DataZone Amazon-Administrator sind, können Sie unter https://console.aws.amazon.com/datazone zur DataZone Amazon-Konsole navigieren und sich mit dem AWS-Konto wo die Domain erstellt wurde, und wählen Sie dann Datenportal öffnen.

  2. Wählen Sie ein verfügbares Datenobjekt aus, um die Detailseite des Assets zu öffnen.

  3. Wählen Sie auf der Detailseite des Assets die Registerkarte Herkunft und anschließend Vorschau und anschließend die Option Muster-Herkunft testen aus.

  4. Wählen Sie im Popupfenster mit Data Lineage die Option Geführte Datenherkunftstour starten aus.

    An dieser Stelle wird eine Registerkarte im Vollbildmodus angezeigt, die alle Informationen zur Herkunft enthält. Das Beispieldiagramm zur Datenherkunft wird zunächst mit einem Basisknoten angezeigt, der an beiden Enden, flussaufwärts und flussabwärts, eine Tiefe von 1 hat. Sie können das Diagramm flussaufwärts oder flussabwärts erweitern. Die Spalteninformationen stehen Ihnen auch zur Verfügung, sodass Sie auswählen und sehen können, wie die Herkunft durch die Knoten fließt.

Programmgesteuertes Verwenden DataZone von Amazon Data Lineage

Um die Data Lineage-Funktionalität in Amazon zu verwenden DataZone, können Sie Folgendes aufrufen: APIs