DataZone Amazon-Terminologie und Konzepte - Amazon DataZone

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

DataZone Amazon-Terminologie und Konzepte

Wenn Sie mit Amazon beginnen DataZone, ist es wichtig, dass Sie die wichtigsten Konzepte, Terminologie und Komponenten von Amazon verstehen.

DataZone Amazon-Komponenten

Amazon DataZone umfasst die folgenden vier Hauptkomponenten:

  • Geschäftsdatenkatalog — Sie können diese Komponente verwenden, um Daten in Ihrem gesamten Unternehmen mit geschäftlichem Kontext zu katalogisieren und so jedem in Ihrem Unternehmen zu ermöglichen, Daten schnell zu finden und zu verstehen.

  • Workflows veröffentlichen und abonnieren — Sie können diese automatisierten Workflows verwenden, um Daten zwischen Produzenten und Verbrauchern auf Self-Service-Weise zu schützen und sicherzustellen, dass jeder in Ihrem Unternehmen Zugriff auf die richtigen Daten für den richtigen Zweck hat.

  • Projekte und Umgebungen

    • Bei DataZone Amazon-Projekten handelt es sich um auf geschäftliche Anwendungsfälle basierende Gruppierungen von Personen, Ressourcen (Daten) und Tools, die den Zugriff auf die Analysen vereinfachen. AWS Projekte bieten Bereiche, in denen Projektmitglieder zusammenarbeiten, Daten austauschen und Ressourcen gemeinsam nutzen können. Standardmäßig sind Projekte so konfiguriert, dass nur Personen, die dem Projekt explizit hinzugefügt wurden, auf die darin enthaltenen Daten- und Analysetools zugreifen können. Projekte verwalten das Eigentum an Ressourcen, die gemäß den Projektrichtlinien erstellt wurden, damit Datennutzer darauf zugreifen können.

    • Innerhalb von DataZone Amazon-Projekten sind Umgebungen Sammlungen von null oder mehr konfigurierten Ressourcen (z. B. ein Amazon S3-Bucket, eine AWS Glue Datenbank oder eine Amazon Athena Athena-Arbeitsgruppe), auf denen ein bestimmter Satz von IAM-Prinzipalen (z. B. Benutzer mit Mitwirkendenberechtigungen) arbeiten kann.

  • Datenportal (außerhalb der AWS Management Console) — Dies ist eine browserbasierte Webanwendung, mit der verschiedene Benutzer Daten im Self-Service-Modus katalogisieren, ermitteln, verwalten, teilen und analysieren können. Das Datenportal authentifiziert Benutzer mit IAM-Anmeldeinformationen oder vorhandenen Anmeldeinformationen Ihres Identitätsanbieters über. AWS IAM Identity Center

Was sind DataZone Amazon-Domains?

Sie können DataZone Amazon-Domains verwenden, um Ihre Ressourcen, Benutzer und deren Projekte zu organisieren. Indem Sie zusätzliche AWS Konten mit Ihren DataZone Amazon-Domains verknüpfen, können Sie Ihre Datenquellen zusammenführen. Anschließend können Sie Inhalte aus diesen Datenquellen im Katalog Ihrer Domain veröffentlichen. Dabei stehen Metadatenformulare und Glossare zur Verbesserung der Vollständigkeit und Qualität der Metadaten zur Verfügung. Sie können diese Ressourcen auch durchsuchen, um zu sehen, welche Daten in der Domain veröffentlicht wurden. Darüber hinaus können Sie Projekten beitreten, um mit anderen Benutzern zusammenzuarbeiten, Ressourcen zu abonnieren und Projektumgebungen für den Zugriff auf Analysetools wie Amazon Athena und Amazon Redshift zu verwenden. DataZone Amazon-Domains bieten Ihnen die Flexibilität, die Daten- und Analyseanforderungen Ihrer Unternehmensstruktur zu berücksichtigen, unabhängig davon, ob Sie eine einzelne DataZone Amazon-Domain für Ihr Unternehmen oder mehrere DataZone Amazon-Domains für verschiedene Geschäftsbereiche erstellen.

Was sind DataZone Amazon-Projekte und -Umgebungen?

Amazon DataZone ermöglicht Teams und Analytics-Benutzern die Zusammenarbeit an Projekten, indem es anwendungsfallbasierte Gruppierungen von Teams, Tools und Daten erstellt.

  • In Amazon DataZone ermöglichen Projekte einer Gruppe von Benutzern die Zusammenarbeit bei verschiedenen geschäftlichen Anwendungsfällen, bei denen Daten im DataZone Amazon-Katalog veröffentlicht, entdeckt, abonniert und genutzt werden. Die Projektmitglieder nutzen Ressourcen aus dem DataZone Amazon-Katalog und erstellen mithilfe eines oder mehrerer analytischer Workflows neue Ressourcen. Projekte unterstützen die folgenden Aktivitäten innerhalb des Datenportals:

    • Projekteigentümer können Mitglieder mit Inhaber- und Mitwirkendenberechtigungen hinzufügen

    • Projektmitglieder können SSO-Benutzer, SSO-Gruppen und IAM-Benutzer sein

    • Projektmitglieder können ein Abonnement für die Assets im Datenkatalog beantragen

      Für die Projekte werden Abonnementgenehmigungen erteilt

  • In einem DataZone Amazon-Projekt sind Umgebungen Sammlungen von null oder mehr konfigurierten Ressourcen (z. B. ein Amazon S3, eine AWS Glue Datenbank oder eine Amazon Athena Athena-Arbeitsgruppe) mit einer bestimmten Gruppe von IAM-Prinzipalen, die mit diesen Ressourcen arbeiten können. Umgebungen werden mithilfe von Umgebungsprofilen erstellt. Dabei handelt es sich um vorkonfigurierte Gruppen von Ressourcen und Blueprints, die wiederverwendbare Vorlagen für die Erstellung von Umgebungen bereitstellen. Umgebungsprofile definieren Einstellungen wie die Region AWS-Konto oder die Region, in der Umgebungen bereitgestellt werden.

Was sind Amazon DataZone Blueprints?

Ein Blueprint, mit dem die Umgebung erstellt wird, definiert, AWS Glue welche AWS Tools und Dienste (z. B. Amazon Redshift) Mitglieder des Projekts, zu dem die Umgebung gehört, verwenden können, wenn sie mit Ressourcen im DataZone Amazon-Katalog arbeiten.

In der aktuellen Version von Amazon DataZone werden die folgenden Standard-Blueprints unterstützt:

Name des Blueprints Beschreibung Ressourcen wurden erstellt
Bauplan für Data Lake

Ermöglicht es den Mitgliedern DataZone des Amazon-Projekts, Data Lake-Dienste für Produzenten und Verbraucher innerhalb der Umgebung zu starten.

Als Verbraucher können DataZone Amazon-Projektmitglieder direkt in Amazon Athena und in anderen von Lake Formation unterstützten Abfrage-Engines auf eine schreibgeschützte Kopie der von Lake Formation verwalteten Assets zugreifen.

Als Produzent ermöglicht es DataZone Amazon-Projektmitgliedern, mit Amazon Athena neue LakeFormation verwaltete Tabellen zu erstellen und diese im DataZone Amazon-Katalog zu veröffentlichen.

Bietet Benutzern die Möglichkeit, Lake Formation-Tabellen mit Amazon Athena zu erstellen und abzufragen. Amazon Athena Athena-Arbeitsgruppe, AWS Glue Datenbank mit Lake Formation Formation-Berechtigungen „nur lesen“, IAM-Berechtigungen „nur lesen“ und Zugriff auf Amazon S3, die vom Projekt verwaltet wird. AWS Glue Datenbank mit Lake Formation Formation-Berechtigungen „erstellen“ und „gewähren“, IAM-Berechtigungen „Lesen“ und „Schreiben“, AWS Glue ETL (Extrahieren, Transformieren und Laden) mit Tagging.
Bauplan für ein Data Warehouse

Als Verbraucher ermöglicht dieser Blueprint den Mitgliedern des DataZone Amazon-Projekts, eine Verbindung zu ihren eigenen Amazon Redshift-Clustern herzustellen, um Remote-Datenspeicher abzufragen und neue Datensätze zu erstellen und zu speichern.

Als Produzent ermöglicht dieser Blueprint den Mitgliedern des DataZone Amazon-Projekts, sich mit ihren eigenen Amazon Redshift-Clustern zu verbinden, um Remote-Datenspeicher abzufragen, neue Datensätze zu erstellen und sie im Amazon-Katalog zu veröffentlichen. DataZone

Zugriff auf den Amazon Redshift Redshift-Abfrage-Editor, Lesezugriff auf die abonnierten Datenquellen aus dem DataZone Amazon-Katalog, die Möglichkeit, lokale Assets im konfigurierten Amazon Redshift-Cluster zu erstellen. Zugriff auf den Amazon Redshift Redshift-Abfrage-Editor, Lesezugriff auf die abonnierten Datenquellen aus dem DataZone Amazon-Katalog, die Möglichkeit, Assets aus dem konfigurierten Amazon Redshift-Cluster zu erstellen und zu veröffentlichen.
Amazon Sagemaker-Entwurf

Dieser Blueprint hilft Datenproduzenten und Verbrauchern dabei, nahtlos zu Amazon zu wechseln, SageMaker um an Projekten für maschinelles Lernen (ML) zusammenzuarbeiten und gleichzeitig die Zugriffssteuerung für Daten und ML-Assets durchzusetzen. Mit der neuen integrierten Integration zwischen Amazon DataZone und Amazon SageMaker können Datenkonsumenten und -produzenten die ML-Governance im gesamten Infrastrukturaufbau optimieren, bei Geschäftsinitiativen zusammenarbeiten und Daten und ML-Assets einfach verwalten.

Sie können eine SageMaker Amazon-Domain erstellen, die Daten und ML-Assets in Amazon suchen, abonnieren und veröffentlichen kann DataZone. Kann auch AWS Glue-Datenbanken und Lake Formation wie konfiguriert abonnieren und veröffentlichen.

Zusätzlich zu den integrierten Blueprints können Sie auch den benutzerdefinierten AWS Service-Blueprint aktivieren, mit dem Sie Amazon DataZone so konfigurieren können, dass es Ihre eigenen vorhandenen IAM-Rollen und AWS -Services verwendet, die Sie bereits in Ihrer Organisation eingerichtet haben. Weitere Informationen finden Sie unter Arbeiten mit benutzerdefinierten AWS Service-Blueprints in Amazon DataZone.

Was sind Amazon-Workflows für DataZone Inventar und Veröffentlichung?

Inventar-Assets für Projekte erstellen

Um Amazon für die Katalogisierung Ihrer Daten verwenden DataZone zu können, müssen Sie zunächst Ihre Daten (Assets) als Inventar Ihres Projekts in Amazon speichern DataZone. Wenn Sie ein Inventar für ein Projekt erstellen, sind die Ressourcen nur für die Mitglieder dieses Projekts auffindbar. Objekte aus dem Projektinventar stehen nicht allen Domänenbenutzern beim Suchen/Durchsuchen zur Verfügung, sofern sie nicht ausdrücklich veröffentlicht wurden. In der aktuellen Version von Amazon DataZone können Sie dem Projektbestand auf folgende Weise Assets hinzufügen:

  • Erstellen und betreiben Sie Datenquellen über das Datenportal oder mithilfe der DataZone Amazon-APIs. In der aktuellen Version von Amazon DataZone können Sie Datenquellen für AWS Glue und Amazon Redshift erstellen und ausführen. Durch das Erstellen und Ausführen von AWS Glue- oder Amazon Redshift Redshift-Datenquellen erstellen Sie Assets in einem ausgewählten Projektinventar und importieren deren technische Metadaten aus den Quelldatenbanktabellen oder Data Warehouses als Inventar in Amazon DataZone.

  • Mithilfe von APIs können Sie Assets aus den verfügbaren System-Asset-Typen (AWS Glue, Amazon Redshift, Amazon S3 S3-Objekte) oder aus Ihren benutzerdefinierten Asset-Typen erstellen.

    • Erstellen Sie mithilfe der DataZone Amazon-APIs benutzerdefinierte Asset-Typen in einem Projektinventar. Zu den benutzerdefinierten Asset-Typen können ML-Modelle, Dashboards, lokale Tabellen usw. gehören.

    • Erstellen Sie mithilfe von DataZone Amazon-APIs Assets aus diesen benutzerdefinierten Asset-Typen.

  • Erstellen Sie mithilfe des DataZone Amazon-Datenportals manuell Assets für S3-Objekte.

Kuratierung Ihrer Projektinventarressourcen — Nach der Erstellung eines Projektinventars können Dateneigentümer ihre Inventarressourcen mit den erforderlichen Geschäftsmetadaten kuratieren, indem sie Unternehmensnamen (Asset und Schema), Beschreibungen (Asset und Schema), Readme, Glossarbegriffe (Asset und Schema) und Metadatenformulare hinzufügen oder aktualisieren. Sie können dies über das Datenportal oder mithilfe der DataZone Amazon-APIs tun. Bei jeder Änderung an Ihrem Asset wird eine neue Inventarversion erstellt.

Veröffentlichen von Objekten aus dem Projektbestand im DataZone Amazon-Katalog

Der nächste Schritt bei der Verwendung von Amazon DataZone zur Katalogisierung Ihrer Daten besteht darin, die Inventarressourcen Ihres Projekts für die Domain-Benutzer auffindbar zu machen. Sie können dies tun, indem Sie die Inventarressourcen im DataZone Amazon-Katalog veröffentlichen. Nur die neueste Version des Inventarbestands kann im Katalog veröffentlicht werden, und nur die zuletzt veröffentlichte Version ist im Discovery-Katalog aktiv. Wenn ein Inventar-Asset aktualisiert wird, nachdem es im DataZone Amazon-Katalog veröffentlicht wurde, müssen Sie es explizit erneut veröffentlichen, damit die neueste Version im Discovery-Katalog angezeigt wird. In der aktuellen Version von Amazon DataZone können Sie Ihre Projektinventar-Assets auf folgende Weise im DataZone Amazon-Katalog veröffentlichen:

  • Veröffentlichen Sie Ihre Projektinventarressourcen manuell im DataZone Amazon-Katalog, entweder über das Datenportal oder mithilfe der DataZone Amazon-APIs.

  • Aktivieren Sie im Rahmen der Erstellung oder Bearbeitung von Datenquellen die optionalen Einstellungen Veröffentlichen Sie Ihre AWS Glue-Ressourcen im Katalog oder Veröffentlichen Sie Ihre Amazon Redshift Redshift-Assets im Katalog, um sie während der geplanten oder automatisierten Datenquellenläufe zu verwenden. Wenn diese Einstellung aktiviert ist, fügt ein Datenquellenlauf Assets zum Inventar Ihres Projekts hinzu und veröffentlicht die Inventar-Assets anschließend auch im DataZone Amazon-Katalog. Beachten Sie, dass die Assets, wenn Sie direkt veröffentlichen, möglicherweise keine Geschäftsmetadaten enthalten und für alle Domain-Benutzer direkt auffindbar sind. Sie können diese Einstellung für Ihre Datenquellen entweder über das Datenportal oder mithilfe der DataZone Amazon-APIs verwenden.

Was sind DataZone Amazon-Abonnement- und Fulfillment-Workflows?

Sobald Ihre Ressourcen im DataZone Amazon-Katalog veröffentlicht wurden, können Ihre Domain-Benutzer diese Ressourcen finden, diese Ressourcen anfordern und darauf zugreifen und Amazon weiterhin verwenden, um diese Ressourcen DataZone zu verwalten, zu teilen und zu analysieren.

Benutzer beantragen Zugriff auf ein Asset, indem sie dieses Asset im Namen eines Projekts abonnieren. Sobald eine Abonnementanfrage erstellt wurde, erhalten die Eigentümer des Assets eine Benachrichtigung. Sie können die Abonnementanfrage überprüfen und entscheiden, ob sie sie genehmigen oder ablehnen möchten. Wenn die Abonnementanfrage vom Dateneigentümer genehmigt wird, erhält das abonnierende Projekt Zugriff auf dieses Asset.

Sobald eine Abonnementanfrage genehmigt wurde, DataZone startet Amazon einen Workflow zur Abonnementabwicklung, der das Asset automatisch allen entsprechenden Umgebungen innerhalb des Projekts hinzufügt, indem die erforderlichen Zuschüsse in AWS Lake Formation oder Amazon Redshift erstellt werden. Dadurch können die abonnierten Projektmitglieder das Asset mit einem der Abfragetools (Amazon Athena oder Amazon Redshift Query Editor) in ihren Umgebungen abfragen.

Amazon DataZone kann diese automatisierte Fulfillment-Logik nur für verwaltete Assets auslösen (dazu gehören AWS Glue-Tabellen und Amazon Redshift Redshift-Tabellen und -Ansichten). Für alle anderen Asset-Typen (nicht verwaltete Anlagen) DataZone kann Amazon den Versand nicht automatisch auslösen, sondern veröffentlicht stattdessen ein Ereignis in Amazon Eventbridge mit allen erforderlichen Details in der Event-Payload, sodass Sie die erforderlichen Zuschüsse außerhalb von Amazon erstellen können. DataZone Amazon stellt DataZone auch die updateSubscriptionStatus API bereit, mit der Sie den Status des Abonnements aktualisieren können, sobald es außerhalb von Amazon abgewickelt wurde, DataZone sodass Amazon die Projektmitglieder darüber informieren DataZone kann, dass sie mit der Nutzung des Assets beginnen können.

Die Benutzerpersönlichkeiten von Amazon DataZone

Im Folgenden sind die wichtigsten DataZone Amazon-Benutzerrollen aufgeführt:

  • Domain-Administratoren, die selbst Amazon DataZone als Analyseplattform für ihr Unternehmen einrichten.

    Im Kontext von Amazon DataZone installieren Domain-Administratoren Amazon DataZone in AWS Konten, erstellen DataZone Amazon-Domains und konfigurieren AWS Kontozuordnungen und Identitätsanbieter-Verknüpfungen mit DataZone Amazon-Domains. Domain-Administratoren verwenden auch andere AWS Servicekonsolen wie AWS Organization und Service Catalog, um Amazon zu konfigurieren DataZone.

  • Datennutzer, die die Hauptnutzer von Amazon DataZone (Asset-Publisher und Abonnenten) für ihre Analyse- und Machine-Learning-Aufgaben sind.

    Zu den Datennutzern gehören Datenanalytiker, Datenwissenschaftler und Systembenutzer, die Datenbestände erstellen und nutzen. Im Kontext von Amazon erstellen DataZone Datennutzer Projekte und Umgebungen und schließen sich ihnen an, abonnieren und nutzen Datenbestände mit vorkonfigurierten Tools für Analyse oder maschinelles Lernen und veröffentlichen Ausgabedatenbestände zurück im DataZone Amazon-Domain-Katalog, um sie mit anderen zu teilen.

  • Systementwickler, die benutzerdefinierte Infrastrukturvorlagen erstellen und Amazon DataZone in interne Kataloge oder Produktionssysteme integrieren.

    Im Kontext von Amazon DataZone erstellen Systementwickler als Environment-Provider Umgebungs-Blueprints (Infrastrukturvorlagen) oder Infrastructure-As-Code CI/CD-Pipeline, Daten-Pipelines zur umgebungsübergreifenden Förderung von Datenbeständen, Katalogsynchronisations- und Abonnement-Grant-Fulfillment-Adapter zur Integration mit internen Katalogen oder Integrationen zwischen DataZone Amazon-APIs und internen Benutzeroberflächen oder Produktionssystemen, falls erforderlich.

  • Datenschutzbeauftragte, die für die Definitionen und Risiken der organisatorischen Sicherheits-, Datenschutz- und anderer Compliance-Richtlinien verantwortlich sind und sicherstellen, dass die Nutzung von Amazon DataZone in ihren Organisationen diesen Definitionen entspricht.

DataZone Amazon-Terminologie

Domain

Eine DataZone Amazon-Domain ist die organisierende Einheit, die Ihre Ressourcen, Benutzer und deren Projekte miteinander verbindet. Mit DataZone Amazon-Domains haben Sie die Flexibilität, die Daten- und Analyseanforderungen Ihrer Unternehmensstruktur zu berücksichtigen, unabhängig davon, ob Sie eine einzelne DataZone Amazon-Domain für Ihr Unternehmen oder mehrere Datenzonen, Domains für verschiedene Geschäftsbereiche oder Teams erstellen möchten.

Zugeordnetes Konto

Wenn Sie Ihre AWS Konten mit DataZone Amazon-Domains verknüpfen, können Sie Daten aus diesen AWS Konten im DataZone Amazon-Katalog veröffentlichen und DataZone Amazon-Projekte erstellen, um mit Ihren Daten über mehrere AWS Konten hinweg zu arbeiten. Kontozuordnungsanfragen können nur für AWS Konten gestellt werden, die eine DataZone Amazon-Domain besitzen. Anfragen zur Kontozuweisung können nur von den administrativen Benutzern der eingeladenen AWS Konten akzeptiert werden. Sobald ein AWS Konto mit einer DataZone Amazon-Domain verknüpft ist, können Sie Ihre Datenquellen wie AWS Glue Catalog und Amazon Redshift in diesem Konto für diese Domain registrieren. Durch die Verknüpfung kann ein AWS Konto auch DataZone Amazon-Projekte und -Umgebungen erstellen.

Ein AWS-Konto kann mit einer oder mehreren DataZone Amazon-Domains verknüpft werden.

Datenquelle

In Amazon können Sie Datenquellen verwenden DataZone, um technische Metadaten von Assets (Daten) aus den Quelldatenbanken oder Data Warehouses in Amazon zu importieren DataZone. In der aktuellen Version von Amazon DataZone können Sie Datenquellen für AWS Glue und Amazon Redshift erstellen und ausführen. Durch das Erstellen einer Datenquelle stellen Sie eine Verbindung zwischen Amazon DataZone und der Quelle (AWS Glue Data Catalog oder Amazon Redshift Warehouse) her, sodass Sie technische Metadaten lesen können, einschließlich Tabellennamen, Spaltennamen und Datentypen. Durch das Erstellen einer Datenquelle starten Sie auch den ersten Datenquellenlauf, der neue Assets in Amazon erstellt oder bestehende aktualisiert DataZone. Während der Erstellung einer Datenquelle oder nachdem die Datenquelle erfolgreich erstellt wurde, haben Sie auch die Möglichkeit, einen Zeitplan für Ihre Datenquellenläufe festzulegen.

Ausführung der Datenquelle

In Amazon DataZone ist ein Datenquellenlauf eine Aufgabe, die Amazon DataZone ausführt, um Assets in Projektinventaren zu erstellen und optional auch Projektinventar-Assets im DataZone Amazon-Katalog zu veröffentlichen. Datenquellenläufe können automatisiert (bei der ersten Erstellung einer Datenquelle gestartet), geplant oder manuell ausgeführt werden. Mit den Datenauswahlkriterien können Sie die vorhandenen und future Datensätze, die in Projektinventare oder den DataZone Amazon-Katalog aufgenommen werden sollen, sowie die Häufigkeit der Metadaten-Aktualisierungen für diese Inventar- oder Katalog-Assets optimieren.

Ziel des Abonnements

In Amazon DataZone ermöglichen Ihnen Abonnementziele den Zugriff auf die Daten, die Sie in Ihren Projekten abonniert haben. Ein Abonnementziel gibt den Speicherort (z. B. eine Datenbank oder ein Schema) und die erforderlichen Berechtigungen (z. B. eine IAM-Rolle) an, die Amazon verwenden DataZone kann, um eine Verbindung mit den Quelldaten herzustellen und die erforderlichen Zuschüsse zu erstellen, sodass Mitglieder des DataZone Amazon-Projekts mit der Abfrage der Daten beginnen können, die sie abonniert haben.

Abonnement-Anfrage

Bei Amazon DataZone ist eine Abonnementanfrage ein Prozess, dem ein DataZone Amazon-Projekt folgen muss, um Zugriff auf ein bestimmtes Asset zu erhalten. Abonnementanfragen können genehmigt, abgelehnt, widerrufen oder gewährt werden.

Komponente

In Amazon DataZone ist ein Asset eine Entität, die ein einzelnes physisches Datenobjekt (z. B. eine Tabelle, ein Dashboard, eine Datei) oder ein virtuelles Datenobjekt (z. B. eine Ansicht) darstellt.

Asset type (Objekttyp)

Asset-Typen definieren, wie Vermögenswerte im DataZone Amazon-Katalog dargestellt werden. Ein Asset-Typ definiert das Schema für einen bestimmten Asset-Typ. Wenn Assets erstellt werden, werden sie anhand des Schemas validiert, das durch ihren Asset-Typ (standardmäßig die neueste Version) definiert ist. Wenn ein Asset-Update stattfindet, DataZone erstellt Amazon eine neue Asset-Version und ermöglicht es DataZone Amazon-Benutzern, mit allen Asset-Versionen zu arbeiten.

Glossar für Unternehmen

Bei Amazon DataZone ist ein Geschäftsglossar eine Sammlung von Geschäftsbegriffen, die mit Vermögenswerten in Verbindung gebracht werden können. Ein Geschäftsglossar trägt dazu bei, dass im gesamten Unternehmen bei den verschiedenen Datenanalyseaufgaben dieselben Begriffe und Definitionen verwendet werden.

Die Begriffe in einem Geschäftsglossar können zu Assets und Spalten hinzugefügt werden, um diese Attribute bei der Suche zu klassifizieren oder ihre Identifizierung zu verbessern. Glossar kann als Wertetyp für ein Feld in einem Metadatenformular ausgewählt werden, das einem Asset zugeordnet ist. Wenn ein bestimmter Begriff als Wert für das Metadaten-Formularfeld eines Assets ausgewählt wird, können Benutzer nach dem Begriff im Unternehmensglossar suchen und die zugehörigen Ressourcen finden.

Typ des Metadaten-Formulars

Ein Metadaten-Formulartyp ist eine Vorlage, die die Metadaten definiert, die gesammelt und gespeichert werden, wenn Assets als Inventar erstellt oder in einer DataZone Amazon-Domain veröffentlicht werden. Metadaten-Formulartypen können einem Datenobjekt zugeordnet werden. Mithilfe von Metadaten-Formulartypen können Domänenadministratoren Metadatenformulare definieren, die für diese Domain benötigt werden, z. B. Informationen zur Einhaltung von Vorschriften, Informationen zu Vorschriften oder Klassifizierungen. Es ermöglicht Domainadministratoren, zusätzliche Metadaten für ihre Ressourcen anzupassen. Amazon DataZone verfügt über Formulartypen für Systemmetadaten wie asset-common-details-form -type, column-business-metadata-form -type, glue-table-form-type, glue-view-form-type, redshift-table-form-type, redshift-view-form-type, s3- object-collection-form-type subscription-terms-form-type, und. suggestion-form-type

Formular für Metadaten

In Amazon DataZone definieren Metadatenformulare die Metadaten, die gesammelt und gespeichert werden, wenn Assets als Inventar erstellt oder in einer DataZone Amazon-Domain veröffentlicht werden. Definitionen von Metadaten-Formularen werden in der Katalogdomäne von einem Domain-Administrator erstellt. Eine Metadaten-Formulardefinition besteht aus einer oder mehreren Felddefinitionen und unterstützt die Datentypen Boolean, Datum, Dezimal, Ganzzahl, Zeichenfolge und Geschäftsglossar-Feldwert.

Ein Domainadministrator wendet ein Metadatenformular auf Assets in seiner Domain an, indem er das Metadatenformular zu seiner Domain hinzufügt. Asset-Publisher geben dann alle optionalen und erforderlichen Feldwerte im Metadatenformular an.

Projekt

In Amazon DataZone ermöglichen Projekte einer Gruppe von Benutzern die Zusammenarbeit bei verschiedenen geschäftlichen Anwendungsfällen, bei denen es darum geht, Ressourcen in Projektinventaren zu erstellen und sie so für alle Projektmitglieder auffindbar zu machen und dann Ressourcen im Amazon-Katalog zu veröffentlichen, zu entdecken, zu abonnieren und zu konsumieren. DataZone Die Projektmitglieder nutzen Ressourcen aus dem DataZone Amazon-Katalog und erstellen mithilfe eines oder mehrerer analytischer Workflows neue Ressourcen. Projektmitglieder können Eigentümer oder Mitwirkende sein. Projektinhaber können andere Benutzer als Eigentümer oder Mitwirkende hinzufügen oder entfernen und Projekte ändern oder löschen. Andere Einschränkungen für Mitwirkende können mit Richtlinien definiert werden. Wenn ein Benutzer ein Projekt erstellt, wird er der erste Eigentümer dieses Projekts.

Umgebung

Eine Umgebung ist eine Sammlung konfigurierter Ressourcen (z. B. ein Amazon S3 S3-Bucket, eine AWS Glue Datenbank oder eine Amazon Athena Athena-Arbeitsgruppe) mit einer bestimmten Gruppe von IAM-Prinzipalen (mit zugewiesenen Mitwirkendenberechtigungen), die mit diesen Ressourcen arbeiten können. Jede Umgebung kann auch Benutzerprinzipale haben, die berechtigt sind, auf die Ressourcen zuzugreifen und per Abonnement und Versand Zugriff auf Daten zu erhalten. Umgebungen sind so konzipiert, dass sie verwertbare Links zu AWS Diensten und externen IDEs und Konsolen speichern. Mitglieder des Projekts können über Deep-Links, die in einer Umgebung konfiguriert sind, auf Dienste wie die Amazon Athena Athena-Konsole und mehr zugreifen. SSO- und IAM-Benutzer aus dem Projekt können weiter auf die Nutzung/den Zugriff auf bestimmte Umgebungen beschränkt werden.

Profil der Umgebung

In Amazon DataZone ist ein Umgebungsprofil eine Vorlage, mit der Sie Umgebungen erstellen können. Umgebungsprofile werden mithilfe von Blueprints erstellt.

Mithilfe von Umgebungsprofilen können Domänenadministratoren Blueprints mit vorkonfigurierten Parametern verpacken. Anschließend können Datenarbeiter schnell eine beliebige Anzahl neuer Umgebungen erstellen, indem sie vorhandene Umgebungsprofile auswählen und Namen für die neuen Umgebungen angeben. Auf diese Weise können Datenarbeiter ihre Projekte und Umgebungen effizient verwalten und gleichzeitig sicherstellen, dass sie die von ihren Domänenadministratoren durchgesetzten Datenverwaltungsrichtlinien einhalten.

Blueprint

Ein Blueprint, mit dem die Umgebung erstellt wird, definiert, AWS Glue welche AWS Tools und Dienste (z. B. Amazon Redshift) Mitglieder des Projekts, zu dem die Umgebung gehört, verwenden können, wenn sie mit Ressourcen im DataZone Amazon-Katalog arbeiten.

In der aktuellen Version von Amazon werden DataZone die folgenden Blueprints unterstützt:

  • Bauplan für einen Data Lake

  • Bauplan für ein Data Warehouse

  • Amazon Sagemaker-Entwurf

  • Maßgeschneiderter Serviceplan AWS

Benutzerprofil

Ein Benutzerprofil steht für DataZone Amazon-Benutzer. Amazon DataZone unterstützt sowohl IAM-Rollen als auch SSO-Identitäten, um mit der Amazon DataZone Management Console und dem Datenportal für verschiedene Zwecke zu interagieren. Domain-Administratoren verwenden IAM-Rollen, um die ersten administrativen Aufgaben im Zusammenhang mit der Domain in der Amazon DataZone Management Console auszuführen, einschließlich der Erstellung neuer DataZone Amazon-Domains, der Konfiguration von Metadaten-Formulartypen und der Implementierung von Richtlinien. Datenarbeiter verwenden ihre SSO-Unternehmensidentitäten über Identity Center, um sich beim Amazon DataZone Data Portal anzumelden und auf Projekte zuzugreifen, bei denen sie Mitglied sind.

Profil der Gruppe

Gruppenprofile stellen Gruppen von DataZone Amazon-Benutzern dar. Gruppen können manuell erstellt oder Active Directory-Gruppen von Unternehmenskunden zugeordnet werden. Bei Amazon DataZone dienen Gruppen zwei Zwecken. Erstens kann eine Gruppe einem Team von Benutzern im Organigramm zugeordnet werden und so den Verwaltungsaufwand eines DataZone Amazon-Projektinhabers reduzieren, wenn neue Mitarbeiter einem Team beitreten oder es verlassen. Zweitens verwenden Unternehmensadministratoren Active Directory-Gruppen, um Benutzerstatus zu verwalten und zu aktualisieren, sodass DataZone Amazon-Domain-Administratoren diese Gruppenmitgliedschaften verwenden können, um DataZone Amazon-Domain-Richtlinien zu implementieren.

Domain-Administrator

In Amazon DataZone ist ein IAM-Principal, der eine DataZone Amazon-Domain erstellt, der Standard-Domain-Administrator dieser Domain. Domain-Administratoren bei Amazon DataZone führen wichtige Funktionen für die Domain aus, darunter das Erstellen von Domains, das Zuweisen anderer Domain-Administratoren, das Hinzufügen von Datenquellen und Abonnementzielen, das Erstellen von Projekten und Umgebungen sowie das Zuweisen von Projektinhabern.

Herausgeber

In Amazon DataZone veröffentlichen Verlage Assets im DataZone Amazon-Katalog und können die Metadaten der von ihnen veröffentlichten Assets bearbeiten. Wenn Verlage diese Befugnis erhalten, können sie Abonnementanfragen für die Inhalte, die sie im DataZone Amazon-Katalog veröffentlicht haben, genehmigen oder ablehnen.

Subscriber

Bei Amazon DataZone ist ein Abonnent ein DataZone Amazon-Projekt, das nach Ressourcen im DataZone Amazon-Katalog suchen, darauf zugreifen und sie nutzen möchte.

AWS-Konto owner

In Amazon DataZone erstellen AWS-Konto Eigentümer in ihren eigenen Rollen, Richtlinien und Berechtigungen, AWS-Konten die es ermöglichen, diese mit DataZone Amazon-Domains AWS-Konten zu verknüpfen.