Schritt 1: Bereiten Sie Datentabellen von Erstanbietern vor Schritt 2: Speichern Sie Ihre Eingabedatentabelle in einem unterstützten Datenformat Schritt 3: Laden Sie Ihre Eingabedatentabelle auf Amazon S3 hoch Schritt 4: Erstellen Sie eine AWS Glue Tabelle Schritt 4: Erstellen Sie eine partitionierte Tabelle AWS Glue

Vorbereiten von Eingabedaten von Erstanbietern

In den folgenden Schritten wird beschrieben, wie Sie Daten von Erstanbietern für die Verwendung in einem regelbasierten Abgleichsworkflow, einem auf maschinellem Lernen basierenden Abgleichsworkflowoder einem ID-Mapping-Workflow vorbereiten.

Schritt 1: Bereiten Sie Datentabellen von Erstanbietern vor

Für jeden passenden Workflowtyp gibt es unterschiedliche Empfehlungen und Richtlinien, um den Erfolg sicherzustellen.

Informationen zur Erstellung von Datentabellen von Erstanbietern finden Sie in der folgenden Tabelle:

Richtlinien für Datentabellen von Erstanbietern
Workflow-Typ	Erforderlich
Regelbasierter Abgleichs-Workflow mit erweitertem Regeltyp	Eine eindeutige ID ist erforderlich. Die eindeutige ID umfasst nicht mehr als 38 Zeichen. (Optional) Eine DELETE-Spalte, die angibt, aus welchen Datensätzen entfernt werden sollen, AWS Entity Resolution nachdem der Workflow die Verarbeitung abgeschlossen hat. Der Standardwert ist`false`, wenn die Spalte ohne Werte existiert. Datensätze, bei denen die DELETE-Spalte auf gesetzt ist, `true` werden gelöscht. Datensätze, bei denen die DELETE-Spalte auf `false` oder leer gesetzt ist, werden von verarbeitet AWS Entity Resolution. Das Schema muss eine DELETE-Spalte mit dem Typ `String` und ohne `matchKey` und enthalten`groupName`. Anmerkung Das Nachschlagen der Match-ID (`GetMatchID`) wird nicht unterstützt, da der Regeltyp „Erweitert“ für den manuellen Verarbeitungsrhythmus keine aufgenommenen Daten speichert. Im folgenden Beispiel `S1` werden sie aufgenommen und `S2` gelöscht. `sourceID, name, lastName, DELETE S1, name, lastname, false S2, name2, lastname2, true`
regelbasierter Abgleichs-Workflow mit einfachem Regeltyp	Eine eindeutige ID ist erforderlich. Die eindeutige ID umfasst nicht mehr als 38 Zeichen.
Auf maschinellem Lernen basierender Matching-Workflow	Eine eindeutige ID ist erforderlich. Der Datensatz enthält einen der folgenden Typen: `Full Name` `Full Address` `Full phone` `Email address` `Date`— mit dem Match-Schlüsselnamen Geburtsdatum Keiner der Spaltennamen verwendet die folgenden reservierten Namen: "`MatchId`„," `MatchRule` „,`RecordId`, `SourceId` „," und`TargetId`“.
Arbeitsablauf für die ID-Zuordnung	Eine eindeutige ID ist erforderlich. Die eindeutige ID umfasst nicht mehr als 257 Zeichen. (Optional) Eine DELETE-Spalte, die angibt, aus welchen Datensätzen entfernt werden sollen, AWS Entity Resolution nachdem der Workflow die Verarbeitung abgeschlossen hat. Der Standardwert ist`false`, wenn die Spalte ohne Werte existiert. Datensätze, bei denen die DELETE-Spalte auf gesetzt ist, `true` werden gelöscht. Datensätze, bei denen die DELETE-Spalte auf `false` oder leer gesetzt ist, werden von verarbeitet AWS Entity Resolution. Das Schema muss eine DELETE-Spalte mit dem Typ `String` und ohne `matchKey` und enthalten`groupName`. Im folgenden Beispiel `S1` wird sie aufgenommen und `S2` gelöscht. `sourceID, name, lastName, DELETE S1, name, lastname, false S2, name2, lastname2, true`

Schritt 2: Speichern Sie Ihre Eingabedatentabelle in einem unterstützten Datenformat

Wenn Sie Ihre Eingabedaten von Erstanbietern bereits in einem unterstützten Datenformat gespeichert haben, können Sie diesen Schritt überspringen.

Um sie verwenden zu können AWS Entity Resolution, müssen die Eingabedaten in einem Format vorliegen, das AWS Entity Resolution unterstützt.

AWS Entity Resolution unterstützt die folgenden Datenformate:

Kommagetrennter Wert (CSV)
Parquet

Schritt 3: Laden Sie Ihre Eingabedatentabelle auf Amazon S3 hoch

Wenn Sie Ihre First-Party-Datentabelle bereits in Amazon S3 haben, können Sie diesen Schritt überspringen.

Anmerkung

Sie können die Eingabedaten in Amazon S3Resources in jeder Region der AWS kommerziellen Partition speichern, in der S3 unterstützt wird. Auf diese Daten kann aus einer anderen Region oder AWS-Konto bei der Ausführung des passenden Workflows zugegriffen werden.

So laden Sie Ihre Eingabedatentabelle auf Amazon S3 hoch

Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die Amazon S3 S3-Konsole unter https://console.aws.amazon.com/s3/.
Wählen Sie Buckets und dann einen Bucket zum Speichern Ihrer Datentabelle aus.
Wählen Sie Hochladen und folgen Sie dann den Anweisungen.
Wählen Sie die Registerkarte Objekte, um das Präfix anzuzeigen, in dem Ihre Daten gespeichert sind. Notieren Sie sich den Namen des Ordners.

Sie können den Ordner auswählen, um die Datentabelle anzuzeigen.

Schritt 4: Erstellen Sie eine AWS Glue Tabelle

Anmerkung

Wenn Sie partitionierte AWS Glue Tabellen benötigen, fahren Sie mit Schritt 4: Erstellen Sie eine partitionierte Tabelle AWS Glue fort.

Die Eingabedaten in Amazon S3 müssen katalogisiert AWS Glue und als AWS Glue Tabelle dargestellt werden. Weitere Informationen zum Erstellen einer AWS Glue Tabelle mit Amazon S3 als Eingabe finden Sie unter Arbeiten mit Crawlern auf der AWS Glue Konsole im AWS Glue Entwicklerhandbuch.

In diesem Schritt richten Sie einen Crawler ein, der alle Dateien in AWS Glue Ihrem S3-Bucket crawlt und eine Tabelle erstellt. AWS Glue

Anmerkung

AWS Entity Resolution unterstützt derzeit keine Amazon S3 S3-Standorte, bei denen Sie registriert sind AWS Lake Formation.

Um eine AWS Glue Tabelle zu erstellen

Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die AWS Glue Konsole unter https://console.aws.amazon.com/glue/.
Wählen Sie in der Navigationsleiste Crawlers aus.
Wählen Sie Ihren S3-Bucket aus der Liste aus und wählen Sie dann Crawler erstellen aus.
Geben Sie auf der Seite „Crawler-Eigenschaften festlegen“ einen Crawler-Namen und eine optionale Beschreibung ein und wählen Sie dann Weiter aus.
Fahren Sie mit der Seite Crawler hinzufügen fort und geben Sie die Details an.
Wählen Sie auf der Seite „IAM-Rolle auswählen“ die Option Vorhandene IAM-Rolle auswählen aus und klicken Sie dann auf Weiter.

Sie können bei Bedarf auch eine IAM-Rolle erstellen wählen oder Ihren Administrator die IAM-Rolle erstellen lassen.
Behalten Sie unter Einen Zeitplan für diesen Crawler erstellen die Standardeinstellung Frequenz (Bei Bedarf ausführen) bei und wählen Sie dann Weiter aus.
Geben Sie für Configure the Crawler's output die AWS Glue Datenbank ein und wählen Sie dann Next aus.
Überprüfen Sie alle Details und wählen Sie dann Fertig stellen.
Aktivieren Sie auf der Seite Crawler das Kontrollkästchen neben Ihrem S3-Bucket und wählen Sie dann Crawler ausführen aus.
Nachdem der Crawler fertig ausgeführt wurde, wählen Sie in der AWS Glue Navigationsleiste Datenbanken und dann Ihren Datenbanknamen aus.
Wählen Sie auf der Datenbankseite Tabellen in {Ihr Datenbankname} aus.
1. Sehen Sie sich die Tabellen in der AWS Glue Datenbank an.
2. Um das Schema einer Tabelle anzuzeigen, wählen Sie eine bestimmte Tabelle aus.
3. Notieren Sie sich den AWS Glue Datenbanknamen und den AWS Glue Tabellennamen.

Sie sind jetzt bereit, ein Schema-Mapping zu erstellen. Weitere Informationen finden Sie unter Schemazuordnung erstellen.

Schritt 4: Erstellen Sie eine partitionierte Tabelle AWS Glue

Anmerkung

Die AWS Glue Partitionierungsfunktion in AWS Entity Resolution wird nur in Workflows zur ID-Zuordnung unterstützt. Mit dieser AWS Glue Partitionierungsfunktion können Sie bestimmte Partitionen für die Verarbeitung auswählen. AWS Entity Resolution

Wenn Sie keine partitionierten AWS Glue Tabellen benötigen, können Sie diesen Schritt überspringen.

Eine partitionierte AWS Glue Tabelle spiegelt automatisch neue Partitionen in der AWS Glue Tabelle wider, wenn Sie der Datenstruktur neue Ordner hinzufügen (z. B. einen neuen Tagesordner unter einem Monat).

Wenn Sie eine partitionierte AWS Glue Tabelle erstellen, können Sie angeben AWS Entity Resolution, welche Partitionen Sie in einem ID-Zuordnungs-Workflow verarbeiten möchten. Jedes Mal, wenn Sie den ID-Zuordnungs-Workflow ausführen, werden dann nur die Daten in diesen Partitionen verarbeitet, anstatt alle Daten in der gesamten AWS Glue Tabelle zu verarbeiten. Diese Funktion ermöglicht eine genauere, effizientere und kostengünstigere Datenverarbeitung und bietet Ihnen mehr Kontrolle und Flexibilität bei der Verwaltung Ihrer Aufgaben zur Entitätsauflösung. AWS Entity Resolution

Sie können in einem ID-Zuordnungs-Workflow eine partitionierte AWS Glue Tabelle für das Quellkonto erstellen.

Sie müssen zuerst die Eingabedaten in Amazon S3 katalogisieren AWS Glue und als AWS Glue Tabelle darstellen. Weitere Informationen zum Erstellen einer AWS Glue Tabelle mit Amazon S3 als Eingabe finden Sie unter Arbeiten mit Crawlern auf der AWS Glue Konsole im AWS Glue Entwicklerhandbuch.

In diesem Schritt richten Sie einen Crawler ein, der alle Dateien in AWS Glue Ihrem S3-Bucket crawlt und dann eine partitionierte Tabelle erstellt. AWS Glue

Anmerkung

AWS Entity Resolution unterstützt derzeit keine Amazon S3 S3-Standorte, bei denen Sie registriert sind AWS Lake Formation.

Um eine partitionierte Tabelle AWS Glue zu erstellen

Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die AWS Glue Konsole unter https://console.aws.amazon.com/glue/.
Wählen Sie in der Navigationsleiste Crawlers aus.
Wählen Sie Ihren S3-Bucket aus der Liste aus und wählen Sie dann Crawler erstellen aus.
Geben Sie auf der Seite „Crawler-Eigenschaften festlegen“ einen Crawler-Namen und optional eine Beschreibung ein und wählen Sie dann Weiter aus.
Fahren Sie mit der Seite Crawler hinzufügen fort und geben Sie die Details an.
Wählen Sie auf der Seite „IAM-Rolle auswählen“ die Option Vorhandene IAM-Rolle auswählen aus und klicken Sie dann auf Weiter.

Sie können bei Bedarf auch eine IAM-Rolle erstellen wählen oder Ihren Administrator die IAM-Rolle erstellen lassen.
Behalten Sie unter Einen Zeitplan für diesen Crawler erstellen die Standardeinstellung Frequenz (Bei Bedarf ausführen) bei und wählen Sie dann Weiter aus.
Geben Sie für Configure the Crawler's output die AWS Glue Datenbank ein und wählen Sie dann Next aus.
Überprüfen Sie alle Details und wählen Sie dann Fertig stellen.
Aktivieren Sie auf der Seite Crawler das Kontrollkästchen neben Ihrem S3-Bucket und wählen Sie dann Crawler ausführen aus.
Nachdem der Crawler fertig ausgeführt wurde, wählen Sie in der AWS Glue Navigationsleiste Datenbanken und dann Ihren Datenbanknamen aus.
Wählen Sie auf der Datenbankseite unter Tabellen die Tabelle aus, die partitioniert werden soll.
Wählen Sie in der Tabellenübersicht die Dropdownliste Aktionen aus und wählen Sie dann Tabelle bearbeiten aus.
1. Wählen Sie unter Tabelleneigenschaften die Option Hinzufügen aus.
2. Geben Sie für den neuen Schlüssel einaerPushDownPredicateString.
3. Geben Sie für den neuen Wert ein'<PartitionKey>=<PartitionValue'.
4. Notieren Sie sich den AWS Glue Datenbanknamen und den AWS Glue Tabellennamen.

Sie sind jetzt bereit für:

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Eingabedatentabellen vorbereiten

Vorbereiten von Eingabedaten von Drittanbietern