Vorbereiten von Eingabedaten von Erstanbietern - AWS Entity Resolution

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Vorbereiten von Eingabedaten von Erstanbietern

In den folgenden Schritten wird beschrieben, wie Sie Daten von Erstanbietern für die Verwendung in einem regelbasierten Abgleichs-Workflow, einem auf maschinellem Lernen basierenden Abgleichs-Workflowoder einem ID-Zuordnungs-Workflow vorbereiten.

Schritt 1: Bereiten Sie Datentabellen von Erstanbietern vor

Für jeden passenden Workflowtyp gibt es unterschiedliche Empfehlungen und Richtlinien, um den Erfolg sicherzustellen.

Informationen zur Erstellung von Datentabellen von Erstanbietern finden Sie in der folgenden Tabelle:

Richtlinien für Datentabellen von Erstanbietern
Workflow-Typ Erforderlich
Regelbasierter Abgleichs-Workflow mit erweitertem Regeltyp
  • Eine eindeutige ID ist erforderlich.

  • Die eindeutige ID umfasst nicht mehr als 38 Zeichen.

  • (Optional) Eine DELETE-Spalte, die angibt, aus welchen Datensätzen entfernt werden sollen, AWS Entity Resolution nachdem der Workflow die Verarbeitung abgeschlossen hat. Der Standardwert istfalse, wenn die Spalte ohne Werte existiert. Datensätze, bei denen die DELETE-Spalte auf gesetzt ist, true werden gelöscht. Datensätze, bei denen die DELETE-Spalte auf false oder leer gesetzt ist, werden von verarbeitet AWS Entity Resolution.

    Das Schema muss eine DELETE-Spalte mit dem Typ String und ohne matchKey und enthaltengroupName.

    Anmerkung

    Das Nachschlagen der Match-ID (GetMatchID) wird nicht unterstützt, da der Regeltyp „Erweitert“ für den manuellen Verarbeitungsrhythmus keine aufgenommenen Daten speichert.

    Im folgenden Beispiel S1 werden sie aufgenommen und S2 gelöscht.

    sourceID, name, lastName, DELETE S1, name, lastname, false S2, name2, lastname2, true
regelbasierter Abgleichs-Workflow mit einfachem Regeltyp
Auf maschinellem Lernen basierender Matching-Workflow
  • Eine eindeutige ID ist erforderlich.

  • Der Datensatz enthält einen der folgenden Typen:

    • Full Name

    • Full Address

    • Full phone

    • Email address

    • Date— mit dem Match-Schlüsselnamen Geburtsdatum

Arbeitsablauf bei der ID-Zuordnung
  • Eine eindeutige ID ist erforderlich.

  • Die eindeutige ID umfasst nicht mehr als 257 Zeichen.

Schritt 2: Speichern Sie Ihre Eingabedatentabelle in einem unterstützten Datenformat

Wenn Sie Ihre Eingabedaten von Erstanbietern bereits in einem unterstützten Datenformat gespeichert haben, können Sie diesen Schritt überspringen.

Um sie verwenden zu können AWS Entity Resolution, müssen die Eingabedaten in einem Format vorliegen, das AWS Entity Resolution unterstützt.

AWS Entity Resolution unterstützt die folgenden Datenformate:

  • Kommagetrennter Wert (CSV)

  • Parquet

Schritt 3: Laden Sie Ihre Eingabedatentabelle auf Amazon S3 hoch

Wenn Sie Ihre First-Party-Datentabelle bereits in Amazon S3 haben, können Sie diesen Schritt überspringen.

Anmerkung

Die Eingabedaten müssen in Amazon Simple Storage Service (Amazon S3) in demselben AWS-Konto Ordner gespeichert werden, AWS-Region in dem Sie den passenden Workflow ausführen möchten.

So laden Sie Ihre Eingabedatentabelle auf Amazon S3 hoch
  1. Melden Sie sich bei der an AWS Management Console und öffnen Sie die Amazon S3 S3-Konsole unter https://console.aws.amazon.com/s3/.

  2. Wählen Sie Buckets und dann einen Bucket zum Speichern Ihrer Datentabelle aus.

  3. Wählen Sie Hochladen und folgen Sie dann den Anweisungen.

  4. Wählen Sie die Registerkarte Objekte, um das Präfix anzuzeigen, in dem Ihre Daten gespeichert sind. Notieren Sie sich den Namen des Ordners.

    Sie können den Ordner auswählen, um die Datentabelle anzuzeigen.

Schritt 4: Erstellen Sie eine AWS Glue Tabelle

Anmerkung

Wenn Sie partitionierte AWS Glue Tabellen benötigen, fahren Sie mit Schritt 4: Erstellen Sie eine partitionierte Tabelle AWS Glue fort.

Die Eingabedaten in Amazon S3 müssen katalogisiert AWS Glue und als AWS Glue Tabelle dargestellt werden. Weitere Informationen zum Erstellen einer AWS Glue Tabelle mit Amazon S3 als Eingabe finden Sie unter Arbeiten mit Crawlern auf der AWS Glue Konsole im AWS Glue Entwicklerhandbuch.

In diesem Schritt richten Sie einen Crawler ein, der alle Dateien in AWS Glue Ihrem S3-Bucket crawlt und eine Tabelle erstellt. AWS Glue

Anmerkung

AWS Entity Resolution unterstützt derzeit keine Amazon S3 S3-Standorte, bei denen Sie registriert sind AWS Lake Formation.

Um eine AWS Glue Tabelle zu erstellen
  1. Melden Sie sich bei der an AWS Management Console und öffnen Sie die AWS Glue Konsole unter https://console.aws.amazon.com/glue/.

  2. Wählen Sie in der Navigationsleiste Crawlers aus.

  3. Wählen Sie Ihren S3-Bucket aus der Liste aus und wählen Sie dann Crawler erstellen aus.

  4. Geben Sie auf der Seite „Crawler-Eigenschaften festlegen“ einen Crawler-Namen und eine optionale Beschreibung ein und wählen Sie dann Weiter aus.

  5. Fahren Sie mit der Seite Crawler hinzufügen fort und geben Sie die Details an.

  6. Wählen Sie auf der Seite „IAM-Rolle auswählen“ die Option Vorhandene IAM-Rolle auswählen aus und klicken Sie dann auf Weiter.

    Sie können bei Bedarf auch eine IAM-Rolle erstellen wählen oder Ihren Administrator die IAM-Rolle erstellen lassen.

  7. Behalten Sie unter Einen Zeitplan für diesen Crawler erstellen die Standardeinstellung Frequenz (Bei Bedarf ausführen) bei und wählen Sie dann Weiter aus.

  8. Geben Sie für Configure the Crawler's output die AWS Glue Datenbank ein und wählen Sie dann Next aus.

  9. Überprüfen Sie alle Details und wählen Sie dann Fertig stellen.

  10. Aktivieren Sie auf der Seite Crawler das Kontrollkästchen neben Ihrem S3-Bucket und wählen Sie dann Crawler ausführen aus.

  11. Nachdem der Crawler fertig ausgeführt wurde, wählen Sie in der AWS Glue Navigationsleiste Datenbanken und dann Ihren Datenbanknamen aus.

  12. Wählen Sie auf der Datenbankseite Tabellen in {Ihr Datenbankname} aus.

    1. Sehen Sie sich die Tabellen in der AWS Glue Datenbank an.

    2. Um das Schema einer Tabelle anzuzeigen, wählen Sie eine bestimmte Tabelle aus.

    3. Notieren Sie sich den AWS Glue Datenbanknamen und den AWS Glue Tabellennamen.

Sie sind jetzt bereit, ein Schema-Mapping zu erstellen. Weitere Informationen finden Sie unter Eine Schema-Mapping erstellen.

Schritt 4: Erstellen Sie eine partitionierte Tabelle AWS Glue

Anmerkung

Die AWS Glue Partitionierungsfunktion in AWS Entity Resolution wird nur in Workflows zur ID-Zuordnung unterstützt. Mit dieser AWS Glue Partitionierungsfunktion können Sie bestimmte Partitionen für die Verarbeitung auswählen. AWS Entity Resolution

Wenn Sie keine partitionierten AWS Glue Tabellen benötigen, können Sie diesen Schritt überspringen.

Eine partitionierte AWS Glue Tabelle spiegelt automatisch neue Partitionen in der AWS Glue Tabelle wider, wenn Sie der Datenstruktur neue Ordner hinzufügen (z. B. einen neuen Tagesordner unter einem Monat).

Wenn Sie eine partitionierte AWS Glue Tabelle erstellen, können Sie angeben AWS Entity Resolution, welche Partitionen Sie in einem ID-Zuordnungs-Workflow verarbeiten möchten. Jedes Mal, wenn Sie den ID-Zuordnungs-Workflow ausführen, werden dann nur die Daten in diesen Partitionen verarbeitet, nicht alle Daten in der gesamten AWS Glue Tabelle. Diese Funktion ermöglicht eine genauere, effizientere und kostengünstigere Datenverarbeitung und bietet Ihnen mehr Kontrolle und Flexibilität bei der Verwaltung Ihrer Aufgaben zur Entitätsauflösung. AWS Entity Resolution

Sie können in einem ID-Zuordnungs-Workflow eine partitionierte AWS Glue Tabelle für das Quellkonto erstellen.

Sie müssen zuerst die Eingabedaten in Amazon S3 katalogisieren AWS Glue und als AWS Glue Tabelle darstellen. Weitere Informationen zum Erstellen einer AWS Glue Tabelle mit Amazon S3 als Eingabe finden Sie unter Arbeiten mit Crawlern auf der AWS Glue Konsole im AWS Glue Entwicklerhandbuch.

In diesem Schritt richten Sie einen Crawler ein, der alle Dateien in AWS Glue Ihrem S3-Bucket crawlt und dann eine partitionierte Tabelle erstellt. AWS Glue

Anmerkung

AWS Entity Resolution unterstützt derzeit keine Amazon S3 S3-Standorte, bei denen Sie registriert sind AWS Lake Formation.

Um eine partitionierte Tabelle AWS Glue zu erstellen
  1. Melden Sie sich bei der an AWS Management Console und öffnen Sie die AWS Glue Konsole unter https://console.aws.amazon.com/glue/.

  2. Wählen Sie in der Navigationsleiste Crawlers aus.

  3. Wählen Sie Ihren S3-Bucket aus der Liste aus und wählen Sie dann Crawler erstellen aus.

  4. Geben Sie auf der Seite „Crawler-Eigenschaften festlegen“ einen Crawler-Namen und optional eine Beschreibung ein und wählen Sie dann Weiter aus.

  5. Fahren Sie mit der Seite Crawler hinzufügen fort und geben Sie die Details an.

  6. Wählen Sie auf der Seite „IAM-Rolle auswählen“ die Option Vorhandene IAM-Rolle auswählen aus und klicken Sie dann auf Weiter.

    Sie können bei Bedarf auch eine IAM-Rolle erstellen wählen oder Ihren Administrator die IAM-Rolle erstellen lassen.

  7. Behalten Sie unter Einen Zeitplan für diesen Crawler erstellen die Standardeinstellung Frequenz (Bei Bedarf ausführen) bei und wählen Sie dann Weiter aus.

  8. Geben Sie für Configure the Crawler's output die AWS Glue Datenbank ein und wählen Sie dann Next aus.

  9. Überprüfen Sie alle Details und wählen Sie dann Fertig stellen.

  10. Aktivieren Sie auf der Seite Crawler das Kontrollkästchen neben Ihrem S3-Bucket und wählen Sie dann Crawler ausführen aus.

  11. Nachdem der Crawler fertig ausgeführt wurde, wählen Sie in der AWS Glue Navigationsleiste Datenbanken und dann Ihren Datenbanknamen aus.

  12. Wählen Sie auf der Datenbankseite unter Tabellen die Tabelle aus, die partitioniert werden soll.

  13. Wählen Sie in der Tabellenübersicht die Dropdownliste Aktionen aus und wählen Sie dann Tabelle bearbeiten aus.

    1. Wählen Sie unter Tabelleneigenschaften die Option Hinzufügen aus.

    2. Geben Sie für den neuen Schlüssel einaerPushDownPredicateString.

    3. Geben Sie für den neuen Wert ein'<PartitionKey>=<PartitionValue'.

    4. Notieren Sie sich den AWS Glue Datenbanknamen und den AWS Glue Tabellennamen.

Sie sind jetzt bereit für: