Datenspierungsphase - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Datenspierungsphase

Da PDF-Dateiinhalte normalerweise Formulare (Schlüssel-Wert-Paare), Tabellen und freien Text enthalten, muss die JSON-Datei verschachtelte Schlüssel-Wert-Paare enthalten, um die PDF-Dateistruktur darzustellen und die extrahierten Daten zu speichern. PDF-Dateien sind unstrukturierte oder halbstrukturierte Daten, was bedeutet, dass sie kein festes Schema haben. Dies bedeutet, dass es schwierig sein kann, den Inhalt von PDF-Dateien in einer herkömmlichen SQL-Datenbank zu speichern. Eine NoSQL-Datenbank ist jedoch ideal zum Speichern von PDF-Dateiinhalten, da sie kein vordefiniertes Schema benötigt. Nachdem der Inhalt von PDF-Dateien extrahiert und nachbearbeitet wurde, können Sie ihn als einen Datensatz für jede PDF-Datei in einer Amazon DynamoDB-Tabelle speichern.

Wir empfehlen, die extrahierten Daten als JSON-Datei in Amazon Simple Storage Service (Amazon S3) und als Datensatz in einer DynamoDB-Tabelle zu speichern. Ihre Downstream-Verarbeitungs- und Analyseanwendungen können problemlos auf JSON-Dateien in Amazon S3 verweisen. Sie können beispielsweise Amazon S3 als Datenquelle für die Erstellung von ML-Modellen in Amazon verwenden SageMaker, die JSON-Datei direkt mit Amazon Athena abfragen oder Amazon S3 als Datenquelle für Amazon verwenden QuickSight. Auf Inhalte von extrahierten PDF-Dateien, die in DynamoDB-Tabellen gespeichert sind, kann problemlos und in jeder Größenordnung mit geringer Latenz zugegriffen werden, weshalb dieser Ansatz für die Verwendung als Backend-Datenbank für Abfragen und Scannen geeignet ist.

Bewährte Methoden für die Datenspeicherphase

Verwenden Sie die folgenden zwei bewährten Methoden, um eine erfolgreiche Datenspeicherphase sicherzustellen:

  • Stellen Sie sicher, dass Sie die endgültige JSON-Datei auf Amazon S3 in einem anderen Ausgabeordner speichern und einen Namen verwenden, der auf dem PDF-Dateityp basiert.

  • DynamoDB verwendet einen Primärschlüssel, um jedes Element in einer Tabelle eindeutig zu identifizieren. Der Primärschlüssel kann ein einzelner Schlüssel (z. B. ein Partitionsschlüssel) oder ein zusammengesetzter Schlüssel (z. B. ein Partitionsschlüssel und ein Sortierschlüssel) sein. Für den Primärschlüssel dieser Lösung empfehlen wir, entweder eine eindeutige PDF-Dateikennung (z. B. den Namen der PDF-Datei) als Partitionsschlüssel oder eine Kombination aus zwei Kennungen (z. B. Datum und Lagername) als Partitionsschlüssel und Sortierschlüssel zu verwenden. Weitere Informationen dazu finden Sie unter Kernkomponenten von Amazon DynamoDB in der Amazon DynamoDB-Dokumentation.