Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Referenzarchitektur
Das folgende Diagramm zeigt den Arbeitsablauf, nachdem Sie die automatisierte Lösung dieses Handbuchs auf einen täglichen Betriebsbericht angewendet haben. Wenn neue Dateien in Amazon Simple Storage Service (Amazon S3) aufgenommen werden, können sie nach der Verarbeitung sofort in einem QuickSight Amazon-Dashboard visualisiert werden.
Das Diagramm zeigt die folgenden vier Phasen:
-
Erfassung von PDF-Dateien — Ihre Anwendung nimmt automatisch neue PDF-Dateien mit einem identischen Format (z. B. einen täglichen Betriebsbericht) in einen Amazon-S3- Simple Storage Service (Amazon S3) -Bucket auf. Amazon S3 löst ein
ObjectCreated
Ereignis aus, wenn dem Bucket neue PDF-Dateien hinzugefügt werden, wodurch eineAWS Lambda Funktion aufgerufen wird. Weitere Informationen dazu finden Sie unter Verwenden eines Amazon-S3-Auslösers zum Aufrufen einer Lambda-Funktion in der Amazon-S3-Auslösers. -
Verarbeitung von PDF-Dateien — Die Lambda-Funktion sendet eine PDF-Datei an Amazon Textract, das den Inhalt extrahiert. Ein Nachbearbeitungsskript führt die Amazon Textract Textract-Antwort aus und analysiert sie und verwendet eine vordefinierte Vorlage für diese Art von PDF-Datei. Diese Vorlage enthält die richtigen Attribute und hilft dabei, alle Schlüsselwertpaare, Tabellen und anderen Rohtext korrekt zu extrahieren. Weitere Informationen dazu finden Sie im Muster Automatisches Extrahieren von Inhalten aus PDF-Dateien mit Amazon Textract auf derAWS Prescriptive Guidance-Website.
-
Datenspeicher — Die extrahierten und korrigierten Daten werden zusätzlich zu einer JSON-Datei für jede PDF-Datei in einer Amazon DynamoDB-Tabelle gespeichert. Die JSON-Dateien werden in einem S3-Bucket gespeichert, der von nachgelagerten Verarbeitungs- und Analysediensten wie Amazon Athena QuickSight, Amazon oder Amazon verwendet werden kann SageMaker.
-
Analysen und Visualisierungen — Amazon QuickSight analysiert die Daten und erstellt Visualisierungen, mit denen Erkenntnisse für alle verarbeiteten PDF-Dateien gewonnen werden können. Nachdem Dashboards in Amazon erstellt wurden QuickSight, können Sie sie mit Ihren Endbenutzern und Geschäftsteams teilen.
Überlegungen
Die Lösung dieses Handbuchs eignet sich für die Verarbeitung von PDF-Dateien, die ein identisches Format und ein einheitliches Layout von Formularen und Tabellen haben. Sie müssen jedoch eine Vorlage definieren und diese im Voraus bearbeiten, um den Prozess vollständig zu automatisieren und extrahierte Daten zur Analyse zur Verfügung zu stellen. Diese Vorlage wird dann während der Verarbeitung mit der Lambda-Funktion verwendet.
Obwohl diese Lösung auf verschiedene PDF-Dateitypen gleichzeitig angewendet werden kann, müssen Sie für jeden PDF-Dateityp separate Vorlagen erstellen und definieren und diese an einem zugänglichen Ort speichern (z. B. Amazon S3). Wir empfehlen, dass Sie für jeden PDF-Dateityp eine eindeutige Kennung verwenden, z. B. einen PDF-Dateinamen oder verschiedene Ordner in Ihrem S3-Bucket. Die Lambda-Funktion kann dann bei der Verarbeitung des PDF-Dateityps die entsprechende Vorlage aufrufen.