Entwurf einer automatisierten Lösung zur Analyse von PDF-Dateien auf derAWS Cloud

Tianxia Jia und Yanyan Zhang, Amazon Web Services (AWS)

Oktober 2021 (Dokumentenhistorie)

Organizations verwenden regelmäßig PDF-Dateien, um verschiedene Datentypen zu speichern und zu übertragen, darunter Text, Tabellen und Formulare. Es kann jedoch schwierig sein, Daten aus verschiedenen PDF-Dateien automatisch zu aggregieren und zu analysieren. Beispielsweise kann die Geschäftsanwendung eines Unternehmens regelmäßig verschiedene PDF-Dateien mit einem identischen Format aufnehmen, die Benutzer jedoch einzeln öffnen und lesen müssen. Dies bedeutet, dass Benutzer Schwierigkeiten haben, nützliche Erkenntnisse aus diesen PDF-Dateien zu gewinnen, und sie müssen relevante Daten manuell extrahieren und Tools von Drittanbietern für weitere Analysen verwenden.

In der Amazon Web Services (AWS) Cloud extrahiert Amazon Textract automatisch Informationen (z. B. gedruckten Text, Formulare und Tabellen) aus PDF-Dateien und erstellt eine JSON-formatierte Datei, die Informationen aus der ursprünglichen PDF-Datei enthält. Während der Nachverarbeitung werden die extrahierten Daten in Amazon DynamoDB gespeichert, und Sie können mithilfe von Analysen und Visualisierungen in Amazon Geschäftseinblicke generieren QuickSight.

Dieses Handbuch bietet eine serverlose, automatisierte Lösung zur PDF-Dateianalyse in vier Phasen:

Aufskalierungsphase— Bereiten Sie einen PDF-Dateityp vor, den Ihr Unternehmen kontinuierlich generiert (z. B. einen täglichen Betriebsbericht) und aus dem Sie regelmäßig Daten extrahieren müssen.
Aufskalierungsphase— Extrahieren Sie die Datenwerte, die Ihre Downstream-Anwendungen benötigen, aus den PDF-Dateien.
Datenspierungsphase— Speichern Sie die extrahierten Daten als JSON-Datei in Amazon Simple Storage Service (Amazon S3) und als Datensatz in einer DynamoDB-Tabelle.
Aufskalierungsphase— Erstellen Sie Dashboards in Amazon QuickSight , um die Daten zu visualisieren und zu analysieren.

Das Handbuch verwendet Amazon S3 zum Speichern der rohen und verarbeiteten Daten, AWS Lambdafür die Datenverarbeitung, Amazon Textract zum Extrahieren von Inhalten aus PDF-Dateien, DynamoDB zum Speichern der verarbeiteten Daten und Amazon QuickSight für Analysen und Visualisierungen. Dieser Leitfaden richtet sich an Datenwissenschaftler, Ingenieure für maschinelles Lernen (ML) und Lösungsarchitekten, die automatisch Informationen extrahieren und Erkenntnisse aus PDF-Dateien generieren möchten.

Gezielte Geschäftsergebnisse

Nach der Entwicklung einer automatisierten Lösung zur Analyse von PDF-Dateien auf dem sollten Sie mit den folgenden drei Ergebnissen rechnenAWS Cloud:

Verarbeiten Sie automatisch Rohdaten aus mehreren PDF-Dateien in großem Maßstab mithilfe einer automatisierten Lösung, die aktualisiert wird, sobald neue Daten verfügbar sind.
Downstream-Modellierungs- und Analyseanwendungen (z. B. ML-Modellierung in Amazon SageMaker) können auf den Inhalt der extrahierten PDF-Datei zugreifen.
Daten-Dashboards, die Ihren Endbenutzern in Amazon den gesamten Inhalt von PDF-Dateien anzeigen QuickSight.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Referenzarchitektur