Wählen Sie Ihre Cookie-Einstellungen aus

Wir verwenden essentielle Cookies und ähnliche Tools, die für die Bereitstellung unserer Website und Services erforderlich sind. Wir verwenden Performance-Cookies, um anonyme Statistiken zu sammeln, damit wir verstehen können, wie Kunden unsere Website nutzen, und Verbesserungen vornehmen können. Essentielle Cookies können nicht deaktiviert werden, aber Sie können auf „Anpassen“ oder „Ablehnen“ klicken, um Performance-Cookies abzulehnen.

Wenn Sie damit einverstanden sind, verwenden AWS und zugelassene Drittanbieter auch Cookies, um nützliche Features der Website bereitzustellen, Ihre Präferenzen zu speichern und relevante Inhalte, einschließlich relevanter Werbung, anzuzeigen. Um alle nicht notwendigen Cookies zu akzeptieren oder abzulehnen, klicken Sie auf „Akzeptieren“ oder „Ablehnen“. Um detailliertere Entscheidungen zu treffen, klicken Sie auf „Anpassen“.

Referenzarchitektur

Fokusmodus
Referenzarchitektur - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Das folgende Diagramm zeigt den Arbeitsablauf, nachdem Sie die automatisierte Lösung dieses Handbuchs auf einen täglichen Betriebsbericht angewendet haben. Wenn neue Dateien in Amazon Simple Storage Service (Amazon S3) aufgenommen werden, können sie sofort nach der Verarbeitung in einem QuickSight Amazon-Dashboard visualisiert werden.

Der Arbeitsablauf für diese Lösung besteht aus vier Phasen: Aufnahme, Verarbeitung, Speicherung und Analyse.

Das Diagramm zeigt die folgenden vier Phasen:

  1. Aufnahme von PDF-Dateien — Ihre Anwendung nimmt automatisch neue PDF-Dateien mit einem identischen Format (z. B. einen täglichen Betriebsbericht) in einen Amazon Simple Storage Service (Amazon S3) -Bucket auf. Amazon S3 initiiert ein ObjectCreatedEreignis, wenn dem Bucket neue PDF-Dateien hinzugefügt werden, und dadurch wird eine AWS Lambda Funktion aufgerufen. Weitere Informationen dazu finden Sie unter Verwenden eines Amazon S3 S3-Triggers zum Aufrufen einer Lambda-Funktion in der Amazon S3 S3-Dokumentation.

  2. Verarbeitung von PDF-Dateien — Die Lambda-Funktion sendet eine PDF-Datei an Amazon Textract, das den Inhalt extrahiert. Ein Nachbearbeitungsskript führt die Amazon Textract Textract-Antwort aus und analysiert sie und verwendet eine vordefinierte Vorlage für diese Art von PDF-Datei. Diese Vorlage enthält die richtigen Attribute und hilft dabei, alle Schlüssel-Wert-Paare, Tabellen und anderen Rohtext korrekt zu extrahieren. Weitere Informationen dazu finden Sie unter dem Muster Automatisches Extrahieren von Inhalten aus PDF-Dateien mithilfe von Amazon Textract auf der AWS Prescriptive Guidance-Website.

  3. Datenspeicherung — Die extrahierten und korrigierten Daten werden in einer Amazon DynamoDB-Tabelle gespeichert, zusätzlich zu einer JSON-Datei für jede PDF-Datei. Die JSON-Dateien werden in einem S3-Bucket gespeichert, der von nachgelagerten Verarbeitungs- und Analysediensten wie Amazon Athena QuickSight, Amazon oder Amazon SageMaker AI verwendet werden kann.

  4. Analysen und Visualisierungen — Amazon QuickSight analysiert die Daten und erstellt Visualisierungen, mit deren Hilfe Erkenntnisse für alle verarbeiteten PDF-Dateien gewonnen werden können. Nachdem die Dashboards in Amazon erstellt wurden QuickSight, können Sie sie mit Ihren Endbenutzern und Geschäftsteams teilen.

Überlegungen

Die Lösung dieses Handbuchs eignet sich für die Verarbeitung von PDF-Dateien, die ein identisches Format und ein einheitliches Layout von Formularen und Tabellen haben. Sie müssen jedoch eine Vorlage definieren und diese im Voraus bearbeiten, um den Prozess vollständig zu automatisieren und die extrahierten Daten für die Analyse verfügbar zu machen. Diese Vorlage wird dann bei der Verarbeitung mit der Lambda-Funktion verwendet.

Diese Lösung kann zwar gleichzeitig auf verschiedene PDF-Dateitypen angewendet werden, Sie müssen jedoch separate Vorlagen für jeden PDF-Dateityp erstellen und definieren und diese an einem zugänglichen Ort speichern (z. B. Amazon S3). Wir empfehlen, dass Sie für jeden PDF-Dateityp eine eindeutige Kennung verwenden, z. B. einen PDF-Dateinamen oder verschiedene Ordner in Ihrem S3-Bucket. Die Lambda-Funktion kann dann bei der Verarbeitung des PDF-Dateityps die entsprechende Vorlage aufrufen.

Auf dieser Seite

DatenschutzNutzungsbedingungen für die WebsiteCookie-Einstellungen
© 2025, Amazon Web Services, Inc. oder Tochtergesellschaften. Alle Rechte vorbehalten.