Phase der Einnahme

Ihr Unternehmen identifiziert einen PDF-Dateityp, der kontinuierlich generiert wird (z. B. ein täglicher Betriebsbericht), ein identisches Format hat und aus dem Sie automatisch und regelmäßig Daten extrahieren müssen. Um diese PDF-Datei aufzunehmen, benötigen Sie einen Amazon Simple Storage Service (Amazon S3) -Bucket. Wir empfehlen Ihnen, einen speziellen S3-Bucket zu erstellen. Sie können jedoch auch einen vorhandenen S3-Bucket verwenden. Weitere Informationen dazu finden Sie unter Bucket erstellen in der Amazon S3 S3-Dokumentation.

Der S3-Bucket ruft eine AWS Lambda Funktion auf, wenn die neue PDF-Datei aufgenommen wird. Weitere Informationen dazu finden Sie in der Dokumentation unter Verwenden eines Amazon S3 S3-Triggers zum Aufrufen einer Lambda-Funktion. AWS Lambda

Die Lambda-Funktion verarbeitet dann die PDF-Datei. Dieser Vorgang wird im Phase der Verarbeitung Abschnitt dieses Handbuchs beschrieben.

Bewährte Methoden für die Einnahmephase

Verwenden Sie die folgenden vier bewährten Methoden, um eine erfolgreiche Aufnahme von PDF-Dateien sicherzustellen:

Verwenden Sie die Massenaufnahme für historische PDF-Dateien und die kontinuierliche Aufnahme für neue PDF-Dateien.
Verwenden Sie für die Massenaufnahme den Massenabzug (z. B. das Hochladen von PDF-Dateien von einem lokalen Laufwerk). Wenn Sie mehr als einen PDF-Dateityp haben, empfehlen wir, für jeden PDF-Dateityp unterschiedliche Ordner zu verwenden. Wir empfehlen außerdem, einen eindeutigen und aussagekräftigen Benennungsstandard für die Dateien zu verwenden, z. B. warehouse_<warehouse_number>_<mmddyy>_<PDF_file_type>.pdf
Um kontinuierlich neue PDF-Dateien aufnehmen zu können, muss Ihr Quellsystem eine Verbindung zu Ihrem S3-Bucket herstellen. Sie können beispielsweise einen täglichen Dump von Ihrem Quellsystem zum S3-Bucket einrichten.
Stellen Sie sicher, dass Ihre PDF-Dateien von guter Qualität und gut lesbar sind. Wir empfehlen, native PDF-Dateien zu verwenden, aber Sie können auch gescannte Dokumente verwenden, die in ein PDF-Format konvertiert werden, wenn die einzelnen Wörter klar sind. Weitere Informationen dazu finden Sie unter Vorverarbeitung von PDF-Dateien mit Amazon Textract: Erkennung und Entfernung von Grafiken im AWS Machine Learning Learning-Blog.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Lösungsphasen

Phase der Verarbeitung