Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Ihr Unternehmen identifiziert einen PDF-Dateityp, der kontinuierlich generiert wird (z. B. ein täglicher Betriebsbericht), ein identisches Format hat und aus dem Sie automatisch und regelmäßig Daten extrahieren müssen. Um diese PDF-Datei aufzunehmen, benötigen Sie einen Amazon Simple Storage Service (Amazon S3) -Bucket. Wir empfehlen Ihnen, einen speziellen S3-Bucket zu erstellen. Sie können jedoch auch einen vorhandenen S3-Bucket verwenden. Weitere Informationen dazu finden Sie unter Bucket erstellen in der Amazon S3 S3-Dokumentation.
Der S3-Bucket ruft eine AWS Lambda Funktion auf, wenn die neue PDF-Datei aufgenommen wird. Weitere Informationen dazu finden Sie in der Dokumentation unter Verwenden eines Amazon S3 S3-Triggers zum Aufrufen einer Lambda-Funktion. AWS Lambda
Die Lambda-Funktion verarbeitet dann die PDF-Datei. Dieser Vorgang wird im Phase der Verarbeitung Abschnitt dieses Handbuchs beschrieben.
Bewährte Methoden für die Einnahmephase
Verwenden Sie die folgenden vier bewährten Methoden, um eine erfolgreiche Aufnahme von PDF-Dateien sicherzustellen:
-
Verwenden Sie die Massenaufnahme für historische PDF-Dateien und die kontinuierliche Aufnahme für neue PDF-Dateien.
-
Verwenden Sie für die Massenaufnahme den Massenabzug (z. B. das Hochladen von PDF-Dateien von einem lokalen Laufwerk). Wenn Sie mehr als einen PDF-Dateityp haben, empfehlen wir, für jeden PDF-Dateityp unterschiedliche Ordner zu verwenden. Wir empfehlen außerdem, einen eindeutigen und aussagekräftigen Benennungsstandard für die Dateien zu verwenden, z. B.
warehouse_<warehouse_number>_<mmddyy>_<PDF_file_type>.pdf
-
Um kontinuierlich neue PDF-Dateien aufnehmen zu können, muss Ihr Quellsystem eine Verbindung zu Ihrem S3-Bucket herstellen. Sie können beispielsweise einen täglichen Dump von Ihrem Quellsystem zum S3-Bucket einrichten.
-
Stellen Sie sicher, dass Ihre PDF-Dateien von guter Qualität und gut lesbar sind. Wir empfehlen, native PDF-Dateien zu verwenden, aber Sie können auch gescannte Dokumente verwenden, die in ein PDF-Format konvertiert werden, wenn die einzelnen Wörter klar sind. Weitere Informationen dazu finden Sie unter Vorverarbeitung von PDF-Dateien mit Amazon Textract: Erkennung und Entfernung von Grafiken im AWS Machine Learning Learning-Blog
.