Aufskalierungsphase - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Aufskalierungsphase

Ihr Unternehmen identifiziert einen PDF-Dateityp, der kontinuierlich generiert wird (z. B. ein täglicher Betriebsbericht), ein identisches Format hat und aus dem Sie automatisch und regelmäßig Daten extrahieren müssen. Um diese PDF-Datei aufzunehmen, benötigen Sie einen Amazon Simple Storage Service (Amazon S3) -Bucket. Wir empfehlen Ihnen, einen dedizierten S3-Bucket zu erstellen. Sie können auch einen vorhandenen S3-Bucket verwenden. Weitere Informationen dazu finden Sie unter Erstellen eines Buckets in der Amazon S3 S3-Dokumentation.

Der S3-Bucket ruft eineAWS Lambda Funktion auf, wenn die neue PDF-Datei aufgenommen wird. Weitere Informationen dazu finden Sie unter Verwenden eines Amazon-S3-Auslösers zum Aufrufen einer Lambda-Funktion in derAWS Lambda Dokumentation.

Die Lambda-Funktion verarbeitet dann die PDF-Datei. Dieser Vorgang wird imAufskalierungsphase Abschnitt dieses Handbuchs beschrieben.

Bewährte Methoden für die Aufskalierungsphase

Verwenden Sie die folgenden vier bewährten Methoden, um eine erfolgreiche Aufnahme von PDF-Dateien sicherzustellen:

  • Verwenden Sie die Massenaufnahme für historische PDF-Dateien und die kontinuierliche Aufnahme für neue PDF-Dateien.

  • Verwenden Sie für die Massenaufnahme Bulk Dump (z. B. das Hochladen von PDF-Dateien von einem lokalen Laufwerk). Wenn Sie mehr als einen PDF-Dateityp haben, empfehlen wir, für jeden Typ von PDF-Dateien unterschiedliche Ordner zu verwenden. Wir empfehlen außerdem, einen eindeutigen und beschreibenden Benennungsstandard für die Dateien zu verwenden, z.warehouse_<wharehouse_number>_<mmddyy>_<PDF_file_type>.pdf B.

  • Um kontinuierlich neue PDF-Dateien aufnehmen zu können, muss Ihr Quellsystem eine Verbindung zu Ihrem S3-Bucket herstellen. Sie können beispielsweise einen täglichen Dump von Ihrem Quellsystem in den S3-Bucket einrichten.

  • Stellen Sie sicher, dass Ihre PDF-Dateien von guter Qualität und gut lesbar sind. Wir empfehlen, native PDF-Dateien zu verwenden, aber Sie können auch gescannte Dokumente verwenden, die in ein PDF-Format konvertiert werden, wenn die einzelnen Wörter klar sind. Weitere Informationen dazu finden Sie unter Vorverarbeitung von PDF-Dateien mit Amazon Textract: Erkennung und Entfernung von Visuals imAWS Machine Learning Learning-Blog.