Aufskalierungsphase - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Aufskalierungsphase

Amazon Textract extrahiert den Inhalt von PDF-Dateien als Zeichenketten, die von Downstream-Anwendungen nicht direkt verwendet werden können (z. B. um Statistiken durch Aggregieren von Zahlen zu generieren). Korrekt identifizierte und transformierte Datenwerte sind erforderlich, da sie von Ihren Downstream-Anwendungen einfacher verwendet werden können (z. B. um Kostentrends als Zeitreihe darzustellen). Um die Verarbeitung von PDF-Dateien zu implementieren, muss eine PDF-Datei von jedem neuen PDF-Dateityp einmalig über Amazon Textract verarbeitet werden, das dann eineTemplate Datei im JSON-Format generiert.

Nachdem dieAWS Lambda Funktion in initiiert wurdeAufskalierungsphase, führt sie die im folgenden Diagramm gezeigten Schritte aus.

DieAWS Lambda Funktion ruft Amazon Textract auf, um die PDF-Datei zu verarbeiten, verwendet die vordefinierte vordefinierteTemplate JSON-Datei und wendet Nachverarbeitungsregeln an, bevor die endgültige Ausgabe in einem S3-Bucket gespeichert wird.

Das Diagramm zeigt die Lambda-Funktion, die die folgenden Schritte implementiert:

  1. Ruft Amazon Textract auf, um die PDF-Datei zu verarbeiten, den Inhalt zu extrahieren und eine JSON-formatierte Datei zurückzugeben.

  2. Nimmt die JSON-Datei und analysiert Formulare und Tabellen mithilfe einer vordefiniertenTemplate JSON-Datei, die für jedes Feld den richtigen Schlüsselnamen und Werttyp hat. Dieser Prozess stellt eine analysierte JSON-Datei bereit.

  3. Wendet die Nachverarbeitungsregeln an und verwendet dieTemplate JSON-Datei, um jeden Wert in der analysierten JSON-Datei zu korrigieren. Dadurch wird dieFinal JSON-Datei erstellt. Die vordefinierteTemplate JSON-Datei kann im S3-Bucket gespeichert werden.

  4. Speichert dieFinal JSON-Datei in Amazon DynamoDB als einen Datensatz für jede PDF-Datei, zusätzlich zu einer JSON-Datei für jede PDF-Datei in einem S3-Ausgabe-Bucket.

Informationen zu einem step-by-step Workflow, der Amazon Textract verwendet, um automatisch Inhalte aus PDF-Dateien zu extrahieren und zu einer sauberen Ausgabe zu verarbeiten, finden Sie im Muster Automatisches Extrahieren von Inhalten aus PDF-Dateien mit Amazon Textract auf derAWS Prescriptive Guidance-Website. Das Muster verwendet eine Vorlagenvergleichstechnik, um das erforderliche Feld, den Schlüsselnamen und die Tabellen korrekt zu identifizieren, und wendet dann Nachverarbeitungskorrekturen für jeden Datentyp an.

Bewährte Methoden für die Aufskalierungsphase

Verwenden Sie die folgenden vier Best Practices, um eine erfolgreiche Verarbeitungsphase sicherzustellen:

  • Erstellen Sie eine JSON-Vorlagendatei für jeden PDF-Dateityp, den Sie verarbeiten möchten. Sie können diese verschiedenen JSON-Vorlagendateien in einem S3-Bucket speichern, der von der Lambda-Funktion aufgerufen wird. Wenn Sie verschiedene PDF-Dateitypen in einer Lambda-Funktion verarbeiten möchten, sollten Sie für jeden PDF-Dateityp eine eindeutige Kennung verwenden (z. B. den Ordnernamen des PDF-Dateityps im S3-Bucket). Nachdem die Lambda-Funktion aufgerufen wurde, ruft sie die entsprechende JSON-Vorlagendatei ab und verarbeitet sie.

  • Richten Sie einen Mechanismus ein, um den Status jedes Schritts in der Lambda-Funktion genau zu verfolgen. Sie könnten beispielsweise denSuccess Status nach dem Amazon Textract Textract-Aufruf hinzufügen, wenn die endgültige JSON-Datei in einer Amazon DynamoDB-Tabelle gespeichert wird oder wann die PDF-Dateien in einem S3-Bucket gespeichert werden. Sie können auch eine separate DynamoDB-Tabelle erstellen, um den Status jeder PDF-Datei in den verschiedenen Schritten zu verfolgen, was einen Einblick in den Prozess bietet.

  • Managen Sie die Drosselung und unterbrochene Verbindungen, indem Sie fehlgeschlagene Vorgänge automatisch wiederholen, wenn Sie viele PDF-Dateien stapelweise verarbeiten. Abskalierungsphase kann in Amazon Textract auftreten, wenn Ihre Verbindung unterbrochen wird oder Sie die maximale Anzahl der Transaktionen pro Sekunde (TPS) überschreiten. Weitere Informationen und Schritte zur automatischen Wiederholung fehlgeschlagener Vorgänge finden Sie in der Amazon Textract Textract-Dokumentation unter Umgang mit gedrosselten Anrufen und Verbindungsabbrüchen.

  • Wenn Sie PDF-Dateien mit mehreren Seiten haben, können Sie entweder einen asynchronen Vorgang verwenden, um die gesamte Datei zu verarbeiten, oder die PDF-Datei in eine einzelne Seite aufteilen, eine synchrone Operation verwenden, um jede Seite zu verarbeiten, und dann die Ergebnisse jeder Seite kombinieren. Eine vollständige Codimplementierung eines asynchronen Vorgangs finden Sie unter Erkennen und Analysieren von Text in mehrseitigen Dokumenten in der Amazon Textract Textract-Dokumentation. Weitere Informationen zur Verwendung eines synchronen Vorgangs finden Sie unter Erkennen und Analysieren von Text in einseitigen Dokumenten in der Amazon Textract Textract-Dokumentation.