Aufteilen von Dokumenten bei der Verwendung von Projekten - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Aufteilen von Dokumenten bei der Verwendung von Projekten

Amazon Bedrock Data Automation (BDA) unterstützt das Teilen von Dokumenten bei Verwendung der Amazon Bedrock-API. Wenn diese Option aktiviert ist, kann BDA eine PDF-Datei mit mehreren logischen Dokumenten zur Verarbeitung in separate Dokumente aufteilen.

Sobald die Aufteilung abgeschlossen ist, wird jedes Segment des geteilten Dokuments unabhängig verarbeitet. Das bedeutet, dass ein Eingabedokument verschiedene Dokumenttypen enthalten kann. Wenn Sie beispielsweise über eine PDF-Datei mit 3 Kontoauszügen und einem W2-Formular verfügen, wird beim Aufteilen versucht, diese in 4 separate Dokumente aufzuteilen, die einzeln verarbeitet werden.

Die automatische Aufteilung in BDA unterstützt Dateien mit bis zu 3 000 Seiten und einzelne Dokumente mit jeweils bis zu 20 Seiten.

Die Option zum Aufteilen von Dokumenten ist standardmäßig deaktiviert, kann aber bei Verwendung der API aktiviert werden. Im Folgenden finden Sie ein Beispiel für die Erstellung eines Projekts, bei dem die Aufteilung aktiviert ist. Die Auslassungspunkte stellen weitere Vorlagen dar, die für das Projekt bereitgestellt wurden.

response = client.create_data_automation_project( projectName=project_name, projectDescription="Provide a project description", projectStage='LIVE', standardOutputConfiguration=output_config, customOutputConfiguration={ 'blueprints': [ { 'blueprintArn': Blueprint ARN, 'blueprintStage': 'LIVE' }, ... ] }, overrideConfiguration={'document': {'splitter': {'state': 'ENABLED'}}} )

Der Teil, der den Aufteilungsprozess ermöglicht, ist die overrideConfiguration-Zeile. Diese Zeile richtet die Aufteilung ein und ermöglicht es Ihnen, mehrere Dokumente innerhalb derselben Datei zu übergeben.

Dokumente werden nach den semantischen Grenzen im Dokument aufgeteilt.

Die Aufteilung von Dokumenten erfolgt unabhängig von der Anwendung von Vorlagen und aufgeteilte Dokumente werden der passendsten Vorlage zugeordnet. Weitere Informationen zur Zuordnung von Vorlagen durch BDA finden Sie unter Grundlagen zur Zuordnung von Vorlagen .

Grundlagen zur Zuordnung von Vorlagen

Die Zuordnung von Vorlagen basiert auf den folgenden Elementen:

  • Name der Vorlage

  • Beschreibung der Vorlage

  • Vorlagenfelder

Bei der Verarbeitung von Dokumenten können Sie mehrere Vorlagen zum Abgleichen angeben. Dies ermöglicht die Verarbeitung verschiedener Dokumenttypen mit entsprechenden Vorlagen. Sie können beim Aufrufen der Datenautomatisierungs-API mehrere Vorlagen-IDs angeben. BDA versucht dann, jedes Dokument der am besten passenden Vorlage zuzuordnen. Dies ermöglicht die Verarbeitung von gemischten Dokumenttypen in einem einzigen Batch. Dies ist nützlich, wenn zu erwarten ist, dass Dokumente unterschiedliche Typen aufweisen (z. B. Kontoauszüge, Rechnungen, Reisepässe).

Wenn Sie separate Vorlagen benötigen, weil die Dokumentformate sehr unterschiedlich sind oder spezielle Prompts erfordern, kann die Erstellung einer Vorlage pro Dokumenttyp beim Abgleich helfen. Weitere Informationen zum Erstellen hilfreicher Vorlagen finden Sie unter Best Practices für die Erstellung von Vorlagen.

Best Practices für die Erstellung von Vorlagen

Halten Sie sich an die folgenden bewährten Methoden, um Ihre Vorlagen optimal zu nutzen:

  • Geben Sie die Namen und Beschreibungen der Vorlagen explizit und detailliert an, um den Abgleich zu erleichtern.

  • Durch die Bereitstellung mehrerer relevanter Vorlagen kann BDA die beste Übereinstimmung auswählen. Erstellen Sie separate Vorlagen für deutlich unterschiedliche Dokumentformate.

  • Erwägen Sie, spezielle Vorlagen für jeden Anbieter/jede Dokumentenquelle zu erstellen, wenn Sie maximale Genauigkeit benötigen

  • Nehmen Sie nicht zwei Vorlagen desselben Typs in ein Projekt auf (z. B. zwei W2-Vorlagen). Für die Verarbeitung eines Dokuments werden Informationen aus dem Dokument selbst und aus der Vorlage verwendet. Wenn mehrere Vorlagen desselben Typs in einem Projekt vorhanden sind, führt dies zu einer schlechteren Leistung.

Durch die Aufteilung von Dokumenten und den Abgleich mit mehreren Vorlagen kann BDA unterschiedliche Dokumentensätze flexibler handhaben und gleichzeitig für jedes Dokument die am besten geeignete Extraktionslogik anwenden.