Blueprints für die Extraktion erstellen - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Blueprints für die Extraktion erstellen

Mit BDA können Sie die spezifischen Datenfelder definieren, die Sie bei der Erstellung eines Blueprints aus Ihren Dokumenten extrahieren möchten. Dies dient als eine Reihe von Anweisungen, die BDA dabei unterstützen, nach welchen Informationen zu suchen und wie sie zu interpretieren sind.

Felder definieren

Zu Beginn können Sie für jedes Feld, das extrahiert werden muss, eine Eigenschaft erstellen, z. B. employee_id oder product_name. Für jedes Feld müssen Sie eine Beschreibung, einen Datentyp und einen Inferenztyp angeben.

Um ein Feld für die Extraktion zu definieren, müssen Sie die folgenden Parameter angeben:

  • Feldname: Bietet eine für Menschen lesbare Erklärung dessen, wofür das Feld steht. Diese Beschreibung hilft dabei, den Kontext und den Zweck des Feldes zu verstehen, und hilft bei der genauen Extraktion von Daten.

  • Anweisung: Erläutert in natürlicher Sprache, wofür das Feld steht. Diese Beschreibung hilft dabei, den Kontext und den Zweck des Feldes zu verstehen, und hilft bei der genauen Extraktion von Daten.

  • Typ: Gibt den Datentyp des Feldwerts an. BDA unterstützt die folgenden Datentypen:

    • string: Für textbasierte Werte

    • Zahl: Für numerische Werte

    • boolean: Für Werte true/false

    • array: Für Felder, die mehrere Werte desselben Typs haben können (z. B. ein Array von Zeichenketten oder ein Array von Zahlen)

  • Inferenztyp: Weist BDA an, wie die Extraktion des Feldwerts zu handhaben ist. Die unterstützten Inferenztypen sind:

    • Explizit: BDA sollte den Wert direkt aus dem Dokument extrahieren.

    • Abgeleitet: BDA sollte den Wert auf der Grundlage der im Dokument enthaltenen Informationen ableiten.

Hier ist ein Beispiel für eine Felddefinition mit allen Parametern:

Console
Konsole, die zeigt, wie man „Feldname“ und „Anweisung“ hinzufügt. Der „Typ“ ist auf „Zeichenfolge“ und der „Extraktionstyp“ auf „Explizit“ gesetzt.
API
"product_name":{ "type":"string", "inferenceType":"Explicit", "description":"The short name of the product without any extra details" }

In diesem Beispiel:

  • Der Typ ist auf Zeichenfolge gesetzt, was bedeutet, dass der Wert des Felds product_name textbasiert sein soll.

  • Der InferenceType ist auf Explicit gesetzt, sodass BDA angewiesen wird, den Wert ohne Transformation oder Überprüfung direkt aus dem Dokument zu extrahieren.

  • Die Anweisung bietet zusätzlichen Kontext und verdeutlicht, dass das Feld den Kurznamen des Produkts ohne zusätzliche Details enthalten sollte.

Indem Sie diese Parameter für jedes Feld angeben, stellen Sie BDA die erforderlichen Informationen zur Verfügung, um die gewünschten Daten aus Ihren Dokumenten genau zu extrahieren und zu interpretieren.

Feld Anweisungen Art der Extraktion Typ

ApplicantsName

Vollständiger Name des Antragstellers

Explizit

Zeichenfolge

DateOfBirth

Geburtsdatum des Mitarbeiters

Explizit

Zeichenfolge

Vertrieb

Bruttoeinnahmen oder Verkäufe

Explizit

Zahl

STATEMENT_STARTING_BALANCE

Saldo zu Beginn der Periode

Explizit

Zahl

Felder mit mehreren Werten

In Fällen, in denen ein Feld mehrere Werte enthalten kann, können Sie Arrays oder Tabellen definieren.

Liste der Felder

Für Felder, die eine Werteliste enthalten, können Sie einen Array-Datentyp definieren.

In diesem Beispiel ist "OtherExpenses" als ein Array von Zeichenfolgen definiert, sodass BDA mehrere Ausgabenposten für dieses Feld extrahieren kann.

Console
Konsole, die zeigt, wie man 'Feldname' und 'Anweisung' hinzufügt. Der „Typ“ ist auf „Array of String“ und der „Extraktionstyp“ auf „Explizit“ gesetzt.
API
"OtherExpenses":{ "type":"array", "inferenceType":"Explicit", "description":"Other business expenses not included in fields 8-26 or field 30", "items":{ "type":"string" } }
Tabellen

Wenn Ihr Dokument tabellarische Daten enthält, können Sie innerhalb des Schemas eine Tabellenstruktur definieren.

In diesem Beispiel ist „SERVICES_TABLE“ als Tabellentyp mit Spaltenfeldern wie Produktname, Beschreibung, Menge, Einzelpreis und Betrag definiert.

Console
Konsole, die zeigt, wie man „Feldname“ und „Anweisung“ hinzufügt. Der 'Typ' ist auf 'Tabelle' und der 'Extraktionstyp' ist auf 'Explizit' gesetzt und zeigt spaltenspezifische Felder an, die hinzugefügt wurden.
API
"definitions":{ "LINEITEM":{ "properties":{ "quantity":{ "type":"number", "inferenceType":"Explicit" }, "unit price":{ "type":"number", "inferenceType":"Explicit" }, "amount":{ "type":"number", "inferenceType":"Explicit", "description":"Unit Price * Quantity" }, "product name":{ "type":"string", "inferenceType":"Explicit", "description":"The short name of the product without any extra details" }, "product description":{ "type":"string", "inferenceType":"Explicit", "description":"The full item list description text" } } } }, "properties":{ "SERVICES_TABLE":{ "type":"array", "description":"Line items table listing all the items / services charged in the invoice including quantity, price, amount, product / service name and description.", "items":{ "$ref":"#/definitions/LINEITEM" } }, "... ..." ]

Durch die Definition umfassender Schemas mit entsprechenden Feldbeschreibungen, Datentypen und Inferenztypen können Sie sicherstellen, dass BDA die gewünschten Informationen genau aus Ihren Dokumenten extrahiert, unabhängig von Variationen in der Formatierung oder Darstellung.