Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Blueprints für die Extraktion erstellen
Mit BDA können Sie die spezifischen Datenfelder definieren, die Sie bei der Erstellung eines Blueprints aus Ihren Dokumenten extrahieren möchten. Dies dient als eine Reihe von Anweisungen, die BDA dabei unterstützen, nach welchen Informationen zu suchen und wie sie zu interpretieren sind.
Felder definieren
Zu Beginn können Sie für jedes Feld, das extrahiert werden muss, eine Eigenschaft erstellen, z. B. employee_id oder product_name. Für jedes Feld müssen Sie eine Beschreibung, einen Datentyp und einen Inferenztyp angeben.
Um ein Feld für die Extraktion zu definieren, müssen Sie die folgenden Parameter angeben:
-
Feldname: Bietet eine für Menschen lesbare Erklärung dessen, wofür das Feld steht. Diese Beschreibung hilft dabei, den Kontext und den Zweck des Feldes zu verstehen, und hilft bei der genauen Extraktion von Daten.
-
Anweisung: Erläutert in natürlicher Sprache, wofür das Feld steht. Diese Beschreibung hilft dabei, den Kontext und den Zweck des Feldes zu verstehen, und hilft bei der genauen Extraktion von Daten.
-
Typ: Gibt den Datentyp des Feldwerts an. BDA unterstützt die folgenden Datentypen:
-
string: Für textbasierte Werte
-
Zahl: Für numerische Werte
-
boolean: Für Werte true/false
-
array: Für Felder, die mehrere Werte desselben Typs haben können (z. B. ein Array von Zeichenketten oder ein Array von Zahlen)
-
-
Inferenztyp: Weist BDA an, wie die Extraktion des Feldwerts zu handhaben ist. Die unterstützten Inferenztypen sind:
-
Explizit: BDA sollte den Wert direkt aus dem Dokument extrahieren.
-
Abgeleitet: BDA sollte den Wert auf der Grundlage der im Dokument enthaltenen Informationen ableiten.
-
Hier ist ein Beispiel für eine Felddefinition mit allen Parametern:
In diesem Beispiel:
-
Der Typ ist auf Zeichenfolge gesetzt, was bedeutet, dass der Wert des Felds product_name textbasiert sein soll.
-
Der InferenceType ist auf Explicit gesetzt, sodass BDA angewiesen wird, den Wert ohne Transformation oder Überprüfung direkt aus dem Dokument zu extrahieren.
-
Die Anweisung bietet zusätzlichen Kontext und verdeutlicht, dass das Feld den Kurznamen des Produkts ohne zusätzliche Details enthalten sollte.
Indem Sie diese Parameter für jedes Feld angeben, stellen Sie BDA die erforderlichen Informationen zur Verfügung, um die gewünschten Daten aus Ihren Dokumenten genau zu extrahieren und zu interpretieren.
Feld | Anweisungen | Art der Extraktion | Typ |
---|---|---|---|
ApplicantsName |
Vollständiger Name des Antragstellers |
Explizit |
Zeichenfolge |
DateOfBirth |
Geburtsdatum des Mitarbeiters |
Explizit |
Zeichenfolge |
Vertrieb |
Bruttoeinnahmen oder Verkäufe |
Explizit |
Zahl |
STATEMENT_STARTING_BALANCE |
Saldo zu Beginn der Periode |
Explizit |
Zahl |
Felder mit mehreren Werten
In Fällen, in denen ein Feld mehrere Werte enthalten kann, können Sie Arrays oder Tabellen definieren.
Liste der Felder
Für Felder, die eine Werteliste enthalten, können Sie einen Array-Datentyp definieren.
In diesem Beispiel ist "OtherExpenses" als ein Array von Zeichenfolgen definiert, sodass BDA mehrere Ausgabenposten für dieses Feld extrahieren kann.
Tabellen
Wenn Ihr Dokument tabellarische Daten enthält, können Sie innerhalb des Schemas eine Tabellenstruktur definieren.
In diesem Beispiel ist „SERVICES_TABLE“ als Tabellentyp mit Spaltenfeldern wie Produktname, Beschreibung, Menge, Einzelpreis und Betrag definiert.
Durch die Definition umfassender Schemas mit entsprechenden Feldbeschreibungen, Datentypen und Inferenztypen können Sie sicherstellen, dass BDA die gewünschten Informationen genau aus Ihren Dokumenten extrahiert, unabhängig von Variationen in der Formatierung oder Darstellung.