Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Erkennung benutzerdefinierter Entitäten
Die Erkennung benutzerdefinierter Entitäten erweitert die Funktion von Amazon Comprehend, indem sie Ihnen hilft, Ihre spezifischen neuen Entitätstypen zu identifizieren, die nicht zu den voreingestellten generischen Entitätstypen gehören. Das bedeutet, dass Sie Dokumente analysieren und Entitäten wie Produktcodes oder geschäftsspezifische Entitäten extrahieren können, die Ihren speziellen Anforderungen entsprechen.
Die Entwicklung eines genauen benutzerdefinierten Entity Recognizers allein kann ein komplexer Prozess sein, der die Vorbereitung großer Mengen manuell kommentierter Trainingsdokumente und die Auswahl der richtigen Algorithmen und Parameter für das Modelltraining erfordert. Amazon Comprehend trägt dazu bei, die Komplexität zu reduzieren, indem es automatische Anmerkungen und Modellentwicklung bereitstellt, um ein benutzerdefiniertes Entitätserkennungsmodell zu erstellen.
Das Erstellen eines benutzerdefinierten Entitätserkennungsmodells ist ein effektiverer Ansatz als die Verwendung von Zeichenfolgenabgleich oder regulären Ausdrücken zum Extrahieren von Entitäten aus Dokumenten. Um beispielsweise ENGINEER-Namen in einem Dokument zu extrahieren, ist es schwierig, alle möglichen Namen aufzuzählen. Darüber hinaus ist es ohne Kontext schwierig, zwischen ENGINEER-Namen und ANALYST-Namen zu unterscheiden. Ein benutzerdefiniertes Entitätserkennungsmodell kann den Kontext lernen, in dem diese Namen wahrscheinlich erscheinen. Darüber hinaus erkennt der Zeichenfolgenabgleich keine Entitäten, die Tippfehler haben oder neuen Namenskonventionen folgen, während dies mit einem benutzerdefinierten Modell möglich ist.
Sie haben zwei Möglichkeiten, ein benutzerdefiniertes Modell zu erstellen:
-
Anmerkungen – Stellen Sie einen Datensatz bereit, der kommentierte Entitäten für das Modelltraining enthält.
-
Entitätslisten (nur Klartext) – Stellen Sie eine Liste von Entitäten und deren Typbezeichnung bereit (z. B.
PRODUCT_CODES
und eine Reihe von unbemerkten Dokumenten, die diese Entitäten für das Modelltraining enthalten.
Wenn Sie einen benutzerdefinierten Entity Recognizer mit kommentierten PDF-Dateien erstellen, können Sie diesen Recognizer mit einer Vielzahl von Eingabedateiformaten verwenden: Klartext, Bilddateien (JPG, PNG, TIFF), PDF-Dateien und Word-Dokumente, ohne dass eine Vorverarbeitung oder eine Dokumentabflachung erforderlich ist. Amazon Comprehend unterstützt keine Anmerkung von Bilddateien oder Word-Dokumenten.
Anmerkung
Ein benutzerdefinierter Entity Recognizer, der kommentierte PDF-Dateien verwendet, unterstützt nur englische Dokumente.
Sie können ein Modell mit bis zu 25 benutzerdefinierten Entitäten gleichzeitig trainieren. Weitere Informationen finden Sie auf der Seite Richtlinien und Kontingente.
Nachdem Ihr Modell trainiert wurde, können Sie das Modell für die Erkennung von Entitäten in Echtzeit und in Aufträgen zur Entitätserkennung verwenden.