Vorbereiten von Trainingsdaten für Entity Recognizer - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Vorbereiten von Trainingsdaten für Entity Recognizer

Um ein erfolgreiches benutzerdefiniertes Entitätserkennungsmodell zu trainieren, ist es wichtig, dem Modell-Planer qualitativ hochwertige Daten als Eingabe zur Verfügung zu stellen. Ohne gute Daten lernt das Modell nicht, wie Entitäten korrekt identifiziert werden.

Sie können eine von zwei Möglichkeiten wählen, Daten für Amazon Comprehend bereitzustellen, um ein benutzerdefiniertes Entitätserkennungsmodell zu trainieren:

  • Entitätsliste – Listet die spezifischen Entitäten auf, damit Amazon Comprehend trainieren kann, Ihre benutzerdefinierten Entitäten zu identifizieren. Hinweis: Entitätslisten können nur für Klartextdokumente verwendet werden.

  • Anmerkungen – Gibt den Standort Ihrer Entitäten in einer Reihe von Dokumenten an, sodass Amazon Comprehend sowohl für die Entität als auch für ihren Kontext trainieren kann. Um ein Modell für die Analyse von Bilddateien, PDFs oder Word-Dokumenten zu erstellen, müssen Sie Ihren Recognizer mithilfe von PDF-Anmerkungen trainieren.

In beiden Fällen lernt Amazon Comprehend die Art der Dokumente und den Kontext kennen, in dem die Entitäten auftreten, und erstellt einen Erkenner, der verallgemeinert werden kann, um die neuen Entitäten bei der Analyse von Dokumenten zu erkennen.

Wenn Sie ein benutzerdefiniertes Modell erstellen (oder eine neue Version trainieren), können Sie einen Testdatensatz bereitstellen. Wenn Sie keine Testdaten angeben, reserviert Amazon Comprehend 10 % der Eingabedokumente, um das Modell zu testen. Amazon Comprehend trainiert das Modell mit den verbleibenden Dokumenten.

Wenn Sie einen Testdatensatz für Ihren Trainingssatz für Anmerkungen bereitstellen, müssen die Testdaten mindestens eine Anmerkung für jeden der in der Erstellungsanforderung angegebenen Entitätstypen enthalten.

Wann sollten Anmerkungen im Vergleich zu Entitätslisten verwendet werden?

Das Erstellen von Anmerkungen erfordert mehr Arbeit als das Erstellen einer Entitätsliste, aber das resultierende Modell kann deutlich genauer sein. Die Verwendung einer Entitätsliste ist schneller und weniger arbeitsintensiv, aber die Ergebnisse werden weniger verfeinert und weniger genau. Dies liegt daran, dass die Anmerkungen mehr Kontext bieten, den Amazon Comprehend beim Training des Modells verwenden soll. Ohne diesen Kontext weist Amazon Comprehend eine höhere Anzahl falsch positiver Ergebnisse auf, wenn versucht wird, die Entitäten zu identifizieren.

Es gibt Szenarien, in denen es aus geschäftlichen Gründen sinnvoller ist, die höheren Kosten und den Workload durch die Verwendung von Anmerkungen zu vermeiden. Der Name John ist beispielsweise für Ihre Suche von Bedeutung, aber ob es sich um die genaue Person handelt, ist nicht relevant. Oder die Metriken bei Verwendung der Entitätsliste sind gut genug, um Ihnen die von Ihnen benötigten Erkennungsergebnisse zu liefern. In solchen Fällen kann die Verwendung einer Entitätsliste stattdessen die effektivere Wahl sein.

Wir empfehlen in den folgenden Fällen die Verwendung des Annotationsmodus:

  • Wenn Sie Inferenzen für Bilddateien, PDFs oder Word-Dokumente ausführen möchten. In diesem Szenario trainieren Sie ein Modell mit kommentierten PDF-Dateien und verwenden das Modell, um Inferenzaufträge für Bilddateien, PDFs und Word-Dokumente auszuführen.

  • Wenn die Bedeutung der Entitäten mehrdeutig und kontextabhängig sein könnte. Der Begriff Amazon könnte sich beispielsweise entweder auf den Arzt in Brasilien oder den Online-Shop-Anbieter Amazon.com beziehen. Wenn Sie einen benutzerdefinierten Entity Recognizer erstellen, um Geschäftseinheiten wie Amazon zu identifizieren, sollten Sie Anmerkungen anstelle einer Entitätsliste verwenden, da diese Methode besser in der Lage ist, Kontext zu verwenden, um Entitäten zu finden.

  • Wenn Sie mit der Einrichtung eines Prozesses zum Abrufen von Anmerkungen vertraut sind, kann dies einen gewissen Aufwand erfordern.

In den folgenden Fällen empfehlen wir die Verwendung einer Entitätsliste:

  • Wenn Sie bereits über eine Liste von Entitäten verfügen oder wenn es relativ einfach ist, eine umfassende Liste von Entitäten zu erstellen. Wenn Sie eine Entitätsliste verwenden, sollte die Liste vollständig sein oder zumindest die meisten gültigen Entitäten abdecken, die möglicherweise in den Dokumenten erscheinen, die Sie für die Schulung bereitstellen.

  • Für Erstbenutzer wird im Allgemeinen empfohlen, eine Entitätsliste zu verwenden, da dies einen geringeren Aufwand erfordert als das Erstellen von Anmerkungen. Beachten Sie jedoch, dass das trainierte Modell möglicherweise nicht so genau ist, wie wenn Sie Anmerkungen verwenden würden.