Wann sollten Anmerkungen im Vergleich zu Entitätslisten verwendet werden

Trainingsdaten für Entity Recognizer vorbereiten

Um ein erfolgreiches benutzerdefiniertes Entitätserkennungsmodell zu trainieren, ist es wichtig, dem Modelltrainer hochwertige Daten als Eingabe zur Verfügung zu stellen. Ohne gute Daten kann das Modell nicht lernen, Entitäten korrekt zu identifizieren.

Sie können eine von zwei Möglichkeiten wählen, Daten für Amazon Comprehend bereitzustellen, um ein benutzerdefiniertes Entitätserkennungsmodell zu trainieren:

Entitätsliste — Listet die spezifischen Entitäten auf, sodass Amazon Comprehend trainieren kann, Ihre benutzerdefinierten Entitäten zu identifizieren. Hinweis: Entitätslisten können nur für Klartext-Dokumente verwendet werden.
Anmerkungen — Gibt den Standort Ihrer Entitäten in einer Reihe von Dokumenten an, sodass Amazon Comprehend sowohl an der Entität als auch an ihrem Kontext trainieren kann. Um ein Modell für die Analyse von Bilddateien oder Word-Dokumenten zu erstellen PDFs, müssen Sie Ihr Erkennungsprogramm mithilfe von PDF-Anmerkungen trainieren.

In beiden Fällen lernt Amazon Comprehend die Art der Dokumente und den Kontext kennen, in dem die Entitäten vorkommen, und erstellt ein Erkennungsprogramm, das generalisieren kann, um die neuen Entitäten bei der Analyse von Dokumenten zu erkennen.

Wenn Sie ein benutzerdefiniertes Modell erstellen (oder eine neue Version trainieren), können Sie einen Testdatensatz bereitstellen. Wenn Sie keine Testdaten angeben, reserviert Amazon Comprehend 10% der Eingabedokumente, um das Modell zu testen. Amazon Comprehend trainiert das Modell mit den verbleibenden Dokumenten.

Wenn Sie einen Testdatensatz für Ihren Annotations-Trainingssatz bereitstellen, müssen die Testdaten mindestens eine Anmerkung für jeden der in der Erstellungsanforderung angegebenen Entitätstypen enthalten.

Themen

Wann sollten Anmerkungen im Vergleich zu Entitätslisten verwendet werden
Entitätslisten (nur Klartext)
Anmerkungen

Wann sollten Anmerkungen im Vergleich zu Entitätslisten verwendet werden

Das Erstellen von Anmerkungen erfordert mehr Arbeit als das Erstellen einer Entitätsliste, aber das resultierende Modell kann erheblich genauer sein. Die Verwendung einer Entitätsliste ist schneller und weniger arbeitsintensiv, aber die Ergebnisse sind weniger ausgefeilt und weniger genau. Dies liegt daran, dass die Anmerkungen mehr Kontext bieten, den Amazon Comprehend beim Trainieren des Modells verwenden kann. Ohne diesen Kontext wird Amazon Comprehend beim Versuch, die Entitäten zu identifizieren, eine höhere Anzahl an Fehlalarmen haben.

Es gibt Szenarien, in denen es geschäftlich sinnvoller ist, die höheren Kosten und den höheren Arbeitsaufwand zu vermeiden, die mit der Verwendung von Anmerkungen verbunden sind. Beispielsweise ist der Name John Johnson für Ihre Suche von Bedeutung, aber ob es sich um die genaue Person handelt, ist nicht relevant. Oder die Metriken bei der Verwendung der Entitätsliste sind gut genug, um Ihnen die Erkennungsergebnisse zu liefern, die Sie benötigen. In solchen Fällen kann die Verwendung einer Entitätsliste stattdessen die effektivere Wahl sein.

In den folgenden Fällen empfehlen wir, den Annotationsmodus zu verwenden:

Wenn Sie beabsichtigen, Inferenzen für Bilddateien oder PDFs Word-Dokumente durchzuführen. In diesem Szenario trainieren Sie ein Modell mithilfe von PDF-Dateien mit Anmerkungen und verwenden das Modell, um Inferenzaufträge für Bilddateien und Word-Dokumente auszuführen. PDFs
Wenn die Bedeutung der Entitäten mehrdeutig und kontextabhängig sein könnte. Der Begriff Amazon könnte sich beispielsweise entweder auf den Fluss in Brasilien oder auf den Online-Händler Amazon.com beziehen. Wenn Sie eine benutzerdefinierte Entitätserkennung zur Identifizierung von Geschäftsentitäten wie Amazon erstellen, sollten Sie Anmerkungen anstelle einer Entitätsliste verwenden, da diese Methode den Kontext besser verwenden kann, um Entitäten zu finden.
Wenn Sie mit der Einrichtung eines Prozesses zur Erfassung von Anmerkungen vertraut sind, was einen gewissen Aufwand erfordern kann.

In den folgenden Fällen empfehlen wir die Verwendung einer Entitätsliste:

Wenn Sie bereits über eine Liste von Entitäten verfügen oder wenn es relativ einfach ist, eine umfassende Liste von Entitäten zusammenzustellen. Wenn Sie eine Entitätsliste verwenden, sollte die Liste vollständig sein oder zumindest die Mehrheit der gültigen Entitäten abdecken, die in den von Ihnen für die Schulung bereitgestellten Dokumenten enthalten sein könnten.
Für Erstbenutzer wird generell empfohlen, eine Entitätsliste zu verwenden, da dies einen geringeren Aufwand erfordert als das Erstellen von Anmerkungen. Es ist jedoch wichtig zu beachten, dass das trainierte Modell möglicherweise nicht so genau ist, als ob Sie Anmerkungen verwenden würden.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Benutzerdefinierte Entitätserkennung

Entitätslisten