Anmerkungen - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Anmerkungen

Anmerkungen kennzeichnen Entitäten im Kontext, indem sie Ihre benutzerdefinierten Entitätstypen den Speicherorten zuordnen, an denen sie in Ihren Trainingsdokumenten vorkommen.

Indem Sie eine Anmerkung zusammen mit Ihren Dokumenten einreichen, können Sie die Genauigkeit des Modells erhöhen. Mit Annotationen geben Sie nicht nur den Speicherort der gesuchten Entität an, sondern bieten auch einen genaueren Kontext zu der gesuchten benutzerdefinierten Entität.

Wenn Sie beispielsweise nach dem Namen John mit dem Entitätstyp JUDGE suchen, kann die Bereitstellung Ihrer Anmerkung dem Modell helfen zu erfahren, dass die Person, die Sie finden möchten, ein Jurator ist. Wenn der Kontext verwendet werden kann, findet Amazon Comprehend keine Personen mit dem Namen John, die Arzt oder Zeugen sind. Ohne Anmerkungen erstellt Amazon Comprehend eine eigene Version einer Anmerkung, ist aber nicht so effektiv bei der Einbeziehung nur von Prüfern. Die Bereitstellung eigener Anmerkungen kann dazu beitragen, bessere Ergebnisse zu erzielen und Modelle zu generieren, die den Kontext beim Extrahieren benutzerdefinierter Entitäten besser nutzen können.

Mindestanzahl von Anmerkungen

Die Mindestanzahl der Eingabedokumente und Anmerkungen, die zum Trainieren eines Modells erforderlich sind, hängt von der Art der Anmerkungen ab.

PDF-Anmerkungen

Um ein Modell für die Analyse von Bilddateien, PDFs oder Word-Dokumenten zu erstellen, trainieren Sie Ihren Recognizer mithilfe von PDF-Anmerkungen. Geben Sie für PDF-Anmerkungen mindestens 250 Eingabedokumente und mindestens 100 Anmerkungen pro Entität an.

Wenn Sie einen Testdatensatz bereitstellen, müssen die Testdaten mindestens eine Anmerkung für jeden der in der Erstellungsanforderung angegebenen Entitätstypen enthalten.

Klartext-Anmerkungen

Um ein Modell für die Analyse von Textdokumenten zu erstellen, können Sie Ihren Recognizer mithilfe von Klartextanmerkungen trainieren.

Geben Sie für Klartext-Anmerkungen mindestens drei kommentierte Eingabedokumente und mindestens 25 Anmerkungen pro Entität an. Wenn Sie insgesamt weniger als 50 Anmerkungen angeben, reserviert Amazon Comprehend mehr als 10 % der Eingabedokumente, um das Modell zu testen (es sei denn, Sie haben in der Trainingsanforderung einen Testdatensatz angegeben). Denken Sie daran, dass die minimale Dokumentkorpusgröße 5 KB beträgt.

Wenn Ihre Eingabe nur wenige Trainingsdokumente enthält, kann es zu einem Fehler kommen, dass die Trainingseingabedaten zu wenige Dokumente enthalten, die eine der Entitäten erwähnt. Senden Sie den Auftrag erneut mit zusätzlichen Dokumenten, in denen die Entität erwähnt wird.

Wenn Sie einen Testdatensatz bereitstellen, müssen die Testdaten mindestens eine Anmerkung für jeden der in der Erstellungsanforderung angegebenen Entitätstypen enthalten.

Ein Beispiel für das Benchmarking eines Modells mit einem kleinen Datensatz finden Sie unter Amazon Comprehend kündigt niedrigere Anmerkungslimits für die Erkennung benutzerdefinierter Entitäten an auf der -AWSBlog-Website.

Bewährte Methoden für Anmerkungen

Bei der Verwendung von Anmerkungen müssen Sie eine Reihe von Dingen berücksichtigen, um das beste Ergebnis zu erzielen, darunter:

  • Kommentieren Sie Ihre Daten mit Bedacht und stellen Sie sicher, dass Sie jede Erwähnung der Entität kommentieren. Unpräzise Anmerkungen können zu schlechten Ergebnissen führen.

  • Eingabedaten sollten keine Duplikate enthalten, z. B. ein Duplikat eines PDF, das Sie kommentieren möchten. Das Vorhandensein einer doppelten Stichprobe kann zu einer Testsatzbereinigung führen und sich negativ auf den Trainingsprozess, die Modellmetriken und das Modellverhalten auswirken.

  • Stellen Sie sicher, dass alle Ihre Dokumente mit Anmerkungen versehen sind und dass die Dokumente ohne Anmerkungen auf fehlende legitime Entitäten zurückzuführen sind, nicht auf steile. Wenn Sie beispielsweise ein Dokument haben, das besagt, dass „J Doe seit 14 Jahren Techniker ist“, sollten Sie auch eine Anmerkung für „J Doe“ sowie „John Doe“ angeben. Andernfalls wird das Modell verwirrt und das Modell erkennt „J Doe“ nicht als ENGINEER. Dies sollte innerhalb desselben Dokuments und dokumentübergreifend konsistent sein.

  • Im Allgemeinen führen mehr Anmerkungen zu besseren Ergebnissen.

  • Sie können ein Modell mit der minimalen Anzahl von Dokumenten und Anmerkungen trainieren, aber das Hinzufügen von Daten verbessert normalerweise das Modell. Wir empfehlen, das Volumen annotierter Daten um 10 % zu erhöhen, um die Genauigkeit des Modells zu erhöhen. Sie können Inferenzen für einen Testdatensatz ausführen, der unverändert bleibt und von verschiedenen Modellversionen getestet werden kann. Anschließend können Sie die Metriken für aufeinanderfolgende Modellversionen vergleichen.

  • Stellen Sie Dokumente, die echten Anwendungsfällen ähneln, so genau wie möglich bereit. Synthesisierte Daten mit sich wiederholenden Mustern sollten vermieden werden. Die Eingabedaten sollten so unterschiedlich wie möglich sein, um Überanpassungen zu vermeiden und dem zugrunde liegenden Modell zu helfen, anhand realer Beispiele besser zu verallgemeinern.

  • Es ist wichtig, dass Dokumente in Bezug auf die Anzahl der Wörter unterschiedlich sein sollten. Wenn beispielsweise alle Dokumente in den Trainingsdaten kurz sind, kann das resultierende Modell Schwierigkeiten haben, Entitäten in längeren Dokumenten vorherzusagen.

  • Versuchen Sie, dieselbe Datenverteilung für das Training bereitzustellen, die Sie voraussichtlich verwenden, wenn Sie Ihre benutzerdefinierten Entitäten tatsächlich erkennen (Inferenzzeit). Wenn Sie beispielsweise zum Zeitpunkt der Inferenz erwarten, uns Dokumente zu senden, die keine Entitäten enthalten, sollte dies auch Teil Ihres Trainingsdokumentsatzes sein.

Weitere Vorschläge finden Sie unter Verbesserung der Leistung von benutzerdefinierten Entitätserkennungen.