Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Anmerkungen
Anmerkungen kennzeichnen Entitäten im Kontext, indem sie Ihre benutzerdefinierten Entitätstypen den Stellen zuordnen, an denen sie in Ihren Schulungsdokumenten vorkommen.
Indem Sie Anmerkungen zusammen mit Ihren Dokumenten einreichen, können Sie die Genauigkeit des Modells erhöhen. Mit Anmerkungen geben Sie nicht nur den Standort der Entität an, nach der Sie suchen, sondern Sie stellen auch einen genaueren Kontext für die gesuchte benutzerdefinierte Entität bereit.
Wenn Sie beispielsweise nach dem Namen John Johnson mit dem Entitätstyp JUDGE suchen, kann das Modell anhand Ihrer Anmerkung feststellen, dass es sich bei der gesuchten Person um einen Richter handelt. Wenn Amazon Comprehend den Kontext verwenden kann, findet Amazon Comprehend keine Personen namens John Johnson, die Anwälte oder Zeugen sind. Ohne Anmerkungen erstellt Amazon Comprehend eine eigene Version einer Anmerkung, ist aber nicht so effektiv, wenn es nur um Richter geht. Das Bereitstellen eigener Anmerkungen kann dazu beitragen, bessere Ergebnisse zu erzielen und Modelle zu generieren, die den Kontext beim Extrahieren benutzerdefinierter Entitäten besser nutzen können.
Themen
Mindestanzahl von Anmerkungen
Die Mindestanzahl von Eingabedokumenten und Anmerkungen, die zum Trainieren eines Modells erforderlich sind, hängt von der Art der Anmerkungen ab.
- Anmerkungen im PDF-Format
-
Um ein Modell für die Analyse von Bilddateien oder Word-Dokumenten zu erstellen PDFs, trainieren Sie Ihr Erkennungsprogramm mithilfe von PDF-Anmerkungen. Geben Sie für PDF-Anmerkungen mindestens 250 Eingabedokumente und mindestens 100 Anmerkungen pro Entität an.
Wenn Sie einen Testdatensatz angeben, müssen die Testdaten mindestens eine Anmerkung für jeden der in der Erstellungsanforderung angegebenen Entitätstypen enthalten.
- Anmerkungen im Klartext
-
Um ein Modell für die Analyse von Textdokumenten zu erstellen, können Sie Ihren Recognizer mithilfe von Klartext-Anmerkungen trainieren.
Geben Sie für Klartext-Anmerkungen mindestens drei kommentierte Eingabedokumente und mindestens 25 Anmerkungen pro Entität an. Wenn Sie insgesamt weniger als 50 Anmerkungen angeben, reserviert Amazon Comprehend mehr als 10% der Eingabedokumente, um das Modell zu testen (es sei denn, Sie haben in der Schulungsanfrage einen Testdatensatz angegeben). Vergessen Sie nicht, dass die Mindestgröße des Dokumentkorpus 5 KB beträgt.
Wenn Ihre Eingabe nur wenige Schulungsdokumente enthält, wird möglicherweise der Fehler angezeigt, dass die Trainingseingabedaten zu wenige Dokumente enthalten, in denen eine der Entitäten erwähnt wird. Reichen Sie den Job erneut mit zusätzlichen Dokumenten ein, in denen die Entität erwähnt wird.
Wenn Sie einen Testdatensatz angeben, müssen die Testdaten mindestens eine Anmerkung für jeden der in der Erstellungsanforderung angegebenen Entitätstypen enthalten.
Ein Beispiel dafür, wie ein Modell mit einem kleinen Datensatz verglichen werden kann, finden Sie auf der AWS Blogseite unter Amazon Comprehend kündigt niedrigere Annotationsgrenzen für die benutzerdefinierte Entitätserkennung
an.
Bewährte Methoden für Anmerkungen
Es gibt eine Reihe von Dingen zu beachten, um bei der Verwendung von Anmerkungen das beste Ergebnis zu erzielen, darunter:
-
Kommentieren Sie Ihre Daten sorgfältig und stellen Sie sicher, dass Sie jede Erwähnung der Entität mit Anmerkungen versehen. Ungenaue Anmerkungen können zu schlechten Ergebnissen führen.
-
Eingabedaten sollten keine Duplikate enthalten, wie z. B. ein Duplikat einer PDF-Datei, die Sie mit Anmerkungen versehen möchten. Das Vorhandensein einer doppelten Probe kann zu einer Verunreinigung des Testsets führen und sich negativ auf den Trainingsprozess, die Modellmetriken und das Modellverhalten auswirken.
-
Vergewissern Sie sich, dass alle Ihre Dokumente mit Anmerkungen versehen sind und dass die Dokumente ohne Anmerkungen auf das Fehlen legitimer Entitäten und nicht auf Fahrlässigkeit zurückzuführen sind. Wenn Sie beispielsweise ein Dokument haben, in dem steht: „J Doe ist seit 14 Jahren Ingenieur“, sollten Sie auch eine Anmerkung für „J Doe“ und „John Doe“ angeben. Wenn Sie dies nicht tun, wird das Modell verwirrt und es kann dazu führen, dass das Modell „J Doe“ nicht als INGENIEUR erkennt. Dies sollte innerhalb desselben Dokuments und in allen Dokumenten konsistent sein.
-
Im Allgemeinen führen mehr Anmerkungen zu besseren Ergebnissen.
-
Sie können ein Modell mit einer minimalen Anzahl von Dokumenten und Anmerkungen trainieren, aber das Hinzufügen von Daten verbessert das Modell in der Regel. Wir empfehlen, das Volumen der annotierten Daten um 10% zu erhöhen, um die Genauigkeit des Modells zu erhöhen. Sie können Inferenzen für einen Testdatensatz ausführen, der unverändert bleibt und mit verschiedenen Modellversionen getestet werden kann. Anschließend können Sie die Metriken für aufeinanderfolgende Modellversionen vergleichen.
-
Stellen Sie Dokumente bereit, die realen Anwendungsfällen so nahe wie möglich kommen. Synthetisierte Daten mit sich wiederholenden Mustern sollten vermieden werden. Die Eingabedaten sollten so vielfältig wie möglich sein, um eine Überanpassung zu vermeiden und das zugrunde liegende Modell besser anhand realer Beispiele zu verallgemeinern.
-
Es ist wichtig, dass die Dokumente in Bezug auf die Wortzahl unterschiedlich sind. Wenn beispielsweise alle Dokumente in den Trainingsdaten kurz sind, kann das resultierende Modell Schwierigkeiten haben, Entitäten in längeren Dokumenten vorherzusagen.
-
Versuchen Sie, für das Training dieselbe Datenverteilung anzugeben, die Sie erwarten, wenn Sie Ihre benutzerdefinierten Entitäten tatsächlich erkennen (Inferenzzeit). Wenn Sie zum Beispiel zur Zeit der Inferenz damit rechnen, uns Dokumente zu schicken, die keine Entitäten enthalten, sollte dies ebenfalls Teil Ihrer Schulungsunterlagen sein.
Weitere Vorschläge finden Sie unter Verbesserung der Leistung des benutzerdefinierten Entitätserkenners.