Vorbereitung der Trainingsdaten für Klassifikatoren - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Vorbereitung der Trainingsdaten für Klassifikatoren

Für die benutzerdefinierte Klassifizierung trainieren Sie das Modell entweder im Mehrklassenmodus oder im Multi-Label-Modus. Der Mehrklassenmodus ordnet jedem Dokument eine einzelne Klasse zu. Der Modus mit mehreren Bezeichnungen ordnet jedem Dokument eine oder mehrere Klassen zu. Die Eingabedateiformate sind für jeden Modus unterschiedlich. Wählen Sie daher den zu verwendenden Modus aus, bevor Sie die Trainingsdaten erstellen.

Anmerkung

Die Amazon Comprehend Comprehend-Konsole bezeichnet den Mehrklassenmodus als Single-Label-Modus.

Die benutzerdefinierte Klassifizierung unterstützt Modelle, die Sie mit Klartextdokumenten trainieren, und Modelle, die Sie mit systemeigenen Dokumenten (wie PDF, Word oder Bildern) trainieren. Weitere Informationen zu Klassifikatormodellen und den unterstützten Dokumenttypen finden Sie unter. Modelle zur Trainingsklassifizierung

So bereiten Sie Daten für das Training eines benutzerdefinierten Klassifikatormodells vor:

  1. Identifizieren Sie die Klassen, die dieser Klassifikator analysieren soll. Entscheiden Sie, welcher Modus verwendet werden soll (mehrere Klassen oder mehrere Beschriftungen).

  2. Entscheiden Sie sich für den Modelltyp des Klassifikators, je nachdem, ob das Modell für die Analyse von Klartextdokumenten oder halbstrukturierten Dokumenten bestimmt ist.

  3. Sammeln Sie Beispiele für Dokumente für jede der Klassen. Die Mindestanforderungen an die Schulung finden Sie unterAllgemeine Kontingente für die Klassifizierung von Dokumenten.

  4. Wählen Sie für ein Nur-Text-Modell das zu verwendende Trainingsdateiformat (CSV-Datei oder erweiterte Manifestdatei). Um ein systemeigenes Dokumentmodell zu trainieren, verwenden Sie immer eine CSV-Datei.