Trainieren Sie benutzerdefinierte Klassifikatoren (Konsole) - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Trainieren Sie benutzerdefinierte Klassifikatoren (Konsole)

Sie können mithilfe der Konsole einen benutzerdefinierten Klassifikator erstellen und trainieren und dann den benutzerdefinierten Klassifikator verwenden, um Ihre Dokumente zu analysieren.

Um einen benutzerdefinierten Klassifikator zu trainieren, benötigen Sie eine Reihe von Schulungsdokumenten. Sie kennzeichnen diese Dokumente mit den Kategorien, die der Dokumentenklassifizierer erkennen soll. Informationen zur Vorbereitung Ihrer Schulungsdokumente finden Sie unterVorbereitung der Trainingsdaten für Klassifikatoren.

So erstellen und trainieren Sie ein Klassifizierungsmodell für Dokumente
  1. Melden Sie sich bei der Amazon Comprehend Comprehend-Konsole an AWS Management Console und öffnen Sie sie unter https://console.aws.amazon.com/comprehend/

  2. Wählen Sie im linken Menü Anpassung und dann Benutzerdefinierte Klassifizierung aus.

  3. Wählen Sie Neues Modell erstellen.

  4. Geben Sie unter Modelleinstellungen einen Modellnamen für den Klassifikator ein. Der Name muss innerhalb Ihres Kontos und Ihrer aktuellen Region eindeutig sein.

    (Optional) Geben Sie einen Versionsnamen ein. Der Name muss innerhalb Ihres Kontos und Ihrer aktuellen Region eindeutig sein.

  5. Wählen Sie die Sprache der Schulungsunterlagen aus. Informationen zu den Sprachen, die Classifier unterstützen, finden Sie unterModelle zur Trainingsklassifizierung.

  6. (Optional) Wenn Sie die Daten auf dem Speichervolume verschlüsseln möchten, während Amazon Comprehend Ihren Trainingsjob verarbeitet, wählen Sie Classifier-Verschlüsselung. Wählen Sie dann aus, ob Sie einen KMS-Schlüssel verwenden möchten, der mit Ihrem aktuellen Konto verknüpft ist, oder einen von einem anderen Konto.

    • Wenn Sie einen Schlüssel verwenden, der dem aktuellen Konto zugeordnet ist, wählen Sie die Schlüssel-ID für die KMS-Schlüssel-ID.

    • Wenn Sie einen Schlüssel verwenden, der einem anderen Konto zugeordnet ist, geben Sie den ARN für die Schlüssel-ID unter KMS-Schlüssel-ARN ein.

    Anmerkung

    Weitere Informationen zur Erstellung und Verwendung von KMS-Schlüsseln und der zugehörigen Verschlüsselung finden Sie unter AWS Key Management Service (AWS KMS).

  7. Wählen Sie unter Datenspezifikationen den zu verwendenden Trainingsmodelltyp aus.

    • Nur-Text-Dokumente: Wählen Sie diese Option, um ein Nur-Text-Modell zu erstellen. Trainieren Sie das Modell mithilfe von Klartextdokumenten.

    • Systemeigene Dokumente: Wählen Sie diese Option, um ein systemeigenes Dokumentmodell zu erstellen. Trainieren Sie das Modell mit systemeigenen Dokumenten (PDF, Word, Bilder).

  8. Wählen Sie das Datenformat Ihrer Trainingsdaten. Informationen zu den Datenformaten finden Sie unterFormate der Classifier-Trainingsdateien.

    • CSV-Datei: Wählen Sie diese Option, wenn Ihre Trainingsdaten das CSV-Dateiformat verwenden.

    • Erweitertes Manifest: Wählen Sie diese Option, wenn Sie Ground Truth verwendet haben, um erweiterte Manifestdateien für Ihre Trainingsdaten zu erstellen. Dieses Format ist verfügbar, wenn Sie Nur-Text-Dokumente als Trainingsmodelltyp ausgewählt haben.

  9. Wählen Sie den zu verwendenden Klassifizierermodus aus.

    • Einzellabelmodus: Wählen Sie diesen Modus, wenn sich die Kategorien, die Sie Dokumenten zuweisen, gegenseitig ausschließen und Sie Ihren Klassifizierer darauf trainieren, jedem Dokument ein Etikett zuzuweisen. In der Amazon Comprehend API wird der Single-Label-Modus als Mehrklassenmodus bezeichnet.

    • Multi-Label-Modus: Wählen Sie diesen Modus, wenn mehrere Kategorien gleichzeitig auf ein Dokument angewendet werden können und Sie Ihren Klassifizierer darauf trainieren, jedem Dokument ein oder mehrere Labels zuzuweisen.

  10. Wenn Sie den Modus „Mehrere Beschriftungen“ wählen, können Sie das Trennzeichen für Beschriftungen auswählen. Verwenden Sie dieses Trennzeichen, um Bezeichnungen voneinander zu trennen, wenn es mehrere Klassen für ein Schulungsdokument gibt. Das Standardtrennzeichen ist der senkrechte Strich.

  11. (Optional) Wenn Sie Augmented Manifest als Datenformat ausgewählt haben, können Sie bis zu fünf Augmented Manifest-Dateien eingeben. Jede erweiterte Manifest-Datei enthält entweder einen Trainingsdatensatz oder einen Testdatensatz. Sie müssen mindestens einen Trainingsdatensatz angeben. Testdatensätze sind optional. Gehen Sie wie folgt vor, um die erweiterten Manifestdateien zu konfigurieren:

    1. Erweitern Sie unter Trainings- und Testdatensatz den Bereich Eingabeposition.

    2. Wählen Sie unter Datensatztyp die Option Trainingsdaten oder Testdaten aus.

    3. Geben Sie für den S3-Speicherort der erweiterten SageMaker Ground Truth Manifest-Datei den Speicherort des Amazon S3 S3-Buckets ein, der die Manifestdatei enthält, oder navigieren Sie zu diesem, indem Sie Browse S3 wählen. Die IAM-Rolle, die Sie für die Zugriffsberechtigungen für den Trainingsjob verwenden, muss über Leseberechtigungen für den S3-Bucket verfügen.

    4. Geben Sie für die Attributnamen den Namen des Attributs ein, das Ihre Anmerkungen enthält. Wenn die Datei Anmerkungen aus mehreren verketteten Beschriftungsaufträgen enthält, fügen Sie für jeden Auftrag ein Attribut hinzu.

    5. Um einen weiteren Eingabeort hinzuzufügen, wählen Sie Eingabeposition hinzufügen und konfigurieren Sie dann den nächsten Speicherort.

  12. (Optional) Wenn Sie die CSV-Datei als Datenformat ausgewählt haben, gehen Sie wie folgt vor, um den Trainingsdatensatz und den optionalen Testdatensatz zu konfigurieren:

    1. Geben Sie unter Trainingsdatensatz den Speicherort des Amazon S3 S3-Buckets ein, der Ihre CSV-Datei mit Trainingsdaten enthält, oder navigieren Sie zu diesem, indem Sie Browse S3 wählen. Die IAM-Rolle, die Sie für die Zugriffsberechtigungen für den Trainingsjob verwenden, muss über Leseberechtigungen für den S3-Bucket verfügen.

      (Optional) Wenn Sie Native Dokumente als Trainingsmodelltyp wählen, geben Sie auch die URL des Amazon S3 S3-Ordners an, der die Trainingsbeispieldateien enthält.

    2. Wählen Sie unter Testdatensatz aus, ob Sie zusätzliche Daten für Amazon Comprehend bereitstellen, um das trainierte Modell zu testen.

      • Autosplit: Autosplit wählt automatisch 10% Ihrer Trainingsdaten aus, um sie für die Verwendung als Testdaten zu reservieren.

      • (Optional) Vom Kunden bereitgestellt: Geben Sie die URL der Testdaten-CSV-Datei in Amazon S3 ein. Sie können auch zu seinem Speicherort in Amazon S3 navigieren und Ordner auswählen wählen.

        (Optional) Wenn Sie Native Dokumente als Trainingsmodelltyp wählen, geben Sie auch die URL des Amazon S3 S3-Ordners an, der die Testdateien enthält.

  13. (Optional) Im Lesemodus für Dokumente können Sie die standardmäßigen Textextraktionsaktionen überschreiben. Diese Option ist für Klartext-Modelle nicht erforderlich, da sie für die Textextraktion für gescannte Dokumente gilt. Weitere Informationen finden Sie unter Festlegen von Optionen für die Textextraktion.

  14. (Optional für Klartextmodelle) Geben Sie unter Ausgabedaten den Speicherort eines Amazon S3 S3-Buckets ein, um Trainingsausgabedaten wie die Konfusionsmatrix zu speichern. Weitere Informationen finden Sie unter Verwechslungsmatrix.

    (Optional) Wenn Sie das Ausgabeergebnis Ihres Trainingsjobs verschlüsseln möchten, wählen Sie Verschlüsselung. Wählen Sie dann aus, ob Sie einen KMS-Schlüssel verwenden möchten, der mit dem aktuellen Konto verknüpft ist, oder einen von einem anderen Konto.

    • Wenn Sie einen Schlüssel verwenden, der dem aktuellen Konto zugeordnet ist, wählen Sie den Schlüsselalias für die KMS-Schlüssel-ID.

    • Wenn Sie einen Schlüssel verwenden, der einem anderen Konto zugeordnet ist, geben Sie den ARN für den Schlüsselalias oder die Schlüssel-ID unter KMS-Schlüssel-ID ein.

  15. Wählen Sie für die IAM-Rolle die Option Eine bestehende IAM-Rolle auswählen und wählen Sie dann eine bestehende IAM-Rolle aus, die über Leseberechtigungen für den S3-Bucket verfügt, der Ihre Schulungsdokumente enthält. Die Rolle muss über eine Vertrauensrichtlinie verfügen, die mit 1 beginnt, um gültig comprehend.amazonaws.com zu sein.

    Wenn Sie noch keine IAM-Rolle mit diesen Berechtigungen haben, wählen Sie Create an IAM-Rolle aus, um eine zu erstellen. Wählen Sie die Zugriffsberechtigungen aus, die Sie dieser Rolle gewähren möchten, und wählen Sie dann ein Namenssuffix, um die Rolle von den IAM-Rollen in Ihrem Konto zu unterscheiden.

    Anmerkung

    Für verschlüsselte Eingabedokumente muss die verwendete IAM-Rolle ebenfalls über eine entsprechende Berechtigung verfügen. kms:Decrypt Weitere Informationen finden Sie unter Erforderliche Berechtigungen für die Verwendung der KMS-Verschlüsselung.

  16. (Optional) Um Ihre Ressourcen von einer VPC aus in Amazon Comprehend zu starten, geben Sie die VPC-ID unter VPC ein oder wählen Sie die ID aus der Dropdownliste aus.

    1. Wählen Sie das Subnetz unter Subnetze (en) aus. Nachdem Sie das erste Subnetz ausgewählt haben, können Sie weitere auswählen.

    2. Wählen Sie unter Sicherheitsgruppe (n) die zu verwendende Sicherheitsgruppe aus, falls Sie eine angegeben haben. Nachdem Sie die erste Sicherheitsgruppe ausgewählt haben, können Sie weitere auswählen.

    Anmerkung

    Wenn Sie eine VPC mit Ihrem Klassifizierungsjob verwenden, müssen die für die Vorgänge Create und Start DataAccessRole verwendeten VPC über Berechtigungen für die VPC verfügen, die auf die Eingabedokumente und den Ausgabe-Bucket zugreift.

  17. (Optional) Um dem benutzerdefinierten Klassifikator ein Tag hinzuzufügen, geben Sie unter Tags ein Schlüssel-Wert-Paar ein. Wählen Sie Add tag. Um dieses Paar vor der Erstellung des Klassifikators zu entfernen, wählen Sie Tag entfernen aus. Weitere Informationen finden Sie unter Markieren Ihrer -Ressourcen.

  18. Wählen Sie Erstellen.

In der Konsole wird die Seite „Klassifikatoren“ angezeigt. Der neue Klassifikator wird in der Tabelle Submitted als Status angezeigt. Wenn der Klassifikator mit der Verarbeitung der Schulungsdokumente beginnt, ändert sich der Status in. Training Wenn ein Klassifikator einsatzbereit ist, ändert sich der Status in oder. Trained Trained with warnings Wenn der Status lautetTRAINED_WITH_WARNINGS, überprüfen Sie den Ordner mit übersprungenen Dateien im. Klassifizieren Sie die Trainingsleistung

Wenn Amazon Comprehend bei der Erstellung oder Schulung auf Fehler gestoßen ist, ändert sich der Status auf. In error Sie können einen Klassifikator-Job in der Tabelle auswählen, um weitere Informationen über den Klassifikator, einschließlich aller Fehlermeldungen, zu erhalten.

Die benutzerdefinierte Klassifiziererliste.