Trainieren Sie benutzerdefinierte Erkennungsprogramme (Konsole)

Mit der Amazon Comprehend Comprehend-Konsole können Sie benutzerdefinierte Entitätserkenner erstellen. In diesem Abschnitt erfahren Sie, wie Sie einen benutzerdefinierten Entitätserkenner erstellen und trainieren.

Themen

Um den benutzerdefinierten Entitätserkenner zu erstellen, stellen Sie zunächst einen Datensatz bereit, mit dem Sie Ihr Modell trainieren können. Fügen Sie diesem Datensatz eines der folgenden Elemente bei: eine Reihe von Dokumenten mit Anmerkungen oder eine Liste von Entitäten und deren Typbezeichnung sowie eine Reihe von Dokumenten, die diese Entitäten enthalten. Weitere Informationen finden Sie unter Benutzerdefinierte Entitätserkennung

Um einen benutzerdefinierten Entitätserkenner mit einer CSV-Datei zu trainieren

Melden Sie sich bei der Amazon Comprehend Comprehend-Konsole an AWS Management Console und öffnen Sie sie unter https://console.aws.amazon.com/comprehend/
Wählen Sie im linken Menü Anpassung und dann Benutzerdefinierte Entitätserkennung aus.
Wählen Sie Neues Modell erstellen aus.
Geben Sie dem Recognizer einen Namen. Der Name muss innerhalb der Region und des Kontos eindeutig sein.
Wählen Sie die Sprache aus.
Geben Sie unter Benutzerdefinierter Entitätstyp eine benutzerdefinierte Bezeichnung ein, die der Recognizer im Datensatz finden soll.

Der Entitätstyp muss in Großbuchstaben geschrieben werden. Wenn er aus mehr als einem Wort besteht, trennen Sie die Wörter durch einen Unterstrich.
Wählen Sie Typ hinzufügen.
Wenn Sie einen zusätzlichen Entitätstyp hinzufügen möchten, geben Sie ihn ein und wählen Sie dann Typ hinzufügen aus. Wenn Sie einen der hinzugefügten Entitätstypen entfernen möchten, wählen Sie Typ entfernen und wählen Sie dann den Entitätstyp aus, der aus der Liste entfernt werden soll. Es können maximal 25 Entitätstypen aufgelistet werden.
Um Ihren Schulungsjob zu verschlüsseln, wählen Sie Recognizer-Verschlüsselung und dann aus, ob Sie einen KMS-Schlüssel verwenden möchten, der mit dem aktuellen Konto verknüpft ist, oder einen von einem anderen Konto.
- Wenn Sie einen Schlüssel verwenden, der dem aktuellen Konto zugeordnet ist, wählen Sie als KMS-Schlüssel-ID die Schlüssel-ID aus.
- Wenn Sie einen Schlüssel verwenden, der einem anderen Konto zugeordnet ist, geben Sie für KMS-Schlüssel-ARN den ARN für die Schlüssel-ID ein.
Anmerkung
Weitere Informationen zur Erstellung und Verwendung von KMS-Schlüsseln und der zugehörigen Verschlüsselung finden Sie unter AWS Key Management Service.
Wählen Sie unter Datenspezifikationen das Format Ihrer Schulungsdokumente aus:
- CSV-Datei — Eine CSV-Datei, die Ihre Schulungsdokumente ergänzt. Die CSV-Datei enthält Informationen über die benutzerdefinierten Entitäten, die Ihr trainiertes Modell erkennen wird. Das erforderliche Format der Datei hängt davon ab, ob Sie Anmerkungen oder eine Entitätsliste bereitstellen.
- Erweitertes Manifest — Ein beschrifteter Datensatz, der von Amazon SageMaker Ground Truth erstellt wurde. Diese Datei ist im JSON-Zeilenformat. Jede Zeile ist ein vollständiges JSON-Objekt, das ein Schulungsdokument und dessen Beschriftungen enthält. Jedes Label kennzeichnet eine benannte Entität im Schulungsdokument. Sie können bis zu 5 erweiterte Manifestdateien bereitstellen.
Weitere Informationen zu verfügbaren Formaten und Beispielen finden Sie unterTraining von benutzerdefinierten Entitätserkennungsmodellen.
Wählen Sie unter Trainingstyp den Trainingstyp aus, den Sie verwenden möchten:
- Verwenden von Anmerkungen und Schulungsdokumenten
- Verwenden von Entitätslisten und Schulungsdokumenten
Wenn Sie Anmerkungen auswählen, geben Sie die URL der Annotationsdatei in Amazon S3 ein. Sie können auch zu dem Bucket oder Ordner in Amazon S3 navigieren, in dem sich die Annotationsdateien befinden, und S3 durchsuchen wählen.

Wenn Sie Entitätsliste wählen, geben Sie die URL der Entitätsliste in Amazon S3 ein. Sie können auch zu dem Bucket oder Ordner in Amazon S3 navigieren, in dem sich die Entitätsliste befindet, und S3 durchsuchen auswählen.
Geben Sie die URL eines Eingabedatensatzes ein, der die Schulungsdokumente in Amazon S3 enthält. Sie können auch zu dem Bucket oder Ordner in Amazon S3 navigieren, in dem sich die Schulungsdokumente befinden, und Ordner auswählen wählen.
Wählen Sie unter Testdatensatz aus, wie Sie die Leistung Ihres trainierten Modells bewerten möchten. Sie können dies sowohl für Annotationen als auch für Trainingstypen mit Entitätslisten tun.
- Autosplit: Autosplit wählt automatisch 10% der von Ihnen bereitgestellten Trainingsdaten aus, um sie als Testdaten zu verwenden
- (Optional) Vom Kunden bereitgestellt: Wenn Sie vom Kunden bereitgestellt auswählen, können Sie genau angeben, welche Testdaten Sie verwenden möchten.
Wenn Sie vom Kunden bereitgestellter Testdatensatz auswählen, geben Sie die URL der Annotationsdatei in Amazon S3 ein. Sie können auch zu dem Bucket oder Ordner in Amazon S3 navigieren, in dem sich die Annotationsdateien befinden, und Ordner auswählen wählen.
Wählen Sie im Abschnitt Wählen Sie eine IAM-Rolle entweder eine bestehende IAM-Rolle aus oder erstellen Sie eine neue.
- Wählen Sie eine bestehende IAM-Rolle — Wählen Sie diese Option, wenn Sie bereits über eine IAM-Rolle mit Zugriffsberechtigungen für die Eingabe- und Ausgabe-Buckets von Amazon S3 verfügen.
- Neue IAM-Rolle erstellen — Wählen Sie diese Option, wenn Sie eine neue IAM-Rolle mit den entsprechenden Berechtigungen für Amazon Comprehend für den Zugriff auf die Eingabe- und Ausgabe-Buckets erstellen möchten.
  
  Anmerkung
  Wenn die Eingabedokumente verschlüsselt sind, muss die verwendete IAM-Rolle über eine entsprechende Berechtigung verfügen. kms:Decrypt Weitere Informationen finden Sie unter Für die Verwendung der KMS-Verschlüsselung sind Berechtigungen erforderlich.
(Optional) Um Ihre Ressourcen von einer VPC aus in Amazon Comprehend zu starten, geben Sie die VPC-ID unter VPC ein oder wählen Sie die ID aus der Drop-down-Liste aus.
1. Wählen Sie das Subnetz unter Subnetz (s) aus. Nachdem Sie das erste Subnetz ausgewählt haben, können Sie weitere auswählen.
2. Wählen Sie unter Sicherheitsgruppe (n) die zu verwendende Sicherheitsgruppe aus, falls Sie eine angegeben haben. Nachdem Sie die erste Sicherheitsgruppe ausgewählt haben, können Sie weitere auswählen.
Anmerkung
Wenn Sie eine VPC mit Ihrem benutzerdefinierten Entitätserkennungsjob verwenden, müssen die für die Vorgänge Create und Start DataAccessRole verwendeten über Berechtigungen für die VPC verfügen, von der aus auf die Eingabedokumente und den Ausgabe-Bucket zugegriffen wird.
(Optional) Um dem benutzerdefinierten Entity Recognizer ein Tag hinzuzufügen, geben Sie unter Tags ein Schlüssel-Wert-Paar ein. Wählen Sie Add tag. Um dieses Paar zu entfernen, bevor Sie den Recognizer erstellen, wählen Sie Tag entfernen aus.
Wählen Sie „Zug“.

Der neue Recognizer erscheint dann in der Liste und zeigt seinen Status an. Er wird zuerst als Submitted angezeigt. Es wird dann Training für einen Klassifikator angezeigt, der Schulungsdokumente verarbeitet, Trained für einen Klassifikator, der sofort verwendet werden kann, und In error für einen Klassifikator, der einen Fehler aufweist. Sie können auf einen Job klicken, um weitere Informationen über den Recognizer zu erhalten, einschließlich aller Fehlermeldungen.

Um einen benutzerdefinierten Entitätserkenner mit einem Klartext-, PDF- oder Word-Dokument zu trainieren

Melden Sie sich bei der Amazon Comprehend Comprehend-Konsole an AWS Management Console und öffnen Sie sie.
Wählen Sie im linken Menü Anpassung und dann Benutzerdefinierte Entitätserkennung aus.
Wählen Sie Train Recognizer.
Geben Sie dem Recognizer einen Namen. Der Name muss innerhalb der Region und des Kontos eindeutig sein.
Wählen Sie die Sprache aus. Hinweis: Wenn Sie ein PDF- oder Word-Dokument trainieren, ist Englisch die unterstützte Sprache.
Geben Sie unter Benutzerdefinierter Entitätstyp eine benutzerdefinierte Bezeichnung ein, die der Recognizer im Datensatz finden soll.

Der Entitätstyp muss in Großbuchstaben geschrieben werden. Wenn er aus mehr als einem Wort besteht, trennen Sie die Wörter durch einen Unterstrich.
Wählen Sie Typ hinzufügen.
Wenn Sie einen zusätzlichen Entitätstyp hinzufügen möchten, geben Sie ihn ein und wählen Sie dann Typ hinzufügen aus. Wenn Sie einen der hinzugefügten Entitätstypen entfernen möchten, wählen Sie Typ entfernen und wählen Sie dann den Entitätstyp aus, der aus der Liste entfernt werden soll. Es können maximal 25 Entitätstypen aufgelistet werden.
Um Ihren Schulungsjob zu verschlüsseln, wählen Sie Recognizer-Verschlüsselung und dann aus, ob Sie einen KMS-Schlüssel verwenden möchten, der mit dem aktuellen Konto verknüpft ist, oder einen von einem anderen Konto.
- Wenn Sie einen Schlüssel verwenden, der dem aktuellen Konto zugeordnet ist, wählen Sie als KMS-Schlüssel-ID die Schlüssel-ID aus.
- Wenn Sie einen Schlüssel verwenden, der einem anderen Konto zugeordnet ist, geben Sie für KMS-Schlüssel-ARN den ARN für die Schlüssel-ID ein.
Anmerkung
Weitere Informationen zur Erstellung und Verwendung von KMS-Schlüsseln und der zugehörigen Verschlüsselung finden Sie unter AWS Key Management Service.
Wählen Sie unter Trainingsdaten Augmented Manifest als Datenformat aus:
- Augmented Manifest — ist ein beschrifteter Datensatz, der von Amazon SageMaker Ground Truth erstellt wird. Diese Datei ist im JSON-Zeilenformat. Jede Zeile in der Datei ist ein vollständiges JSON-Objekt, das ein Schulungsdokument und dessen Beschriftungen enthält. Jedes Label kennzeichnet eine benannte Entität im Schulungsdokument. Sie können bis zu 5 erweiterte Manifestdateien bereitstellen. Wenn Sie PDF-Dokumente für Trainingsdaten verwenden, müssen Sie Augmented Manifest auswählen. Sie können bis zu 5 erweiterte Manifestdateien bereitstellen. Für jede Datei können Sie bis zu 5 Attribute benennen, die als Trainingsdaten verwendet werden sollen.
Weitere Informationen zu verfügbaren Formaten und Beispielen finden Sie unterTraining von benutzerdefinierten Entitätserkennungsmodellen.
Wählen Sie den Trainingsmodelltyp aus.

Wenn Sie Klartext-Dokumente ausgewählt haben, geben Sie unter Eingabespeicherort die Amazon S3-URL der erweiterten Manifestdatei von Amazon SageMaker AIGround Truth ein. Sie können auch zu dem Bucket oder Ordner in Amazon S3 navigieren, in dem sich die erweiterten Manifeste befinden, und Ordner auswählen auswählen.
Geben Sie unter Attributname den Namen des Attributs ein, das Ihre Anmerkungen enthält. Wenn die Datei Anmerkungen aus mehreren verketteten Labeling-Jobs enthält, fügen Sie für jeden Job ein Attribut hinzu. In diesem Fall enthält jedes Attribut den Satz von Anmerkungen aus einem Labeling-Job. Hinweis: Sie können bis zu 5 Attributnamen für jede Datei angeben.
Wählen Sie Hinzufügen aus.
Wenn Sie unter Eingabespeicherort die Option PDF, Word-Dokumente ausgewählt haben, geben Sie die Amazon S3-URL der erweiterten Manifestdatei von Amazon SageMaker AI Ground Truth ein. Sie können auch zu dem Bucket oder Ordner in Amazon S3 navigieren, in dem sich die erweiterten Manifeste befinden, und Ordner auswählen auswählen.
Geben Sie das S3-Präfix für Ihre Annotation-Datendateien ein. Dies sind die PDF-Dokumente, die Sie beschriftet haben.
Geben Sie das S3-Präfix für Ihre Quelldokumente ein. Dies sind die Original-PDF-Dokumente (Datenobjekte), die Sie Ground Truth für Ihre Etikettierungsaufgabe zur Verfügung gestellt haben.
Geben Sie die Attributnamen ein, die Ihre Anmerkungen enthalten. Hinweis: Sie können bis zu 5 Attributnamen für jede Datei angeben. Alle Attribute in Ihrer Datei, die Sie nicht angeben, werden ignoriert.
Wählen Sie im Abschnitt IAM-Rolle entweder eine vorhandene IAM-Rolle aus oder erstellen Sie eine neue.
- Wählen Sie eine bestehende IAM-Rolle — Wählen Sie diese Option, wenn Sie bereits über eine IAM-Rolle mit Zugriffsberechtigungen für die Eingabe- und Ausgabe-Buckets von Amazon S3 verfügen.
- Neue IAM-Rolle erstellen — Wählen Sie diese Option, wenn Sie eine neue IAM-Rolle mit den entsprechenden Berechtigungen für Amazon Comprehend für den Zugriff auf die Eingabe- und Ausgabe-Buckets erstellen möchten.
  
  Anmerkung
  Wenn die Eingabedokumente verschlüsselt sind, muss die verwendete IAM-Rolle über eine entsprechende Berechtigung verfügen. kms:Decrypt Weitere Informationen finden Sie unter Für die Verwendung der KMS-Verschlüsselung sind Berechtigungen erforderlich.
(Optional) Um Ihre Ressourcen von einer VPC aus in Amazon Comprehend zu starten, geben Sie die VPC-ID unter VPC ein oder wählen Sie die ID aus der Drop-down-Liste aus.
1. Wählen Sie das Subnetz unter Subnetz (s) aus. Nachdem Sie das erste Subnetz ausgewählt haben, können Sie weitere auswählen.
2. Wählen Sie unter Sicherheitsgruppe (n) die zu verwendende Sicherheitsgruppe aus, falls Sie eine angegeben haben. Nachdem Sie die erste Sicherheitsgruppe ausgewählt haben, können Sie weitere auswählen.
Anmerkung
Wenn Sie eine VPC mit Ihrem benutzerdefinierten Entitätserkennungsjob verwenden, müssen die für die Vorgänge Create und Start DataAccessRole verwendeten über Berechtigungen für die VPC verfügen, von der aus auf die Eingabedokumente und den Ausgabe-Bucket zugegriffen wird.
(Optional) Um dem benutzerdefinierten Entity Recognizer ein Tag hinzuzufügen, geben Sie unter Tags ein Schlüssel-Wert-Paar ein. Wählen Sie Add tag. Um dieses Paar zu entfernen, bevor Sie den Recognizer erstellen, wählen Sie Tag entfernen aus.
Wählen Sie „Zug“.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Trainieren von Erkennungsmodellen

Trainieren Sie benutzerdefinierte Erkennungsprogramme (API)