Trainieren benutzerdefinierter Erkennungen (Konsole) - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Trainieren benutzerdefinierter Erkennungen (Konsole)

Sie können benutzerdefinierte Entitätserkennungen mithilfe der Amazon Comprehend-Konsole erstellen. In diesem Abschnitt erfahren Sie, wie Sie einen benutzerdefinierten Entity Recognizer erstellen und trainieren.

Themen

    Um den benutzerdefinierten Entity Recognizer zu erstellen, geben Sie zunächst einen Datensatz zum Trainieren Ihres Modells an. Fügen Sie in diesen Datensatz einen der folgenden Dokumente ein: einen Satz annotierter Dokumente oder eine Liste von Entitäten und deren Typbezeichnung sowie einen Satz von Dokumenten, die diese Entitäten enthalten. Weitere Informationen finden Sie unter Erkennung benutzerdefinierter Entitäten.

    So trainieren Sie eine benutzerdefinierte Entitätserkennung mit einer CSV-Datei
    1. Melden Sie sich bei der an AWS Management Console und öffnen Sie die Amazon Comprehend-Konsole unter https://console.aws.amazon.com/comprehend/

    2. Wählen Sie im linken Menü Anpassen und dann Benutzerdefinierte Entitätserkennung aus.

    3. Wählen Sie Neues Modell erstellen aus.

    4. Geben Sie dem Erkenner einen Namen. Der Name muss innerhalb der Region und des Kontos eindeutig sein.

    5. Wählen Sie die Sprache aus.

    6. Geben Sie unter Benutzerdefinierter Entitätstyp ein benutzerdefiniertes Label ein, das der Erkenner im Datensatz finden soll.

      Der Entitätstyp muss in Großbuchstaben geschrieben sein. Wenn er aus mehr als einem Wort besteht, trennen Sie die Wörter durch einen Unterstrich.

    7. Wählen Sie Typ hinzufügen aus.

    8. Wenn Sie einen zusätzlichen Entitätstyp hinzufügen möchten, geben Sie ihn ein und wählen Sie dann Typ hinzufügen aus. Wenn Sie einen der hinzugefügten Entitätstypen entfernen möchten, wählen Sie Typ entfernen und dann den Entitätstyp aus, den Sie aus der Liste entfernen möchten. Es können maximal 25 Entitätstypen aufgelistet werden.

    9. Um Ihren Trainingsauftrag zu verschlüsseln, wählen Sie Recognizer encryption und wählen Sie dann aus, ob Sie einen KMS-Schlüssel verwenden möchten, der dem aktuellen Konto zugeordnet ist, oder einen von einem anderen Konto.

      • Wenn Sie einen Schlüssel verwenden, der dem aktuellen Konto zugeordnet ist, wählen Sie für KMS-Schlüssel-ID die Schlüssel-ID aus.

      • Wenn Sie einen Schlüssel verwenden, der einem anderen Konto zugeordnet ist, geben Sie für KMS-Schlüssel-ARN den ARN für die Schlüssel-ID ein.

      Anmerkung

      Weitere Informationen zum Erstellen und Verwenden von KMS-Schlüsseln und der zugehörigen Verschlüsselung finden Sie unter AWS Key Management Service.

    10. Wählen Sie unter Datenspezifikationen das Format Ihrer Trainingsdokumente aus:

      • CSV-Datei – Eine CSV-Datei, die Ihre Trainingsdokumente ergänzt. Die CSV-Datei enthält Informationen zu den benutzerdefinierten Entitäten, die Ihr trainiertes Modell erkennt. Das erforderliche Format der Datei hängt davon ab, ob Sie Anmerkungen oder eine Entitätsliste bereitstellen.

      • Erweitertes Manifest – Ein beschrifteter Datensatz, der von Amazon SageMaker Ground Truth erstellt wird. Diese Datei ist im JSON-Zeilenformat. Jede Zeile ist ein vollständiges JSON-Objekt, das ein Trainingsdokument und seine Labels enthält. Jedes Label kommentiert eine benannte Entität im Trainingsdokument. Sie können bis zu 5 erweiterte Manifestdateien bereitstellen.

      Weitere Informationen zu verfügbaren Formaten und Beispiele finden Sie unter Trainieren von benutzerdefinierten Entity Recognizer-Modellen.

    11. Wählen Sie unter Trainingstyp den zu verwendenden Trainingstyp aus:

      • Verwenden von Anmerkungen und Trainingsdokumenten

      • Verwenden von Entitätslisten und Trainingsdokumenten

      Wenn Sie Anmerkungen auswählen, geben Sie die URL der Anmerkungendatei in Amazon S3 ein. Sie können auch zu dem Bucket oder Ordner in Amazon S3 navigieren, in dem sich die Anmerkungsdateien befinden, und S3 durchsuchen auswählen.

      Wenn Sie Entitätsliste auswählen, geben Sie die URL der Entitätsliste in Amazon S3 ein. Sie können auch zu dem Bucket oder Ordner in Amazon S3 navigieren, in dem sich die Entitätsliste befindet, und S3 durchsuchen auswählen.

    12. Geben Sie die URL eines Eingabedatensatzes ein, der die Trainingsdokumente in Amazon S3 enthält. Sie können auch zu dem Bucket oder Ordner in Amazon S3 navigieren, in dem sich die Trainingsdokumente befinden, und Ordner auswählen wählen.

    13. Wählen Sie unter Testdatensatz aus, wie Sie die Leistung Ihres trainierten Modells bewerten möchten. Dies können Sie sowohl für Anmerkungen als auch für Schulungstypen für Entitätslisten tun.

      • Autosplit: Autosplit wählt automatisch 10 % Ihrer bereitgestellten Trainingsdaten aus, die als Testdaten verwendet werden sollen

      • (Optional) Vom Kunden bereitgestellt: Wenn Sie vom Kunden bereitgestellte auswählen, können Sie genau angeben, welche Testdaten Sie verwenden möchten.

    14. Wenn Sie vom Kunden bereitgestellter Testdatensatz auswählen, geben Sie die URL der Annotationsdatei in Amazon S3 ein. Sie können auch zu dem Bucket oder Ordner in Amazon S3 navigieren, in dem sich die Anmerkungsdateien befinden, und wählen Sie Ordner auswählen aus.

    15. Wählen Sie im Abschnitt IAM-Rolle auswählen entweder eine vorhandene IAM-Rolle aus oder erstellen Sie eine neue.

      • Vorhandene IAM-Rolle auswählen – Wählen Sie diese Option aus, wenn Sie bereits über eine IAM-Rolle mit Berechtigungen für den Zugriff auf die Amazon S3-Eingabe- und -Ausgabe-Buckets verfügen.

      • Erstellen einer neuen IAM-Rolle – Wählen Sie diese Option aus, wenn Sie eine neue IAM-Rolle mit den entsprechenden Berechtigungen für Amazon Comprehend erstellen möchten, um auf die Eingabe- und Ausgabe-Buckets zuzugreifen.

        Anmerkung

        Wenn die Eingabedokumente verschlüsselt sind, muss die verwendete IAM-Rolle über die -kms:DecryptBerechtigung verfügen. Weitere Informationen finden Sie unter Erforderliche Berechtigungen für die Verwendung der KMS-Verschlüsselung.

    16. (Optional) Um Ihre Ressourcen von einer VPC aus in Amazon Comprehend zu starten, geben Sie die VPC-ID unter VPC ein oder wählen Sie die ID aus der Dropdown-Liste aus.

      1. Wählen Sie das Subnetz unter Subnetz(e) aus. Nachdem Sie das erste Subnetz ausgewählt haben, können Sie weitere auswählen.

      2. Wählen Sie unter Sicherheitsgruppe(n) die zu verwendende Sicherheitsgruppe aus, falls Sie eine angegeben haben. Nachdem Sie die erste Sicherheitsgruppe ausgewählt haben, können Sie weitere auswählen.

      Anmerkung

      Wenn Sie eine VPC mit Ihrem benutzerdefinierten Entitätserkennungsauftrag verwenden, muss die für die Erstellungs- und Startvorgänge DataAccessRole verwendete über Berechtigungen für die VPC verfügen, von der aus auf die Eingabedokumente und den Ausgabe-Bucket zugegriffen wird.

    17. (Optional) Um der benutzerdefinierten Entitätserkennung ein Tag hinzuzufügen, geben Sie unter Tags ein Schlüssel-Wert-Paar ein. Wählen Sie Add tag. Um dieses Paar zu entfernen, bevor Sie den Recognizer erstellen, wählen Sie Tag entfernen aus.

    18. Wählen Sie Trainieren aus.

    Der neue Erkenner wird dann in der Liste angezeigt und zeigt seinen Status an. Es wird zuerst als angezeigtSubmitted. Anschließend wird Training für einen Classifier angezeigt, der Trainingsdokumente verarbeitet, Trained für einen Classifier, der einsatzbereit ist, und In error für einen Classifier, der einen Fehler aufweist. Sie können auf einen Auftrag klicken, um weitere Informationen über den Recognizer zu erhalten, einschließlich Fehlermeldungen.

    So trainieren Sie eine benutzerdefinierte Entitätserkennung mit einem Klartext-, PDF- oder Wortdokument
    1. Melden Sie sich bei der an AWS Management Console und öffnen Sie die Amazon Comprehend-Konsole.

    2. Wählen Sie im linken Menü Anpassen und dann Benutzerdefinierte Entitätserkennung aus.

    3. Wählen Sie Train Recognizer aus.

    4. Geben Sie dem Erkenner einen Namen. Der Name muss innerhalb der Region und des Kontos eindeutig sein.

    5. Wählen Sie die Sprache aus. Hinweis: Wenn Sie ein PDF- oder Word-Dokument trainieren, wird Englisch unterstützt.

    6. Geben Sie unter Benutzerdefinierter Entitätstyp ein benutzerdefiniertes Label ein, das der Erkenner im Datensatz finden soll.

      Der Entitätstyp muss in Großbuchstaben geschrieben sein. Wenn er aus mehr als einem Wort besteht, trennen Sie die Wörter durch einen Unterstrich.

    7. Wählen Sie Typ hinzufügen aus.

    8. Wenn Sie einen zusätzlichen Entitätstyp hinzufügen möchten, geben Sie ihn ein und wählen Sie dann Typ hinzufügen aus. Wenn Sie einen der hinzugefügten Entitätstypen entfernen möchten, wählen Sie Typ entfernen und wählen Sie dann den Entitätstyp aus, den Sie aus der Liste entfernen möchten. Es können maximal 25 Entitätstypen aufgelistet werden.

    9. Um Ihren Trainingsauftrag zu verschlüsseln, wählen Sie Recognizer encryption und wählen Sie dann aus, ob Sie einen KMS-Schlüssel verwenden möchten, der dem aktuellen Konto zugeordnet ist, oder einen von einem anderen Konto.

      • Wenn Sie einen Schlüssel verwenden, der dem aktuellen Konto zugeordnet ist, wählen Sie für KMS-Schlüssel-ID die Schlüssel-ID aus.

      • Wenn Sie einen Schlüssel verwenden, der einem anderen Konto zugeordnet ist, geben Sie für KMS-Schlüssel-ARN den ARN für die Schlüssel-ID ein.

      Anmerkung

      Weitere Informationen zum Erstellen und Verwenden von KMS-Schlüsseln und der zugehörigen Verschlüsselung finden Sie unter AWS Key Management Service.

    10. Wählen Sie unter Trainingsdaten die Option Erweitertes Manifest als Ihr Datenformat aus:

      • Erweitertes Manifest – ist ein beschrifteter Datensatz, der von Amazon SageMaker Ground Truth erstellt wird. Diese Datei ist im JSON-Zeilenformat. Jede Zeile in der Datei ist ein vollständiges JSON-Objekt, das ein Trainingsdokument und seine Labels enthält. Jedes Label kommentiert eine benannte Entität im Trainingsdokument. Sie können bis zu 5 erweiterte Manifestdateien bereitstellen. Wenn Sie PDF-Dokumente für Trainingsdaten verwenden, müssen Sie Augmented Manifest auswählen. Sie können bis zu 5 erweiterte Manifestdateien bereitstellen. Für jede Datei können Sie bis zu 5 Attribute benennen, die als Trainingsdaten verwendet werden sollen.

      Weitere Informationen zu verfügbaren Formaten und Beispiele finden Sie unter Trainieren von benutzerdefinierten Entity Recognizer-Modellen.

    11. Wählen Sie den Typ des Trainingsmodells aus.

      Wenn Sie Klartextdokumente ausgewählt haben, geben Sie unter Eingabespeicherort die Amazon S3URL der erweiterten Amazon SageMakerGround Truth-Manifestdatei ein. Sie können auch zu dem Bucket oder Ordner in Amazon S3 navigieren, in dem sich das erweiterte Manifest(e) befindet, und wählen Sie Ordner auswählen aus.

    12. Geben Sie unter Attributname den Namen des Attributs ein, das Ihre Anmerkungen enthält. Wenn die Datei Anmerkungen aus mehreren verketteten Kennzeichnungsaufträgen enthält, fügen Sie für jeden Auftrag ein Attribut hinzu. In diesem Fall enthält jedes Attribut den Satz von Anmerkungen aus einem Kennzeichnungsauftrag. Hinweis: Sie können bis zu 5 Attributnamen für jede Datei angeben.

    13. Wählen Sie Hinzufügen aus.

    14. Wenn Sie PDF, Word-Dokumente unter Eingabespeicherort ausgewählt haben, geben Sie die Amazon S3URL der erweiterten Manifestdatei von Amazon SageMaker Ground Truth ein. Sie können auch zu dem Bucket oder Ordner in Amazon S3 navigieren, in dem sich das erweiterte Manifest (die erweiterten Manifeste) befindet, und wählen Sie Ordner auswählen aus.

    15. Geben Sie das S3-Präfix für Ihre Annotation-Datendateien ein. Dies sind die PDF-Dokumente, die Sie geparst haben.

    16. Geben Sie das S3-Präfix für Ihre Quelldokumente ein. Dies sind die ursprünglichen PDF-Dokumente (Datenobjekte), die Sie Ground Truth für Ihren Kennzeichnungsauftrag zur Verfügung gestellt haben.

    17. Geben Sie die Attributnamen ein, die Ihre Anmerkungen enthalten. Hinweis: Sie können bis zu 5 Attributnamen für jede Datei angeben. Alle Attribute in Ihrer -Datei, die Sie nicht angeben, werden ignoriert.

    18. Wählen Sie im Abschnitt IAM-Rolle entweder eine vorhandene IAM-Rolle aus oder erstellen Sie eine neue.

      • Vorhandene IAM-Rolle auswählen – Wählen Sie diese Option aus, wenn Sie bereits über eine IAM-Rolle mit Berechtigungen für den Zugriff auf die Amazon S3-Eingabe- und -Ausgabe-Buckets verfügen.

      • Erstellen einer neuen IAM-Rolle – Wählen Sie diese Option aus, wenn Sie eine neue IAM-Rolle mit den entsprechenden Berechtigungen für Amazon Comprehend erstellen möchten, um auf die Eingabe- und Ausgabe-Buckets zuzugreifen.

        Anmerkung

        Wenn die Eingabedokumente verschlüsselt sind, muss die verwendete IAM-Rolle über die -kms:DecryptBerechtigung verfügen. Weitere Informationen finden Sie unter Erforderliche Berechtigungen für die Verwendung der KMS-Verschlüsselung.

    19. (Optional) Um Ihre Ressourcen von einer VPC aus in Amazon Comprehend zu starten, geben Sie die VPC-ID unter VPC ein oder wählen Sie die ID aus der Dropdown-Liste aus.

      1. Wählen Sie das Subnetz unter Subnetz(e) aus. Nachdem Sie das erste Subnetz ausgewählt haben, können Sie weitere auswählen.

      2. Wählen Sie unter Sicherheitsgruppe(n) die zu verwendende Sicherheitsgruppe aus, falls Sie eine angegeben haben. Nachdem Sie die erste Sicherheitsgruppe ausgewählt haben, können Sie zusätzliche auswählen.

      Anmerkung

      Wenn Sie eine VPC mit Ihrem benutzerdefinierten Entitätserkennungsauftrag verwenden, muss das für die Erstellungs- und Startvorgänge DataAccessRole verwendete über Berechtigungen für die VPC verfügen, von der aus auf die Eingabedokumente und den Ausgabe-Bucket zugegriffen wird.

    20. (Optional) Um der benutzerdefinierten Entitätserkennung ein Tag hinzuzufügen, geben Sie unter Tags ein Schlüssel-Wert-Paar ein. Wählen Sie Add tag. Um dieses Paar zu entfernen, bevor Sie den Recognizer erstellen, wählen Sie Tag entfernen aus.

    21. Wählen Sie Trainieren aus.

    Der neue Erkenner wird dann in der Liste angezeigt und zeigt seinen Status an. Es wird zuerst als angezeigtSubmitted. Anschließend wird Training für einen Classifier angezeigt, der Trainingsdokumente verarbeitet, Trained für einen Classifier, der einsatzbereit ist, und In error für einen Classifier, der einen Fehler aufweist. Sie können auf einen Auftrag klicken, um weitere Informationen über die Erkennung zu erhalten, einschließlich Fehlermeldungen.