Konfigurieren von Datensätzen - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Konfigurieren von Datensätzen

Um einem Flywheel beschriftete Trainings- oder Testdaten hinzuzufügen, verwenden Sie die Amazon Comprehend-Konsole oder API, um einen Datensatz zu erstellen.

Sie konfigurieren jeden Datensatz als Trainings- oder Testdaten. Sie verknüpfen den Datensatz mit einem bestimmten Flywheel und einem benutzerdefinierten Modell. Wenn Sie einen Datensatz erstellen, lädt Amazon Comprehend die Daten in den Data Lake des Flywheel hoch. Weitere Informationen zu Dateiformaten für die Trainingsdaten finden Sie unter Vorbereitung der Trainingsdaten für Klassifikatoren oder Vorbereiten von Trainingsdaten für Entity Recognizer.

Wenn Sie das Flywheel löschen, löscht Amazon Comprehend die Datensätze. Die hochgeladenen Daten bleiben im Data Lake verfügbar.

Erstellen eines Datensatzes (Konsole)

Erstellen eines Datensatzes
  1. Melden Sie sich bei der an AWS Management Console und öffnen Sie die Amazon Comprehend-Konsole .

  2. Wählen Sie im linken Menü Flywheels und dann das Flywheel aus, zu dem Sie die Daten hinzufügen möchten.

  3. Wählen Sie die Registerkarte Datensätze aus.

  4. Wählen Sie in der Tabelle Trainingsdatensätze oder Testdatensätze die Option Datensatz erstellen aus.

  5. Geben Sie unter Datensatzdetails einen Namen für den Datensatz und eine optionale Beschreibung ein.

  6. Wählen Sie unter Datenspezifikationen das Datenformat und die Konfigurationsfelder Datensatztyp aus.

  7. (Optional) Wählen Sie unter Eingabeformat das Format der Eingabedokumente aus.

  8. Geben Sie unter Annotationsspeicherort in S3 den Amazon S3-Speicherort der Annotationsdatei ein.

  9. Geben Sie unter Speicherort der Trainingsdaten in S3 den Amazon S3-Speicherort der Dokumentdateien ein.

  10. Wählen Sie Erstellen.

Erstellen eines Datensatzes (API)

Sie können die -CreateDatasetOperation verwenden, um einen Datensatz zu erstellen.

aws comprehend create-dataset \ --flywheel-arn "myFlywheel2" \ --dataset-name "my-training-dataset" --dataset-type "TRAIN" --description "my training dataset" --cli-input-json file://inputConfig.json }

Die Datei inputConfig.json enthält den folgenden Inhalt.

{ "DataFormat": "COMPREHEND_CSV", "DocumentClassifierInputDataConfig": { "S3Uri": "s3://my-comprehend-datasets/multilabel_train.csv" } }

Um Tags zum Datensatz hinzuzufügen oder zu entfernen, verwenden Sie die UntagResource Operationen TagResource und .

Beschreiben eines Datensatzes

Verwenden Sie die Amazon Comprehend-DescribeDatasetOperation, um konfigurierte Informationen zu einem Flywheel abzurufen.

aws comprehend describe-dataset \ --dataset-arn "datasetARN"

Die Antwort enthält den folgenden Inhalt.

{ "DatasetProperties": { "DatasetArn": "arn:aws::comprehend:aws-region:111122223333:flywheel/myTestFlywheel/dataset/train-dataset", "DatasetName": "train-dataset", "DatasetType": "TRAIN", "DatasetS3Uri": "s3://my-test-datalake/flywheelbasictest/myTestFlywheel/schemaVersion=1/20220801T014326Z/datasets/train-dataset/20220801T194844Z", "Description": "Good Dataset", "Status": "COMPLETED", "NumberOfDocuments": 90, "CreationTime": 1659383324.297 } }