Flywheel-Data-Lakes - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Flywheel-Data-Lakes

Wenn Sie ein Flywheel erstellen, erstellt Amazon Comprehend einen Data Lake in Ihrem Konto, der alle Flywheel-Daten enthält, z. B. die für die Modellversionen erforderlichen Eingabe- und Ausgabedaten.

Amazon Comprehend erstellt den Data Lake an dem Amazon S3-Speicherort, den Sie beim Erstellen des Flywheels angeben. Sie können den Speicherort als Amazon S3-Bucket oder als neuen Ordner in einem Amazon S3-Bucket angeben.

Data-Lake-Ordnerstruktur

Wenn Amazon Comprehend den Data Lake erstellt, richtet es die folgende Ordnerstruktur am Amazon S3-Speicherort ein.

Warnung

Amazon Comprehend verwaltet die Organisation und den Inhalt des Data-Lake-Ordners. Verwenden Sie immer die Amazon Comprehend API-Operationen, um die Data Lake-Ordner zu ändern, da sonst Ihr Flywheel möglicherweise nicht ordnungsgemäß funktioniert.

Document Pool Annotations Pool Staging Model Datasets (data for each version of the model) VersionID-1 Training Test ModelStats VersionID-2 Training Test ModelStats

Führen Sie die folgenden Schritte aus, um die Trainingsbewertung einer Modellversion anzuzeigen:

  1. Öffnen Sie den Ordner mit dem Namen Model Datasets auf der Stammebene des Data Lake. Dieser Ordner enthält einen Unterordner für jede Version des Modells.

  2. Öffnen Sie den Ordner für die gewünschte Modellversion.

  3. Öffnen Sie den Ordner mit dem Namen ModelStats, um die Statistiken für das Modell anzuzeigen.

Data-Lake-Management

Amazon Comprehend führt die folgenden Aufgaben aus, um den Data Lake in Ihrem Namen zu verwalten:

  • Definiert die Ordnerstruktur des Data Lake und nimmt Datensätze in die entsprechenden Ordner auf.

  • Verwaltet die Eingabedokumente (wie Textdateien und Anmerkungsdateien), die zum Trainieren des Modells erforderlich sind.

  • Verwaltet die Trainings- und Bewertungsausgabedaten, die jeder Version des Modells zugeordnet sind.

  • Verwaltet die Verschlüsselung für Dateien, die im Data Lake gespeichert sind.

Amazon Comprehend führt alle Datenerstellungs- und Aktualisierungsvorgänge für den Data Lake durch. Sie behalten vollen Zugriff auf die Daten im Data Lake. Beispielsweise:

  • Sie haben vollen Zugriff auf den Inhalt des Data Lake.

  • Der Data Lake bleibt verfügbar, nachdem Sie das Flywheel gelöscht haben.

  • Sie können Zugriffsprotokolle für den Amazon S3-Bucket konfigurieren, der den Data Lake enthält.

  • Sie können Verschlüsselungsschlüssel für die Daten bereitstellen. Sie geben diese beim Erstellen des Flywheel an.

Wir empfehlen Ihnen, die folgenden bewährten Methoden:

  • Fügen Sie Ihre eigenen Ordner oder Dateien nicht manuell zum Data Lake hinzu. Ändern oder löschen Sie keine Dateien im Data Lake.

  • Verwenden Sie immer die Erstellungs- und Aktualisierungsvorgänge von Amazon Comprehend, um Daten im Data Lake hinzuzufügen oder zu ändern. Verwenden Sie beispielsweise , CreateDataset um Trainings- oder Testdaten bereitzustellen und Bewertungsdaten für Modellversionen StartFlywheelIteration zu generieren.

  • Die Data-Lake-Struktur kann sich im Laufe der Zeit weiterentwickeln. Erstellen Sie keine Downstream-Skripte oder Programme, die explizit auf der Data-Lake-Struktur basieren.

  • Wenn Sie einen Data-Lake-Speicherort für das Flywheel angeben, empfehlen wir, ein gemeinsames Präfix für Daten zu erstellen, die sich auf alle Flywheels beziehen, oder für jedes Flywheel ein anderes Präfix zu verwenden. Wir empfehlen nicht, den vollständigen Data-Lake-Pfad eines Flywheels als Präfix für ein anderes Flywheel zu verwenden.