Verwenden Sie Amazon SageMaker Ground Truth, um Daten zu kennzeichnen - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden Sie Amazon SageMaker Ground Truth, um Daten zu kennzeichnen

Um ein Modell für Machine Learning zu trainieren, benötigen Sie einen großen, hochwertigen, beschrifteten Datensatz. Ground Truth hilft Ihnen dabei, hochwertige Trainingsdatensätze für Ihre Machine-Learning-Modelle zu erstellen. Mit Ground Truth können Sie Auftragnehmer von entweder Amazon Mechanical Turk, einen Anbieter Ihrer Wahl oder interne, private Arbeitskräfte zusammen mit Machine Learning für die Erstellung eines beschrifteten Datensatzes verwenden. Sie können die beschrifteten Datensatzausgabe aus Ground Truth verwenden, um Ihre eigenen Modelle zu trainieren. Sie können die Ausgabe auch als Trainingsdatensatz für ein SageMaker Amazon-Modell verwenden.

Abhängig von Ihrer ML-Anwendung können Sie einen der integrierten Ground-Truth-Aufgabentypen auswählen, damit Auftragnehmer bestimmte Beschriftungstypen für Ihre Daten generieren. Sie können auch einen benutzerdefinierten Kennzeichnungs-Workflow erstellen, um Auftragnehmern, die Ihre Daten beschriften, eine eigene Benutzeroberfläche und Tools zur Verfügung zu stellen. Weitere Informationen zu den integrierten Ground-Truth-Aufgabentypen finden Sie unter Integrierte Aufgabentypen. Weitere Informationen zum Erstellen eines benutzerdefinierten Kennzeichnungs-Workflows finden Sie unter Erstellen benutzerdefinierter Kennzeichnungs-Workflows.

Um das Beschriften Ihres Trainingsdatensatzes zu automatisieren, steht Ihnen optional das automatisierte Daten-Labeling zur Verfügung. Hierbei handelt es sich um einen Ground-Truth-Prozess, der mithilfe von Machine Learning entscheidet, welche Daten durch Menschen beschriftet werden müssen. Das automatisierte Daten-Labeling kann die für das Labeling erforderliche Zeit und den damit verbundenen manuellen Aufwand reduzieren. Weitere Informationen finden Sie unter Automatisieren des Daten-Labeling. Weitere Informationen zum Erstellen eines benutzerdefinierten Beschriftungs-Workflows finden Sie unter Erstellen benutzerdefinierter Kennzeichnungs-Workflows.

Verwenden Sie entweder vorgefertigte oder benutzerdefinierte Tools zum Zuweisen von Labeling-Aufgaben für Ihre Trainingsdatensatz. Eine Beschriftungsbenutzeroberflächenvorlage ist eine Webseite, die Ground Truth verwendet, um Ihren Auftragnehmern Aufgaben und Anweisungen bereitzustellen. Die SageMaker Konsole bietet integrierte Vorlagen für die Kennzeichnung von Daten. Sie können für Ihre ersten Schritte diese Vorlagen verwenden oder mithilfe von HTML 2.0-Komponenten Ihre eigenen Aufgaben und Anweisungen erstellen. Weitere Informationen finden Sie unter Erstellen benutzerdefinierter Kennzeichnungs-Workflows.

Verwenden Sie die Arbeitskräfte Ihrer Wahl für das Labeling Ihres Datensatzes. Für die Wahl Ihrer Arbeitskräfte bieten sich Ihnen folgende Optionen:

  • Die Arbeitskräfte von Amazon Mechanical Turk bestehen aus über 500.000 unabhängigen Vertragspartnern weltweit.

  • Sie können private Arbeitskräfte nutzen, die Sie aus Ihren Mitarbeitern oder Auftragnehmern zusammenstellen, welche sich um die Verarbeitung von Daten innerhalb Ihrer Organisation kümmern.

  • Ein Anbieter, den Sie in der finden können und der AWS Marketplace sich auf Datenkennzeichnungsdienste spezialisiert hat.

Weitere Informationen finden Sie unter Erstellen und Verwalten von Arbeitskräften.

Sie speichern Ihre Datensätze in Amazon-S3-Buckets. Die Buckets enthalten drei Dinge: Die zu beschriftenden Daten, eine Eingabe-Manifestdatei, die Ground Truth zum Lesen der Datendateien verwendet, und eine Ausgabe-Manifestdatei. Die Ausgabedatei enthält die Ergebnisse des Labeling-Auftrags. Weitere Informationen finden Sie unter Verwenden von Eingabe- und Ausgabedaten.

Ereignisse aus Ihren Labeling-Jobs werden bei Amazon CloudWatch unter der /aws/sagemaker/LabelingJobs Gruppe angezeigt. CloudWatch verwendet den Namen des Labeling-Jobs als Namen für den Log-Stream.

Sie verwenden Ground Truth zum ersten Mal?

Wenn Sie Ground Truth zum ersten Mal verwenden, empfehlen wir Folgendes:

  1. Erste Schritte lesen – In diesem Abschnitt werden Sie schrittweise durch die Einrichtung Ihres ersten Ground-Truth-Beschriftungsauftrags geführt.

  2. Entdecken Sie weitere Themen – Gehen Sie je nach Bedarf wie folgt vor:

    • Erkunden Sie die integrierten Aufgabentypen – Verwenden Sie integrierte Aufgabentypen, um den Prozess der Erstellung eines Beschriftungsauftrags zu optimieren. Weitere Informationen zu den integrierten Ground-Truth-Aufgabentypen finden Sie unter Integrierte Aufgabentypen.

    • Verwalten Sie Ihre Beschriftungsarbeitskraft – Stellen Sie neue Arbeitsteams zusammen und verwalten Sie Ihre bestehende Arbeitskraft. Weitere Informationen finden Sie unter Erstellen und Verwalten von Arbeitskräften.

    • Erfahren Sie mehr über Streaming-Beschriftungsaufträge – Erstellen Sie einen Streaming-Beschriftungsauftrag und senden Sie mithilfe eines ständig laufenden Beschriftungsauftrags neue Datensatzobjekte in Echtzeit an Ihre Worker. Auftragnehmer erhalten kontinuierlich neue Datenobjekte zum Beschriften, solange der Beschriftungsauftrag aktiv ist und neue Objekte an ihn gesendet werden. Weitere Informationen hierzu finden Sie unter Ground Truth Streaming-Kennzeichnungsaufträge.

  3. Weitere Informationen finden Sie im Reference – In diesem Abschnitt werden Operationen zur Automatisierung von Ground-Truth-Vorgängen beschrieben.