Steuern des Flusses von Datenobjekten, die an Worker gesendet werden - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Steuern des Flusses von Datenobjekten, die an Worker gesendet werden

Je nach Art des von Ihnen erstellten Kennzeichnungsauftrags sendet Amazon SageMaker Ground Truth Datenobjekte in Batches oder auf Streaming- Weise an Auftragnehmer. Sie können den Fluss von Datenobjekten an Worker wie folgt steuern:

  • Bei beiden Arten von Kennzeichnungsaufträgen können Sie mit MaxConcurrentTaskCount die Gesamtzahl der Datenobjekte steuern, die allen Workern zu einem bestimmten Zeitpunkt, zu dem der Kennzeichnungsauftrag ausgeführt wird, zur Verfügung stehen.

  • Bei Streaming-Kennzeichnungsaufträgen können Sie den Fluss von Datenobjekten an Worker steuern, indem Sie die Anzahl der Datenobjekte überwachen und kontrollieren, die an den Amazon SQS gesendet werden, der mit Ihrem Kennzeichnungsauftrag verknüpft ist.

In den folgenden Abschnitten erfahren Sie mehr über diese Optionen. Weitere Informationen zu Streaming-Kennzeichnungsaufträgen finden Sie unter Ground Truth Streaming-Kennzeichnungsaufträge.

Verwenden Sie MaxConcurrentTaskCount , um den Fluss von Datenobjekten zu steuern

MaxConcurrentTaskCount definiert die maximale Anzahl von Datenobjekten, die von menschlichen Mitarbeitern gleichzeitig gekennzeichnet werden können. Wenn Sie die Konsole verwenden, ist dieser Parameter auf 1.000 festgelegt. Wenn Sie CreateLabelingJob verwenden, können Sie diesen Parameter auf eine beliebige Ganzzahl zwischen 1 und 1.000 setzen.

Wenn Sie einen Kennzeichnungsauftrag mit einer Eingabe-Manifestdatei starten, geht Ground Truth wie folgt vor:

  1. Für jedes Datenobjekt, das in Ihrer Eingabe-Manifestdatei aufgeführt ist, werden je nach dem Wert, den Sie für NumberOfHumanWorkersPerDataObject angeben, eine oder mehrere Aufgaben erstellt. Wenn Sie beispielsweise die Anzahl der Worker pro Datenobjekt auf 3 festlegen, werden 3 Aufgaben für jedes Datensatzobjekt erstellt. Um als erfolgreich gekennzeichnet markiert zu werden, muss mindestens ein Worker das Objekt kennzeichnen. Alternativ können die Aufgaben ablaufen oder abgelehnt werden.

  2. Wenn Sie die Arbeitskräfte von Mechanical Turk einsetzen, sendet Ground Truth zunächst einen Stapel von 10 Datensatzobjekten an Ihre Mitarbeiter. Dieser kleine Stapel wird verwendet, um den Kennzeichnungsauftrag einzurichten und sicherzustellen, dass der Auftrag richtig konfiguriert ist.

  3. Als Nächstes sendet Ground Truth eine MaxConcurrentTaskCount-Anzahl von Datensatzobjekten an Worker. Wenn Sie beispielsweise 2.000 Eingabedatenobjekte in Ihrer Eingabe-Manifestdatei haben und die Anzahl der Worker pro Datenobjekt auf 3 und MaxConcurrentTaskCount auf 900 festgelegt ist, werden die ersten 900 Datenobjekte in Ihrem Eingabemanifest an Worker gesendet, was 2.700 Aufgaben (900 x 3) entspricht. Dies ist der erste Satz von Objekten in voller Größe, der an Worker gesendet wird.

  4. Der nächste Schritt hängt von der Art des von Ihnen erstellten Kennzeichnungsauftrags ab. In diesem Schritt wird davon ausgegangen, dass ein oder mehrere Datensatzobjekte in Ihrer Eingabe-Manifestdatei oder mit einer Amazon SNS-Eingabedatenquelle (in einem Streaming-Kennzeichnungsauftrag) gesendete Datensatzobjekte nicht in dem Satz enthalten waren, der in Schritt 3 an Worker gesendet wurde.

    • Streaming-Kennzeichnungsauftrag: Solange die Gesamtzahl der Objekte, die Workern zur Verfügung stehen, MaxConcurrentTaskCount entspricht, werden alle verbleibenden Datensatzobjekte in Ihrer Eingabe-Manifestdatei und Datensatzobjekte, die Sie mit Amazon SNS in Echtzeit senden, in eine Amazon SQS-Warteschlange gestellt. Wenn die Gesamtzahl der für Worker verfügbaren Objekte unter MaxConcurrentTaskCount minus NumberOfHumanWorkersPerDataObject fällt, wird ein neues Datenobjekt aus der Warteschlange verwendet, um NumberOfHumanWorkersPerDataObject-Aufgaben zu erstellen, die in Echtzeit an Worker gesendet werden.

    • Kennzeichnungsauftrag ohne Streaming: Wenn Worker mit der Kennzeichnung einer Gruppe von Objekten fertig sind, werden bis zu MaxConcurrentTaskCount mal NumberOfHumanWorkersPerDataObject so viele neue Aufgaben an Worker gesendet. Dieser Vorgang wird wiederholt, bis alle Datenobjekte in der Eingabe-Manifestdatei gekennzeichnet sind.

Verwenden von Amazon SQS, um den Fluss von Datenobjekten zu Streaming-Kennzeichnungsaufträgen zu steuern

Wenn Sie einen Streaming-Kennzeichnungsauftrag erstellen, wird in Ihrem Konto automatisch eine Amazon SQS-Warteschlange erstellt. Datenobjekte werden der Amazon SQS-Warteschlange nur hinzugefügt, wenn die Gesamtzahl der an Worker gesendeten Objekte über MaxConcurrentTaskCount liegt. Andernfalls werden Objekte direkt an Worker gesendet.

Sie können diese Warteschlange zum Verwalten des Flusses von Datenobjekten zu Ihrem Kennzeichnungsauftrag verwenden. Weitere Informationen hierzu finden Sie unter Verwalten von Kennzeichnungsanfragen mit einer Amazon SQS-Warteschlange .