控制傳送給工作者的資料物件流程 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

控制傳送給工作者的資料物件流程

Amazon SageMaker Ground Truth 會根據您建立的標籤任務類型,以批次或串流方式將資料物件傳送給員工。您可以使用下列方式,控制資料物件到工作者的流程:

  • 對於這兩種類型的標籤工作,您可以使用MaxConcurrentTaskCount控制標籤工作正在執行時,指定時間點所有工作者可用的資料物件總數。

  • 對於串流標籤任務,您可以透過監控和控制傳送至 Amazon 與標籤任務SQS相關聯的資料物件數量,來控制資料物件流向工作者。

請參閱以下各節,進一步了解這些選項。若要進一步了解有關串流標籤工作,請參閱Ground Truth 串流標籤工作

用 MaxConcurrentTaskCount 於控制資料物件的流程

MaxConcurrentTaskCount定義可由人力工作者同時標籤的資料物件數目上限。如果您使用主控台,則此參數會設定為 1,000。如果使用CreateLabelingJob,則可將此參數設定為介於 1 到 1,000 之間的任何整數。

當您使用輸入資訊清單檔案開始標籤工作時,Ground Truth 會執行下列動作:

  1. 針對輸入資訊清單檔案中列出的每個資料物件,會根據您為NumberOfHumanWorkersPerDataObject指定的值建立一或多個工作。例如,如果您將每個資料物件的工作者數量設定為 3,則會為每個資料集物件建立 3 個工作。若要標籤為成功標籤,至少必須有一個工作者標籤物件。否則,任務可能會到期或被拒絕。

  2. 如果您使用的是 Mechanical Turk 人力資源,Ground Truth 首先會發送一批 10 件的資料集物件給您的工作者。它會使用這個小批次來設定標籤工作,確認工作已正確設定。

  3. 接下來,Ground Truth 將數量為MaxConcurrentTaskCount的資料集物件發送給工作者。例如,如果您的輸入資訊清單檔案中有 2,000 個輸入資料物件,且已將每個資料物件的工作者數量設定為 3 並設定MaxConcurrentTaskCount為 900,則輸入資訊清單中的前 900 個資料物件會傳送至工作者,共計有 2,700 個工作 (900 x 3)。這是發送給工作者的第一個完整大小物件集。

  4. 接下來的進展,取決於您建立的標籤工作類型。此步驟假設輸入資訊清單檔案中的一或多個資料集物件,或使用 Amazon SNS 輸入資料來源 (在串流標籤工作中) 傳送至步驟 3 的集合中未包含一或多個資料集物件。

    • 串流標籤任務:只要 Worker 可用的物件總數等於MaxConcurrentTaskCount,輸入資訊清單檔案上的所有剩餘資料集物件以及您使用 Amazon 即時傳送的所有資料集物件SNS都會放置在 Amazon SQS 佇列中。當工作者可用的物件總數低於MaxConcurrentTaskCount減掉NumberOfHumanWorkersPerDataObject時,會使用佇列中的新資料物件來建立NumberOfHumanWorkersPerDataObject-任務,並立即傳送給工作者。

    • 非串流標籤工作:當工作者完成標籤一組物件後,最多會將MaxConcurrentTaskCount乘以NumberOfHumanWorkersPerDataObject件新任務傳送給工作者。這個程序會重複執行,直到輸入資訊清單檔案中的所有資料物件完成標籤為止。

使用 Amazon SQS 控制資料物件到串流標籤任務的流程

建立串流標籤任務時,會在您的帳戶中自動建立 Amazon SQS 佇列。只有當傳送給 Worker 的物件總數超過時,資料物件才會新增至 Amazon SQS 佇列MaxConcurrentTaskCount。否則,物件會直接傳送給工作者。

您可以使用此佇列來管理資料物件到標籤工作的流程。如需進一步了解,請參閱 使用 Amazon SQS 佇列管理標籤請求