透過 Amazon SageMaker Ground Truth 使用人類標記訓練資料 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

透過 Amazon SageMaker Ground Truth 使用人類標記訓練資料

若要訓練機器學習模型,您需要一個大型、高品質、標籤化的資料集。Ground Truth 可協助您為機器學習模型建置高品質的訓練資料集。透過 Ground Truth,您可以使用 Amazon Mechanical Turk (您選擇的廠商) 的工作者,或使用內部私有人力資源並搭配機器學習,讓您能夠建立已標籤的資料集。您可以使用 Ground Truth 的已標籤資料集輸出,來訓練您自己的模型。您也可以使用輸出做為 Amazon SageMaker 模型的訓練資料集。

視您的機器學習 (ML) 應用程式而定,您可以從其中一種 Ground Truth 內建任務類型中選擇,讓工作者為您的資料產生特定類型的標籤。您也可以建立自訂標籤工作流程,以提供您自己的使用者介面和工具給工作者來標籤您的資料。若要進一步了解 Ground Truth 內建任務類型,請參閱內建任務類型。若要了解如何建立自訂標籤工作流程,請參閱建立自訂標籤工作流程

為了自動標籤您的訓練資料集,您可以選擇使用自動化資料標籤,此為使用機器學習來決定哪些資料需要由人工標籤的 Ground Truth 程序。自動資料標籤可以減少標籤所需的時間和手動操作工作量。如需詳細資訊,請參閱 自動資料標籤。若要建立自訂標籤工作流程,請參閱建立自訂標籤工作流程

使用預先建置的工具或自訂工具,為您的訓練資料集指派標籤任務。標籤使用者介面範本是 Ground Truth 用於將任務和指示呈現給工作者的網頁。該 SageMaker 控制台提供用於標記數據的內置模板。您可以利用這些範本來開始使用,也可以利用我們的 HTML 2.0 元件來建置任務和說明。如需詳細資訊,請參閱 建立自訂標籤工作流程

使用您選擇的人力資源標來標籤資料集。您可以選擇下列人力資源:

  • 全球超過 500,000 個獨立承包商的 Amazon Mechanical Turk 人力資源。

  • 您透過員工或承包商建立的私有人力資源,用於處理組織內的資料。

  • 您可以在中找到專門從事資料標籤服務 AWS Marketplace 的供應商公司。

如需詳細資訊,請參閱 建立和管理人力

您可以在 Amazon S3 儲存貯體存放您的資料集。儲存貯體包含 3 個項目:需要標籤的資料、Ground Truth 用於讀取資料檔案的輸入資訊清單檔案、輸出資訊清單檔案。輸出檔案包含標籤工作的結果。如需詳細資訊,請參閱 使用輸入和輸出資料

來自標籤任務的事件會顯示在/aws/sagemaker/LabelingJobs群組 CloudWatch 下的 Amazon 中。 CloudWatch 使用標籤工作名稱做為記錄資料流的名稱。

第一次使用 Ground Truth 嗎?

如果是第一次使用 Ground Truth,建議您完成以下事項:

  1. 閱讀 開始使用 — 此節介紹如何設定您的第一個 Ground Truth 標籤工作。

  2. 探索其他主題 — 取決於您的需求,執行下列作業:

    • 探索內建任務類型 — 使用內建任務類型來精簡建立標籤工作的程序。若要進一步了解 Ground Truth 內建任務類型,請參閱內建任務類型

    • 管理您的標籤人力資源 — 建立新的工作團隊並管理現有的人力資源。如需詳細資訊,請參閱 建立和管理人力

    • 瞭解串流標籤工作 — 建立串流標籤工作,並使用永久執行的標籤工作,即時將新的資料集物件傳送給工作者。只要標籤工作處於作用中狀態且正在向其傳送新物件,工作者就會持續接收要標籤的新資料物件。如需進一步了解,請參閱Ground Truth 串流標籤工作

  3. 若要進一步了解可用作業以自動化 Ground Truth 作業,請參閱SageMaker 服務 API 參考資料。