本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
準備資料集
建立配接器時,您必須提供 Rekognition 兩個資料集,一個訓練資料集和一個測試資料集。每個資料集由提供兩個元素組成:映像和註釋/標籤。以下各節將說明標籤和映像用於哪些標籤和映像,以及其如何結合在一起建立資料集。
映像
您需要在映像的代表性樣本上訓練轉接器。當您選取要訓練的映像時,請嘗試包含至少一些映像,這些映像會顯示您使用轉接器鎖定的每個標籤的預期回應。
若要建立訓練資料集,您必須提供下列兩種映像類型之一:
-
帶有偽陽性預測的映像。例如,當基礎模型預測映像存在酒精時,但實際不存在酒精。
-
帶有偽陰性預測的映像。例如,當基礎模型預測映像不存在酒精時,但實際存在酒精。
若要建立平衡資料集,建議您提供下列兩種映像類型之一:
-
具有真陽性預測的映像。例如,當基礎模型正確預測映像存在酒精。如果您提供偽陰性映像,建議提供這些映像。
-
具有真陽性預測的映像。例如,當基礎模型正確地預測映像不存在酒精時。如果您提供偽陰性映像,建議提供這些映像。
標籤
標籤是指下列任何一項:物件、事件、概念或活動。對於內容審核,標籤是指不適當、不需要或令人反感的內容執行個體。
在將標籤指派給稱為「註釋」的映像時,在透過訓練 Rekognition 的基礎模型來建立轉接器的環境。使用 Rekognition 主控台訓練轉接器時,您可以使用主控台選擇標籤,然後標記與標籤對應的映像來為映像新增註解。透過此程序,模型會學習如何根據指定的標籤識別映像的元素。此連結程序可讓模型在建立轉接器時專注於最相關的內容,從而提高映像分析的準確度。
或者,您可以提供資訊清單檔案,其中包含映像的相關資訊以及隨之附註解的資訊。
訓練和測試資料集
訓練資料集是微調模型和建立自訂配接器的基礎。您必須提供已註解的訓練資料集,以供模型學習。模型會從此資料集中學習,以改善其在您提供的映像類型上的效能。
為了提高準確性,您必須通過註釋/標記映像來建立訓練資料集。您可以透過兩種方式完成此操作:
手動指派標籤:您可以使用 Rekognition 主控台建立訓練資料集,方法是上傳您要資料集包含的映像,然後手動指派標籤給這些映像。
資訊清單檔案:您可使用資訊清單檔案來訓練轉接器。資訊清單檔案包含訓練和測試映像的基本真相註解,以及訓練映像位置的資訊。您可以在使用 Rekognition APIs 訓練轉接器或使用 AWS 主控台時提供資訊清單檔案。
測試資料集用於在訓練後評估轉接器的效能。為了確保可靠的評估,測試資料集是通過使用模型以前從未見過的原始培訓資料集的一部分來建立。此程序可確保使用新資料評估轉接器的效能,從而建立精確的測量和指標。若要取得最佳精確度的改進,請參閱 訓練轉接器的最佳實務。