使用輸入資訊清單檔案 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用輸入資訊清單檔案

輸入資訊清單檔案的每一行均為項目,包含要標籤的物件或物件的參考。項目也可包含上一步工作的標籤,對於某些任務類型,則包含其他資訊。

輸入資料與資訊清單檔案必須儲存在 Amazon Simple Storage Service (Amazon S3)。各有特定的儲存和存取需求,如下所示:

  • 包含輸入資料的 Amazon S3 儲存貯體必須位於您執行 Amazon G SageMaker round Truth 的相同 AWS 區域。您必須授予 Amazon SageMaker 存放在 Amazon S3 儲存貯體中的資料的存取權,以便它可以讀取資料。如需更多相關資訊了解 Amazon S3 儲存貯體,請參閱使用 Amazon S3 儲存貯體

  • 清單文件必須與數據文件位於相同的 AWS 區域,但不需要位於與數據文件相同的位置。它可以存放在建立標籤任務時指派給 Ground Truth 的 AWS Identity and Access Management (IAM) 角色可存取的任何 Amazon S3 儲存貯體中。

注意

3D 點雲與影片影格任務類型具有不同的輸入資訊清單需求及屬性。

如需 3D 點雲任務類型的資訊,請參閱為 3D 點雲標籤工作建立輸入資訊清單檔案

如需影片影格任務類型的資訊,請參閱建立影片影格輸入資訊清單檔案

資訊清單是 UTF-8 編碼的檔案,其中每一行都是完成且有效的 JSON 物件。每一行都由標準分行符號 (\n 或 \r\n) 分隔。由於每一行都必須為有效的 json 物件,您不能有未逸出的分行符號。如需資料格式的更多相關資訊,請參閱 JSON 行

資訊清單檔案中的每個 JSON 物件不能超過 10 萬個字元。物件內的單一屬性不能超過 20,000 個字元。屬性名稱的開頭不可為 $ (貨幣符號)。

資訊清單檔案中的每個 JSON 物件必須包含下列其中一個索引鍵:source-refsource。鍵的值會解譯為如下:

  • source-ref – 物件來源是數值所指定的 Amazon S3 物件。當物件是二進位物件 (例如映像) 時,請使用此值。

  • source – 物件的來源即為數值。當物件為文字值時,請使用此值。

下列範例顯示儲存於 Amazon S3 儲存貯體檔案的資訊清單檔案:

{"source-ref": "S3 bucket location 1"} {"source-ref": "S3 bucket location 2"} ... {"source-ref": "S3 bucket location n"}

將映像檔案的 source-ref 金鑰用於邊界框、影像分類 (單一與多重標籤)、語意分割與影片剪輯影片分類標籤工作。3D 點雲與影片影格標籤工作也會使用 source-ref 金鑰,但是這些標籤工作要求輸入資訊清單檔案的其他資訊。如需更多資訊,請參閱3D 點雲輸入資料影片影格輸入資料

下列範例顯示儲存於資訊清單輸入資料的資訊清單檔案:

{"source": "Lorem ipsum dolor sit amet"} {"source": "consectetur adipiscing elit"} ... {"source": "mollit anim id est laborum"}

請將 source 金鑰用於單一與多標籤文字分類及具名實體辨識標籤工作。

您可以在資訊清單檔案中包含其他鍵值對。這些鍵值對在傳遞到輸出檔案時會保持不變。當您希望在您的應用程式之間傳遞資訊時,這會很有幫助。如需更多資訊,請參閱輸出資料