無塵室 ML 的訓練資料需求 - AWS Clean Rooms

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

無塵室 ML 的訓練資料需求

若要成功建立相似模型,您的訓練資料必須符合下列需求:

  • 訓練資料必須採用實木複合地板CSV、或JSON格式。

  • 您的訓練資料必須歸類於 AWS Glue。 如需詳細資訊,請參閱開始使用 AWS Glue Data Catalog 中的 AWS Glue 開發人員指南。 我們建議使用 AWS Glue 檢索器創建您的表,因為結構描述是自動推斷的。

  • 包含訓練資料和種子資料的 Amazon S3 儲存貯體位於相同 AWS 區域作為您的其他潔淨室 ML 資源。

  • 訓練資料必須包含至少 100,000 個唯一使用者,每個使用者至少IDs有兩個項目互動。

  • 訓練資料必須包含至少 100 萬筆記錄。

  • CreateTrainingDataset動作中指定的結構描述必須與在 AWS Glue 已建立表格。

  • 必要欄位 (如提供的表格中所定義) 會在CreateTrainingDataset動作中定義。

    欄位類型 支援的資料類型 必要 描述
    USER_ID 字符串,整數,大整數 資料集中每個使用者的唯一識別碼。它應該是一個非個人身份信息(PII)值。這可能是雜湊識別碼或客戶 ID。
    ITEM_ID 字符串,整數,大整數 使用者與之互動之每個項目的唯一識別碼。
    TIMESTAMP 大整數,整數,時間戳 使用者與項目互動的時間。值必須以 Unix 紀元時間為秒格式。
    CATEGORICAL_FEATURE 字符串,整型,浮點數,大整型,雙,布爾值,數組 擷取與使用者或項目相關的分類資料。這可能包括事件類型(例如點擊或購買)、用戶人口統計(年齡組別、性別-匿名)、用戶所在地(城市、國家/地區-匿名)、物品類別(例如服裝或電子產品)或物品品牌。
    NUMERICAL_FEATURE 雙,浮動,整型,大 擷取與使用者或項目相關的數值資料。這可能包括使用者購買紀錄(總消費金額)、物品價格、物品造訪次數或物品的使用者評分。
  • 或者,您最多可以提供 10 個總分類或數值特徵。

以下是CSV格式設定的有效訓練資料範例。

USER_ID,ITEM_ID,TIMESTAMP, EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE) 196,242,881250949,click,15 186,302,891717742,click,13 22,377,878887116,click,10 244,51,880606923,click,20 166,346,886397596,click,10