本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
資料格式指南
將資料匯入 Amazon Personalize 資料集時,您可以選擇大量匯入、個別匯入或同時匯入兩者。
-
大量匯入涉及一次匯入大量歷史記錄。您可以使 SageMaker 用資料牧馬人和多個資料來源來準備和匯入大量資料。或者,您可以自行準備大量資料,並從 Amazon S3 中的 CSV 檔案直接將其匯入亞馬遜個人化。
-
透過個別匯入,您可以使用 Amazon 個人化主控台和 API 操作匯入個別記錄。或者,您也可以即時串流來自即時事件的互動資料。如需個別匯入的詳細資訊,請參閱匯入個別記錄。
匯入大量資料之前,請確定其格式正確。以下各節可協助您格式化大量資料。如果您不確定如何格式化資料,可以使用 Amazon SageMaker 資料牧馬人 (資料牧馬人) 準備資料。如需詳細資訊,請參閱 使用 Amazon 資料牧馬人準備和匯入 SageMaker 資料。
大量資料格式準則和需求
下列準則和需求可協助您確保大量資料的格式正確無誤。
-
您的輸入資料必須是 CSV (逗號分隔值) 檔案。
-
CSV 檔案的第一列必須包含欄標題。請勿將標題括在引號 (「」) 中。
-
請確定您具有資料集類型的必要欄位,並確定其名稱符合 Amazon Personalize 要求。例如,您的項目資料可能有一個名為
ITEM_IDENTIFICATION_NUMBER
的欄,其中包含每個項目的 ID。若要將此欄用作 ITEM_ID 欄位,請將欄重新命名為。ITEM_ID
如果您使用資料牧馬人來格式化您的資料,您可以使用 Amazon Personalize 資料牧馬人轉換的地圖欄,以確保您的資料欄的命名正確。如需必填欄位的資訊,請參閱結構描述。如需有關使用資料牧馬人準備資料的資訊,請參閱。使用 Amazon 資料牧馬人準備和匯入 SageMaker 資料
-
CSV 檔案中的欄標題名稱必須對應至您的結構定義。
-
CSV 檔案中的每個記錄都必須在單行上。
-
每個欄中的資料類型必須對映至您的結構定義。如果您使用資料牧馬人格式化資料,您可以使用資料牧馬人轉換剖析值作為類型來轉換資料類型。
-
TIMESTAMP
並且CREATION_TIMESTAMP
資料必須採用 UNIX 紀元時間格式。如需詳細資訊,請參閱 時間戳資料。 -
避免在項目 ID,用戶 ID 和操作 ID 數據中包含任何
"
字符或特殊字符。 -
如果您的資料包含任何非 ASCII 編碼字元,您的 CSV 檔案必須以 UTF-8 格式編碼。
-
請確定您格式化任何文字資料,如中非結構化文本元數據所述。
互動資料範例
下列互動資料代表銷售電影票之網站的歷史使用者活動。您可以使用這些資料來訓練根據使用者互動資料提供影片建議的模型。
USER_ID,ITEM_ID,EVENT_TYPE,EVENT_VALUE,TIMESTAMP 196,242,click,15,881250949 186,302,click,13,891717742 22,377,click,10,878887116 244,51,click,20,880606923 166,346,click,10,886397596 298,474,click,40,884182806 115,265,click,20,881171488 253,465,click,50,891628467 305,451,click,30,886324817
以下是相關的交互模式:。
{ "type": "record", "name": "Interactions", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "USER_ID", "type": "string" }, { "name": "ITEM_ID", "type": "string" }, { "name": "EVENT_TYPE", "type": "string" }, { "name": "EVENT_VALUE", "type": "float" }, { "name": "TIMESTAMP", "type": "long" } ], "version": "1.0" }
Amazon Personalize 化需要USER_ID
ITEM_ID
、和TIMESTAMP
字段。 USER_ID
是應用程式使用者的識別碼。 ITEM_ID
是影片的識別碼。 EVENT_TYPE
和EVENT_VALUE
是用戶活動的標識符。在樣本數據中,a click
可能代表電影購買事件,15
可能是電影的購買價格。 TIMESTAMP
代表電影購買發生的 Unix 紀元時間。
時間戳資料
時間戳記資料,例如 TIMESTAMP
(針對項目互動資料集) 或 CREATION_TIMESTAMP
(針對項目資料集) 資料,必須採用 Unix 紀元時間格式 (以秒為單位)。例如,2020 年 7 月 31 日日期的紀元時間戳記 (以秒為單位) 為 1596238243。要將日期轉換為 Unix 紀元時間戳,請使用 E poch 轉換器-Unix
格式化明確曝光
如果您使用用戶個性化配方,則可以記錄並上傳曝光數據。曝光次數是指使用者與特定項目 (例如,點選或已觀看) 互動時可見的項目清單。若要在大量資料匯入中上傳曝光次數資料,請手動記錄每個項目 ID。請務必使用垂直列「|」字元分隔值,做為歷史互動資料的一部分。垂直列字元會計入曝光資料的 1000 個字元上限。如需曝光次數資料的詳細資訊,請參閱印象資料。
以下是項目互動資料集的簡短摘錄,其中包含資料IMPRESSION
欄中的明確曝光次數。
EVENT_TYPE | 印象 | ITEM_ID | TIMESTAMP | USER_ID |
---|---|---|---|---|
按一下 |
73|70|17|95|96 |
73 |
1586731606 |
使用者 _1 |
按一下 |
35|82|78|57|20|63|1|90|75|71|26|25|6 |
35 |
1586735164 |
使用者 _2 |
... | ... | ... | ... | ... |
該應用程序顯示用戶USER_1
項目 73
70
17
,95
,,96
和用戶最終選擇了項目73
。當您根據此資料建立新的解決方案版本時,96
會較不常向使用者建議使用者使用的項目70
USER_1
。17
95
格式化分類資料
若要在使用分類字串資料時加入單一項目的多個類別,您可以使用分隔號「|」和字元來分隔各數值。例如,對于具有兩個類別的物件,數据行如下所示:
ITEM_ID,GENRE item_123,horror|comedy
格式化資料後,請將其上傳到 Amazon S3 儲存貯體,以便將其匯入 Amazon Personalize。如需更多詳細資訊,請參閱 上傳到 Amazon S3 存儲桶。