準備和匯入大量資料 - Amazon Personalize

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

準備和匯入大量資料

建立資料集之後,就可以開始將大量歷史資料匯入 Amazon Personalize 了。匯入大量記錄有兩種選擇:

  • 對於項目互動、使用者和項目資料集,您可以使用 Amazon SageMaker Data Wrangler 從 40 多個來源匯入資料、產生視覺效果和 Amazon Personalize 特定見解,並進行轉換以符合 Amazon Personalize 要求。

  • 對於所有資料集類型,您都可以將大量資料直接匯入資料集。直接匯入時,您可以手動格式化資料以符合 Amazon Personalize 需求,並將其上傳到 Amazon S3。然後,您可以建立結構定義和資料集,並使用資料集匯入工作將資料直接匯入資料集。

下列準則可協助您確定大量資料的格式正確無誤。

  • 您的輸入資料必須是 CSV (逗號分隔值) 檔案。

  • CSV 檔案的第一列必須包含欄標題。請勿將標題括在引號 (「」) 中。

  • 請確定您具有資料集類型的必要欄位,並確定其名稱符合 Amazon Personalize 要求。例如,您的項目資料可能有一個名為ITEM_IDENTIFICATION_NUMBER的欄,其中包含每個項目的 ID。若要將此欄用作 ITEM_ID 欄位,請將欄重新命名為。ITEM_ID如果您使用資料牧馬人來格式化您的資料,您可以使用 Amazon Personalize 資料牧馬人轉換的地圖欄,以確保您的資料欄的命名正確。

    如需必填欄位的資訊,請參閱結構描述。如需有關使用資料牧馬人準備資料的資訊,請參閱。使用 Amazon 資料牧馬人準備和匯入 SageMaker 資料

  • CSV 檔案中的欄標題名稱必須對應至您的結構定義。

  • CSV 檔案中的每個記錄都必須在單行上。

  • 每個欄中的資料類型必須對映至您的結構定義。如果您使用資料牧馬人格式化資料,您可以使用資料牧馬人轉換剖析值作為類型來轉換資料類型

  • TIMESTAMP並且CREATION_TIMESTAMP資料必須採用 UNIX 紀元時間格式。如需詳細資訊,請參閱 時間戳資料

  • 避免在項目 ID,用戶 ID 和操作 ID 數據中包含任何"字符或特殊字符。

  • 如果您的資料包含任何非 ASCII 編碼字元,您的 CSV 檔案必須以 UTF-8 格式編碼。

  • 請確定您格式化任何文字資料,如中非結構化文本元數據所述。

  • 請務必按照和中所述格式化曝光資料格式化明確曝光格式化分類資料分類資料。

如需 Amazon 個人化的大量資料格式化要求的詳細資訊,請參閱資料格式指南

將資料匯入 Amazon Personalize 資料集之後,您可以對其進行分析、匯出到 Amazon S3 儲存貯體、更新資料集或刪除資料集來刪除資料集。如需詳細資訊,請參閱 管理資料集中的訓練資料

如果您已經建立推薦人或部署了含有促銷活動的自訂解決方案版本,則新的大量記錄對建議的影響程度取決於您使用的網域使用案例或方案。如需詳細資訊,請參閱 新資料如何影響即時推薦

篩選大量記錄的更新

在完成大量匯入後的 20 分鐘內,Amazon Personalize 會使用新項目和使用者資料更新您在資料集群組中建立的任何篩選器。此更新可讓 Amazon Personalize 在為您的使用者篩選建議時使用最新的資料。