轉換資料 - Amazon Personalize

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

轉換資料

若要轉換資料 Wrangler 中的資料,您可以在資料流程中新增「轉換」步驟。資料牧馬人包含超過 300 種轉換,您可以用來準備資料,包括用於 Amazon Personalize 轉換的地圖欄。此外,您還可以使用一般的 Data Wrangler 轉換來修正異常值、類型問題和遺漏值等問題。

完成資料轉換後,您可以使用資料牧馬人對其進行分析。或者,如果您已在資料牧馬人中完成資料準備,您可以處理資料並將其匯入 Amazon Personalize。如需分析資料的資訊,請參閱產生視覺效果和資料見解。如需有關處理和匯入資料的資訊,請參閱處理資料並將其匯入 Amazon Personalize

Amazon Personalize 化映射列

若要轉換資料以符合 Amazon Personalize 需求,您可以新增 Amazon Personalize 轉換的地圖欄,並將欄對應至 Amazon Personalize 的必要欄位和選用欄位。

若要使用地圖欄進行 Amazon Personalize 轉換
  1. 為最新的轉換選擇 [+],然後選擇 [新增轉換]。如果您尚未新增轉換,請為 [資料類型] 轉換選擇 [+]。資料牧馬人會自動將此轉換新增至您的流程。

  2. 選擇新增步驟

  3. 選擇 Amazon Personalize 化轉換。預設會選取 Amazon Personalize 轉換的 [地圖] 欄。

  4. 使用轉換欄位將資料對應至必要的 Amazon Personalize 屬性。

    1. 選擇符合您資料的資料集類型 (互動、項目或使用者)。

    2. 選擇您的網域 (ECOMMERCE、VIDEO _ON_ DEMAND 或自訂)。您選擇的網域必須與您建立資料集群組時指定的網域相符。

    3. 選擇符合 Amazon Personalize 必要欄位和選用欄位的資料欄。例如,對於 item_ID 欄,請在資料中選擇儲存每個項目之唯一識別資訊的欄。

      每個列字段都按數據類型進行過濾。只有符合 Amazon Personalize 資料類型要求的資料欄可供使用。如果您的資料不是必要的類型,您可以使用剖析值做為資料類型 Wrangler 轉換來轉換它。

一般資料牧馬人轉換

下列一般資料牧馬人轉換可協助您準備 Amazon Personalize 的資料:

  • 資料類型轉換:如果您的欄位未在 Amazon Personalize 轉換的 [地圖] 欄中列為可能的選項,您可能需要轉換其資料類型。資料牧馬人將剖析值轉換為類型可以協助您轉換資料。或者,您也可以使用資料 Wrangler 在建立流程時預設新增的資料類型轉換。若要使用此轉換,請從「類型」下拉式清單中選擇資料類型,選擇「預覽」,然後選擇「更新」。

    如需欄位必要資料類型的詳細資訊,請參閱中的網域和資料集類型一節結構描述

  • 處理缺少的值和異常值:如果您產生缺少值或異常值見解,則可以使用 Data Wrangler 轉換「處理異常值」和「處缺少值」來解決這些問題。

  • 自定義轉換:使用數據牧馬人,您可以使用 Python(用戶定義函數), PySpark熊貓或()創建自己的轉換。 PySpark SQL您可以使用自訂轉換來執行工作,例如刪除重複的資料行或依資料欄分組。如需詳細資訊,請參閱 Amazon SageMaker 開發人員指南中的自訂轉換