使用 Amazon 資料牧馬人準備和匯入大量 SageMaker 資料 - Amazon Personalize

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 Amazon 資料牧馬人準備和匯入大量 SageMaker 資料

重要

當您使用資料牧馬人時,您會產生 SageMaker 成本。如需費用和價格的完整清單,請參閱 Amazon SageMaker 定價中的資料牧馬人標籤。為避免產生額外費用,請在完成後關閉 Data Wrangler 執行個體。如需詳細資訊,請參閱關閉資料牧馬人。

建立資料集群組後,您可以使用 Amazon SageMaker 資料牧馬人 (資料牧馬人) 將來自 40 多個來源的資料匯入 Amazon 個人化資料集。資料牧馬人是 Amazon SageMaker Studio 經典版的一項功能,提供匯入、準備、轉換和分析資料的 end-to-end 解決方案。您無法使用 Data Wrangler 準備資料並將資料匯入動作資料集或動作互動資料集。

當您使用資料牧馬人來準備和匯入資料時,您會使用資料流程。資料流程定義了一系列機器學習資料準備步驟,從匯入資料開始。每次向流程新增步驟時,Data Wrangler 都會對您的資料採取動作,例如轉換資料或產生視覺效果。

以下是您可以新增到流程中以準備 Amazon Personalize 資料的一些步驟:

  • 洞察:您可以在流程中新增 Amazon Personalize 特定的洞察步驟。這些見解可協助您瞭解您的資料,以及可採取哪些行動來改善資料。

  • 覺效果:您可以新增視覺化步驟來產生直方圖和散佈圖等圖形。圖形可協助您發現資料中的問題,例如離群值或遺漏值。

  • 轉換:您可以使用 Amazon Personalize 特定和一般轉換步驟,確保您的資料符合 Amazon Personalize 需求。Amazon 個人化轉換可協助您根據 Amazon Personalize 資料集類型,將資料欄對應至必要的資料欄。

如果您需要在將資料匯入 Amazon Personalize 之前離開資料牧馬工人,您可以在從 Amazon Personalize 主控台啟動資料牧馬工程式時選擇相同的資料集類型,以返回上次停止的地方。或者,您可以直接通過 SageMaker 工作室經典訪問數據牧馬人。

我們建議您將資料從資料牧馬人匯入 Amazon Personalize,如下所示。轉換、視覺化和分析步驟是選擇性的、可重複的,並且可以按任何順序完成。

  1. 設定許可-設定 Amazon Personalize 和 SageMaker 服務角色的許可。並為您的使用者設定權限。

  2. Amazon Personalize 人化主控台啟動 SageMaker 工作室傳統版中的資料牧馬人-使用 Amazon Personalize 主控台設定 SageMaker 網域,並在工作室傳統版中啟動資料牧馬人。 SageMaker

  3. 將您的資料匯入資料牧馬人-將來自 40 多個來源的資料匯入資料牧馬人。來源包括 AWS 服務, 如 Amazon Redshift, AmazonEMR, 或 Amazon Athena, 和第三方,如雪花或 DataBricks.

  4. 轉換您的資料-使用資料牧馬人來轉換您的資料,以符合 Amazon Personalize 需求。

  5. 視覺化和分析您的資料-使用資料牧馬人將您的資料視覺化,並透過 Amazon Personalize 特定見解進行分析。

  6. 將資料處理並匯入 Amazon Personalize-使用 SageMaker 工作室經典 Jupyter 筆記本將處理過的資料匯入 Amazon Personalize。

其他資訊

以下資源提供有關使用 Amazon 資 SageMaker 料牧馬人和亞馬 Amazon Personalize 的其他資訊。