本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 Amazon 資料牧馬人準備和匯入大量 SageMaker 資料
重要
當您使用資料牧馬人時,您會產生 SageMaker 成本。如需費用和價格的完整清單,請參閱 Amazon SageMaker
建立資料集群組後,您可以使用 Amazon SageMaker 資料牧馬人 (資料牧馬人) 將來自 40 多個來源的資料匯入 Amazon 個人化資料集。資料牧馬人是 Amazon SageMaker Studio 經典版的一項功能,提供匯入、準備、轉換和分析資料的 end-to-end 解決方案。您無法使用 Data Wrangler 準備資料並將資料匯入動作資料集或動作互動資料集。
當您使用資料牧馬人來準備和匯入資料時,您會使用資料流程。資料流程定義了一系列機器學習資料準備步驟,從匯入資料開始。每次向流程新增步驟時,Data Wrangler 都會對您的資料採取動作,例如轉換資料或產生視覺效果。
以下是您可以新增到流程中以準備 Amazon Personalize 資料的一些步驟:
-
洞察:您可以在流程中新增 Amazon Personalize 特定的洞察步驟。這些見解可協助您瞭解您的資料,以及可採取哪些行動來改善資料。
-
視覺效果:您可以新增視覺化步驟來產生直方圖和散佈圖等圖形。圖形可協助您發現資料中的問題,例如離群值或遺漏值。
-
轉換:您可以使用 Amazon Personalize 特定和一般轉換步驟,確保您的資料符合 Amazon Personalize 需求。Amazon 個人化轉換可協助您根據 Amazon Personalize 資料集類型,將資料欄對應至必要的資料欄。
如果您需要在將資料匯入 Amazon Personalize 之前離開資料牧馬工人,您可以在從 Amazon Personalize 主控台啟動資料牧馬工程式時選擇相同的資料集類型,以返回上次停止的地方。或者,您可以直接通過 SageMaker 工作室經典訪問數據牧馬人。
我們建議您將資料從資料牧馬人匯入 Amazon Personalize,如下所示。轉換、視覺化和分析步驟是選擇性的、可重複的,並且可以按任何順序完成。
-
設定許可-設定 Amazon Personalize 和 SageMaker 服務角色的許可。並為您的使用者設定權限。
-
從 Amazon Personalize 人化主控台啟動 SageMaker 工作室傳統版中的資料牧馬人-使用 Amazon Personalize 主控台設定 SageMaker 網域,並在工作室傳統版中啟動資料牧馬人。 SageMaker
-
將您的資料匯入資料牧馬人-將來自 40 多個來源的資料匯入資料牧馬人。來源包括 AWS 服務, 如 Amazon Redshift, AmazonEMR, 或 Amazon Athena, 和第三方,如雪花或 DataBricks.
-
轉換您的資料-使用資料牧馬人來轉換您的資料,以符合 Amazon Personalize 需求。
-
視覺化和分析您的資料-使用資料牧馬人將您的資料視覺化,並透過 Amazon Personalize 特定見解進行分析。
-
將資料處理並匯入 Amazon Personalize-使用 SageMaker 工作室經典 Jupyter 筆記本將處理過的資料匯入 Amazon Personalize。
其他資訊
以下資源提供有關使用 Amazon 資 SageMaker 料牧馬人和亞馬 Amazon Personalize 的其他資訊。
-
如需逐步引導您完成範例資料集處理和轉換的教學課程,請參閱 Amazon SageMaker 開發人員指南中的示範:資料牧馬人泰坦尼克號資料集逐步解說。本教程介紹數據牧馬人的字段和功能。
-
如需 Amazon SageMaker 網域入門的相關資訊,請參閱 Amazon SageMaker 開發人員指南中的快速加入 Amazon 網 SageMaker 域。
-
如需 Amazon Personalize 資料需求的相關資訊,請參閱為 Amazon Personalize 準備訓練資料。