本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
準備資料
注意
以前,Amazon SageMaker 數據牧馬人是 SageMaker 工作室經典體驗的一部分。現在,如果您更新為使用新的 Studio 體驗,則必須使用 SageMaker Canvas 訪問數據牧馬人並接收最新的功能更新。如果您到目前為止一直在 Studio Classic 中使用數據牧馬人,並且想要遷移到 Canvas 中的數據牧馬人,則可能需要授予其他權限,以便可以創建和使用 Canvas 應用程序。如需詳細資訊,請參閱 從工作室經典中的數據牧馬人遷移到畫布 SageMaker 。
使用 Amazon SageMaker Canvas 中的 Amazon SageMaker 資料牧馬人來準備、特徵化和分析您的資料。您可以將 Data Wrangler 資料準備流程整合到您的機器學習 (ML) 工作流程中,幾乎不使用程式碼,簡化和精簡資料預先處理和特徵工程。您也可以新增自己的 Python 指令碼和轉換來自訂工作流程。
-
資料流程——建立資料流程來定義一系列機器學習資料準備步驟。您可以使用一個流程來合併不同資料來源的資料集、識別要套用至資料集的轉換數量和類型,以及定義可整合至機器學習管道的資料準備工作流程。
-
轉換——使用字串、向量和數值資料格式化工具等標準轉換來清理及轉換資料集。使用文字、日期/時間內嵌項目和分類編碼等轉換,將資料特徵化。
-
生成數據洞察 — 使用數據 Wrangler 數據質量和洞察報告自動驗證數據質量並檢測數據中的異常情況。
-
分析——在流程中的任何時間點分析您的資料集中的特徵。Data Wrangler 包含散佈圖和長條圖等內建資料視覺化工具,以及目標洩漏分析和快速建模等資料分析工具,以了解特徵相互關聯性。
-
匯出——將資料準備工作流程匯出至其他位置。以下為範例位置:
-
Amazon Simple Storage Service (Amazon S3) 儲存貯體
-
Amazon SageMaker 功能商店 — 將功能及其資料存放在集中式存放區中。
-
-
自動化資料準備 — 從資料流程建立機器學習工作流程。
-
Amazon SageMaker 模型建置管道 — 建立可管理 SageMaker 資料準備、模型訓練和模型部署任務的工作流程。
-
序列推論管道 — 從資料流程建立序列推論管道。使用它來對新數據進行預測。
-
Python 指令碼——將資料及其轉換存放在自訂工作流程的 Python 指令碼中。
-