準備資料 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

準備資料

注意

以前,Amazon SageMaker 數據牧馬人是 SageMaker 工作室經典體驗的一部分。現在,如果您更新為使用新的 Studio 體驗,則必須使用 SageMaker Canvas 訪問數據牧馬人並接收最新的功能更新。如果您到目前為止一直在 Studio Classic 中使用數據牧馬人,並且想要遷移到 Canvas 中的數據牧馬人,則可能需要授予其他權限,以便可以創建和使用 Canvas 應用程序。如需詳細資訊,請參閱 從工作室經典中的數據牧馬人遷移到畫布 SageMaker

使用 Amazon SageMaker Canvas 中的 Amazon SageMaker 資料牧馬人來準備、特徵化和分析您的資料。您可以將 Data Wrangler 資料準備流程整合到您的機器學習 (ML) 工作流程中,幾乎不使用程式碼,簡化和精簡資料預先處理和特徵工程。您也可以新增自己的 Python 指令碼和轉換來自訂工作流程。

  • 資料流程——建立資料流程來定義一系列機器學習資料準備步驟。您可以使用一個流程來合併不同資料來源的資料集、識別要套用至資料集的轉換數量和類型,以及定義可整合至機器學習管道的資料準備工作流程。

  • 轉換——使用字串、向量和數值資料格式化工具等標準轉換來清理及轉換資料集。使用文字、日期/時間內嵌項目和分類編碼等轉換,將資料特徵化。

  • 生成數據洞察 — 使用數據 Wrangler 數據質量和洞察報告自動驗證數據質量並檢測數據中的異常情況。

  • 分析——在流程中的任何時間點分析您的資料集中的特徵。Data Wrangler 包含散佈圖和長條圖等內建資料視覺化工具,以及目標洩漏分析和快速建模等資料分析工具,以了解特徵相互關聯性。

  • 匯出——將資料準備工作流程匯出至其他位置。以下為範例位置:

    • Amazon Simple Storage Service (Amazon S3) 儲存貯體

    • Amazon SageMaker 功能商店 — 將功能及其資料存放在集中式存放區中。

  • 自動化資料準備 — 從資料流程建立機器學習工作流程。

    • Amazon SageMaker 模型建置管道 — 建立可管理 SageMaker 資料準備、模型訓練和模型部署任務的工作流程。

    • 序列推論管道 — 從資料流程建立序列推論管道。使用它來對新數據進行預測。

    • Python 指令碼——將資料及其轉換存放在自訂工作流程的 Python 指令碼中。