選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

在 SageMaker AI 中選擇正確資料準備工具的建議

焦點模式
在 SageMaker AI 中選擇正確資料準備工具的建議 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

機器學習中的資料準備是指收集、預先處理和組織原始資料的程序,使其適合進行分析和建模。此步驟可確保資料採用機器學習演算法可有效學習的格式。資料準備任務可能包括處理遺失值、移除極端值、擴展功能、編碼分類變數、評估潛在偏差並採取步驟來緩解這些偏差、將資料分割為訓練和測試集、標記和其他必要的轉換,以最佳化後續機器學習任務的資料品質和可用性。

選擇功能

使用 Amazon SageMaker AI 進行資料準備有 3 個主要使用案例。選擇符合您需求的使用案例,然後參考對應的建議功能

使用案例

以下是執行Machine Learning資料準備時的主要使用案例。

  • 使用案例 1:對於偏好視覺化界面的人,SageMaker AI 提供透過point-and-click環境探索、準備和設計模型訓練功能的方法。

  • 使用案例 2:對於對編碼感到自在的使用者,如果他們希望對資料準備有更多彈性和控制,SageMaker AI 會將工具整合到其編碼環境,以進行探索、轉換和特徵工程。

  • 使用案例 3:對於專注於可擴展資料準備的使用者,SageMaker AI 提供無伺服器功能,利用 Hadoop/Spark 生態系統進行大數據的分散式處理。

下表概述與機器學習的每個資料準備使用案例相關的 SageMaker AI 功能的主要考量和權衡。若要開始使用,請識別符合您需求的使用案例,並導覽至其建議的 SageMaker AI 功能。

描述項 使用案例 1 使用案例 2 使用案例 3
SageMaker AI 功能 Amazon SageMaker Canvas 中的資料 Wrangler Studio 中的 SQL 資料準備 使用 EMR Serverless 準備資料 Studio 中的應用程式
描述 SageMaker Canvas 是一種視覺化低程式碼環境,用於在 SageMaker AI 中建置、訓練和部署機器學習模型。其整合式 Data Wrangler 工具可讓使用者透過point-and-click互動來結合、轉換和清理資料集。 Studio 中的 SQL 擴充功能可讓使用者連線至 Amazon Redshift、Snowflake、Athena 和 Amazon S3,以撰寫臨時 SQL 查詢,並在 JupyterLab 筆記本中預覽結果。您可以使用 Python和 來操控這些查詢的輸出,Pandas以用於機器學習模型開發的額外處理、視覺化和轉換為可用的格式。 EMR Serverless 與 Amazon SageMaker Studio 的整合為使用 Apache Spark 和 Apache Hive 等開放原始碼架構的機器學習提供大規模資料準備的可擴展無伺服器環境。使用者可以直接從 Studio 筆記本存取 EMR Serverless 應用程式和資料,以大規模執行其資料準備任務。
針對 最佳化 使用視覺化界面,您可以在其中:

針對表格式資料任務進行最佳化,例如處理遺失值、編碼分類變數,以及套用資料轉換。

對於資料存放在 Amazon Redshift、Snowflake、Athena 或 Amazon S3 中,並想要結合探索性 SQL 和 Python 進行資料分析和準備的使用者,而不需要學習 Spark。 對於偏好自動資源佈建和終止的無伺服器體驗,以擴展 Apache Spark 周圍的短期執行或間歇性互動式工作負載的使用者,同時利用 SageMaker AI 的機器學習功能。
考量事項
  • 如果您的團隊已經擁有 Python、Spark 或其他語言的專業知識,則可能不是最佳選擇。

  • 如果您需要完全彈性來自訂轉換以新增複雜的商業邏輯,或需要完全控制資料處理環境,則可能不適合。

  • 此功能僅適用於 Amazon Redshift、Snowflake、Athena 或 Amazon S3 中的結構化資料。

  • 如果查詢結果的大小超過 SageMaker AI 執行個體記憶體,以下筆記本可以引導您開始使用 Athena,以準備資料以供 SageMaker AI 演算法擷取。

  • 對於不熟悉 EMR Serverless 應用程式和 Spark 型工具的使用者而言,學習曲線可能具有挑戰性。

  • 此功能更適合互動式資料準備任務,而且對於涉及大量資料、與其他 服務廣泛整合、自訂應用程式或除了 Apache Spark 之外的各種分散式資料處理架構的大型、長期執行或複雜資料處理需求,可能不如 Amazon EMR 叢集有效率。

  • 雖然無伺服器運算對於短期任務具有成本效益,但必須謹慎監控和管理成本,尤其是對於長時間執行或資源密集的工作負載。

建議的環境 開始使用 SageMaker Canvas 啟動 Studio 啟動 Studio

其他選項

SageMaker AI 提供下列其他選項,可讓您準備資料以用於機器學習模型。

  • 使用 Amazon EMR 準備資料:對於長時間執行、運算密集的大規模資料處理任務,請考慮使用 SageMaker Studio 的 Amazon EMR 叢集。Amazon EMR 叢集旨在處理大量平行處理,並且可以擴展到數百個或數千個節點,使其非常適合需要 Apache Spark、Hadoop、Hive 和 Presto 等架構的大型資料工作負載。Amazon EMR 與 SageMaker Studio 的整合可讓您利用 Amazon EMR 的可擴展性和效能,同時在 SageMaker Studio 環境中保持完整的 ML 實驗、模型訓練和部署、集中化和管理。

  • 使用黏性互動式工作階段準備資料:您可以從互動式工作階段使用 Apache Spark 型無伺服器引擎 AWS Glue ,在 SageMaker Studio 中彙總、轉換和準備來自多個來源的資料。

  • 使用 Amazon SageMaker Clarify 處理任務來識別訓練資料的偏差:SageMaker Clarify 會分析您的資料,並偵測多個面向的潛在偏差。例如,您可以使用 Studio 中的 Clarify API 來偵測訓練資料是否包含性別、種族或年齡等群組之間的不平衡表示法或標籤偏差。Clarify 可協助您在訓練模型之前識別這些偏差,以避免將偏差傳播到模型的預測中。

  • 建立、存放和共用功能:Amazon SageMaker Feature Store 可最佳化機器學習的探索和重複使用精選功能。它提供集中式儲存庫來存放功能資料,可供搜尋和擷取以進行模型訓練。以標準化格式存放功能可讓 ML 專案重複使用。Feature Store 會管理功能的完整生命週期,包括譜系追蹤、統計資料和稽核線索,以進行可擴展且受管的機器學習功能工程。

  • 使用human-in-the-loop標記資料:您可以使用 SageMaker Ground Truth 來管理訓練資料集的資料標記工作流程。

  • 使用 SageMaker Processing API:執行探索性資料分析並建立資料轉換步驟之後,您可以使用 SageMaker AI Processing 任務來生產轉換程式碼,並使用 SageMaker Model Building Pipelines 自動化準備工作流程。

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。