準備資料 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

準備資料

您可以使用 Amazon SageMaker 資料牧馬人匯入、準備、轉換、視覺化和分析資料。您可以將 Data Wrangler 整合到您的機器學習工作流程中,幾乎不使用程式碼,簡化和精簡資料預先處理和特徵工程。您也可以新增自己的 Python 指令碼和轉換來自訂資料準備工作流程。

從 Amazon S3、Amazon Redshift、Amazon Athena 匯入資料,並使用 Data Wrangler 建立複雜的機器學習資料準備工作流程,搭配內建自訂資料轉換和分析,其中包含特徵目標洩漏和快速建模等。

定義資料準備工作流程或資料流程後,您可以將其與 SageMaker 處理、 SageMaker 管道和 SageMaker 功能存放區整合,簡化處理、共用和儲存機器學習訓練資料的工作。您也可以將資料流程匯出至 python 指令碼,並建立自訂機器學習資料準備管道。

如需詳細資訊,請參閱 使用 Amazon 資料牧馬人準備機器學習 SageMaker 資料

為了快速大規模準備資料,Amazon SageMaker 工作室經典版提供了與 Amazon EMR 的內建整合。您可以使用 SageMaker Studio Classic 從筆記型電腦界面連接、佈建或管理 Amazon EMR 叢集,以進行 PB 規模的資料處理、互動式分析和機器學習。Amazon EMR 使用開放原始碼架構,例如 Apache SparkApache HivePresto。如需有關在 SageMaker 工作室經典版中使用 Amazon EMR 的詳細資訊,請參閱使用 Amazon EMR 準備資料

或者,您也可以使用 AWS Glue 互動式工作階段中以 Apache Spark 為基礎的無伺服器引擎來彙總和轉換多個來源的資料。不需要管理基礎設施,就可以從分析和 ETL(擷取、轉換和載入)管道彙總和轉換資料。如需在 SageMaker Studio 傳統版中使用AWS Glue互動式工作階段的詳細資訊,請參閱請使用 AWS Glue 互動式工作階段準備資料

您用來訓練機器學習模型的資料可能包含偏差。偏差可能會導致機器學習模型針對某些個人或群體有所區別對待。您可以使用 Amazon SageMaker 澄清來判斷用於訓練模型或產生的模型的資料是否編碼任何偏差。 SageMaker 澄清還可以幫助您解釋使用表格,圖像或 NLP 數據創建的模型,其中包含部分依賴圖,功能重要性等。如需「 SageMaker 澄清」的更多資訊,請參閱偵測訓練前資料偏差