選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

資料處理在 Data Wrangler 中的運作方式

焦點模式
資料處理在 Data Wrangler 中的運作方式 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 Amazon SageMaker Data Wrangler 資料流程中以互動方式使用資料時,Amazon SageMaker Canvas 只會將轉換套用至範例資料集,供您預覽。在 SageMaker Canvas 中完成資料流程後,您可以處理所有資料並將其儲存在適合機器學習工作流程的位置。

在 Data Wrangler 中完成資料轉換之後,有幾個選項可以繼續:

  • 建立模型。您可以建立 Canvas 模型,在其中直接使用準備好的資料建立模型。您可以在處理整個資料集之後建立模型,或僅匯出您在 Data Wrangler 中使用的範例資料。Canvas 會將您處理的資料 (整個資料集或範例資料) 儲存為 Canvas 資料集。

    我們建議您使用範例資料進行快速反覆運算,但當您想要訓練最終模型時,請使用整個資料。建置表格模型時,大於 5 GB 的資料集會自動縮減取樣至 5 GB,而對於時間序列預測模型,大於 30 GB 的資料集則縮減取樣至 30 GB。

    若要進一步了解如何建立模型,請參閱自訂模型的運作方式

  • 匯出資料。您可以匯出資料以用於機器學習工作流程。當您選擇匯出資料時,您有幾個選項:

    • 您可以將 Canvas 應用程式中的資料儲存為資料集。如需 Canvas 資料集支援檔案類型的詳細資訊,以及將資料匯入 Canvas 時的其他需求,請參閱 建立資料集

    • 您可以將資料儲存至 Amazon S3。根據 Canvas 記憶體可用性,您的資料會在應用程式中處理,然後匯出至 Amazon S3。如果您的資料集大小超過 Canvas 可處理的範圍,則依預設,Canvas 會使用 EMR Serverless 任務來擴展至多個運算執行個體、處理完整資料集,並將其匯出至 Amazon S3。您也可以手動設定 SageMaker Processing 任務,以更精細地控制用於處理資料的運算資源。

  • 匯出資料流程。您可能想要儲存資料流程的程式碼,以便在 Canvas 外部修改或執行轉換。Canvas 為您提供將資料流程轉換儲存為 Jupyter 筆記本中的 Python 程式碼的選項,然後您可以匯出至 Amazon S3,以便在機器學習工作流程的其他位置使用。

當您從資料流程匯出資料並將其儲存為 Canvas 資料集或儲存到 Amazon S3 時,Canvas 會在資料流程中建立新的目的地節點,這是顯示所處理資料存放位置的最終節點。如果您想要執行多個匯出操作,您可以將其他目的地節點新增至流程。例如,您可以從資料流程中的不同點匯出資料,以僅套用一些轉換,或者您可以將轉換後的資料匯出至不同的 Amazon S3 位置。如需如何新增或編輯目的地節點的詳細資訊,請參閱 新增目的地節點編輯目的地節點

如需使用 Amazon EventBridge 設定排程以自動處理和匯出資料的詳細資訊,請參閱 建立排程以自動處理新資料

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。