本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建立資料流程
使用 SageMaker Canvas 中的 Data Wrangler 流程,或資料流程 ,來建立和修改資料準備管道。建議您將 Data Wrangler 用於大於 5 GB 的資料集。
若要開始使用,請使用下列程序將資料匯入資料流程。
-
開啟 SageMaker Canvas。
-
在左側導覽中,選擇 Data Wrangler 。
-
選擇匯入並準備 。
-
從下拉式選單中,選擇表格式或映像式。
-
針對選取資料來源 ,選擇您的資料來源,然後選取您要匯入的資料。您可以選擇最多 30 個檔案或一個資料夾。如果您已經有資料集匯入 Canvas,請選擇 Canvas 資料集作為來源。否則,請連線至資料來源,例如 Amazon S3 或 Snowflake,然後瀏覽您的資料。如需連線至資料來源或匯入資料的相關資訊,請參閱下列頁面:
-
選取您要匯入的資料後,選擇下一步。
-
(選用) 在匯入表格式資料集時的匯入設定區段中,展開進階下拉式功能表。您可以為資料流程匯入指定下列進階設定:
取樣方法 – 選取您要使用的取樣方法和樣本數。如需如何變更範例的詳細資訊,請參閱一節編輯資料流程取樣組態。
檔案編碼 (CSV) – 選取資料集檔案的編碼。
UTF-8
是預設值。略過前列 – 如果您在資料集開頭有多餘的資料列,請輸入您要略過匯入的資料列數目。
分隔符號 – 選取分隔資料中每個項目的分隔符號。您也可以指定自訂分隔符號。
多行偵測 – 如果您想要 Canvas 手動剖析多行儲存格的整個資料集,請選取此選項。Canvas 會透過取得資料範例來決定是否使用多行支援,但 Canvas 可能不會偵測到樣本中的任何多行儲存格。在此情況下,我們建議您選取多行偵測選項,強制 Canvas 檢查多行儲存格的整個資料集。
-
選擇匯入。
您現在應該有新的資料流程,並且可以開始新增轉換步驟和分析。