預覽模型 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

預覽模型

注意

下列功能僅適用於使用表格式資料集建置的自訂模型。也會排除多類別文字預測模型。

SageMaker Canvas 為您提供了在開始構建之前預覽模型和驗證數據的工具。下列功能包括預覽模型的準確性、驗證資料集以避免在建立模型時發生問題,以及變更模型的隨機範例大小。

預覽模型

使用 Amazon SageMaker Canvas,您可以選擇預覽模型,在建立模型之前從資料中取得深入解析。例如,您可以查看每個資料欄中的資料是如何分佈的。對於使用分類資料建立的模型,您也可以選擇預覽模型來產生模型分析資料的預估準確度預測。快速建置標準建置的精確度代表模型在實際資料上的執行效能,而且通常高於預估準確度

Amazon SageMaker Canvas 會在建立模型時自動處理資料集中遺失的值。它會使用存在於資料集中的相鄰值推斷缺少值。

Canvas 中模型的建置索引標籤的螢幕擷取畫面。

驗證資料

在構建模型之前, SageMaker Canvas 會檢查您的數據集是否存在可能導致構建失敗的問題。如果 SageMaker Canvas 發現任何問題,則在您嘗試構建模型之前,它會在「構建」頁面上發出警告。

您可以選擇驗證資料以查看資料集中的問題清單。然後,您可以使用 SageMaker Canvas 資料準備功能或您自己的工具,在開始組建之前修復資料集。如果您未修正資料集的問題,則建置將會失敗。

如果您變更資料集以修正問題,則可以選擇在嘗試建置之前重新驗證資料集。建議您在建置之前重新驗證資料集。

下表顯示 SageMaker Canvas 在資料集中檢查的問題以及如何解決這些問題。

問題 解析度

資料的模型類型錯誤

請嘗試其他模型類型或使用不同的資料集。

目標欄中缺少值

取代缺少值、刪除缺少值的資料列,或使用不同的資料集。

目標欄中有太多唯一標籤

確認您已為目標欄使用正確的資料欄,或使用不同的資料集。

目標欄中有太多非數值

選擇不同的目標欄、選取其他模型類型,或使用不同的資料集。

一個或多個資料欄名稱包含兩個底線

重新命名資料欄,移除任何兩個底線,然後再試一次。

資料集中的任何資料列都不完整

取代缺少值,或使用不同的資料集。

資料中的列數有太多唯一的標籤

檢查您使用的是正確的目標欄、增加資料集中的列數、合併類似的標籤,或使用不同的資料集。

隨機抽樣

SageMaker Canvas 使用隨機取樣方法來取樣資料集。隨機抽樣方法意味著每一列都有相同的機會被採樣。您可以在預覽中選擇資料欄以獲取隨機抽樣的總結統計,例如均值和模式。

根據預設, SageMaker Canvas 會針對資料列超過 20,000 個資料列的資料集使用隨機抽樣大小 (大小為 20,000 列)。之對小於 20,000 列的資料集,預設抽樣大小是資料集中的列數。您可以在 SageMaker Canvas 應用程式的 [建置] 索引標籤中選擇 [隨機樣本],以增加或減少樣本大小。您可以使用滑桿選取所需的取樣大小,然後選擇更新以變更取樣大小。您可以針對一個資料集選擇的最大取樣大小為 40,000 列,最小範例大小為 500 列。如果您選擇較大的取樣大小,則資料集預覽和總結統計資料可能需要一些時間才能重新載入。

建置頁面會顯示資料集中 100 列的預覽。如果取樣大小與您的資料集大小相同,則預覽會使用資料集的前 100 列。否則,預覽會使用隨機抽樣的前 100 列。