評估 ML 模型

您應該持續「評估模型」以判斷其能否勝任預測新資料和未來資料的預測任務。由於未來的執行個體有不明目標值，您需要檢查 ML 模型對於您已知目標答案之資料的準確性指標，並使用此評估做為預測未來資料準確性的代理。

若要正確地評估模型，請從訓練資料來源取出已標示為目標 (基本事實) 的資料樣本。使用用於訓練的相同資料來評估 ML 模型的預測準確性並不適合，因為這樣是獎勵能「死記」訓練資料的模型，而非能從資料加以一般化的模型。您完成訓練 ML 模型後，您傳送已知目標值的保留觀察給模型。然後，比較 ML 模型傳回的預測結果和已知目標數值。最後，您運算摘要指標，告訴您預測和真實值的相符程度。

在 Amazon ML 中，您可以透過建立評估來評估 ML 模型。若要建立 ML 模型的評估，您需要一個您想要評估的 ML 模型，您也需要未使用於訓練的標記資料。首先，使用保留資料建立 Amazon ML 資料來源來建立資料來源以供評估。用於評估的資料必須和用於訓練的資料具備相同的結構描述，並包含目標變數的實際值。

如果您的所有資料都位於單一檔案或目錄中，您可以使用 Amazon ML 主控台來分割資料。Create ML model (建立 ML 模型) 精靈中的預設路徑會分割輸入資料來源，並使用前 70% 做為訓練資料來源，其餘 30% 做為評估資料來源。Create ML model (建立 ML 模型) 精靈中的 Custom (自訂) 選項也可供您自訂分割比，您可以在此處隨機選取 70% 的樣本用於訓練，並將其餘 30% 用於評估。為了進一步指定自訂分割比，請使用建立資料來源 API 中的資料重新安排字串。擁有評估資料來源和 ML 模型後，您可以建立評估並檢閱評估的結果。

主題

防止過度擬合

建立和訓練 ML 模型時，目標是選擇可進行最佳預測的模型，這表示選擇具有最佳設定 (ML 模型設定或超級參數) 的模式。在 Amazon Machine Learning 中，您可以設定四個超參數：通過次數、正規化、模型大小和隨機類型。不過，如果您選擇會對評估資料產生「最佳」預測效能的模型參數設定，您可能會過度擬合模型。當模型記住訓練和評估資料來源中發生的模式，但無法一般化資料中的模式，就會發生過度擬合。它通常發生在訓練資料包含用於評估的所有資料。過度擬合的模型在評估期間表現良好，但無法對未知資料進行準確的預測。

為了避免選取過度擬合的模型做為最佳模型，您可以保留額外的資料來驗證 ML 模型的效能。例如，您可以將您的資料分為 60% 用於訓練、20% 用於評估，其他 20% 用於驗證。在選擇很適合執行評估資料的模型參數後，您須使用驗證資料執行第二個評估，以查看 ML 模型對於驗證資料的執行效能。如果模型在驗證資料上符合您的期望，就表示模型未過度擬合資料。

使用第三組資料進行驗證，可協助您選擇適當的 ML 模型參數以防止過度擬合。不過，從訓練程序提取用於評估和驗證的資料，會讓可用於訓練的資料變得更少。這是小型資料集要特別留意的問題，因為能用於訓練的資料總是越多越好。若要解決這個問題，您可以執行交叉驗證。如需交叉驗證的詳細資訊，請參閱交叉驗證。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

資料重新安排

ML 模型深入分析