我們不再更新 Amazon Machine Learning 服務或接受新的使用者。本文件可供現有使用者使用,但我們不再更新。如需詳細資訊,請參閱什麼是 Amazon Machine Learning。
本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon ML 提供洞見,協助您驗證是否正確評估模型。如果評估不符合任何驗證條件,Amazon ML 主控台會顯示已違反的驗證條件來提醒您,如下所示。
-
ML 模型是使用留存資料進行評估
如果您使用相同的資料來源進行訓練和評估,Amazon ML 會提醒您。如果您使用 Amazon ML 分割資料,您將符合此有效性條件。如果您不使用 Amazon ML 分割資料,請務必使用訓練資料來源以外的資料來源來評估您的 ML 模型。
-
足夠的資料用於評估預測模型
如果評估資料中的觀察/記錄數量少於您在訓練資料來源中觀察的 10%,Amazon ML 會提醒您。若要正確地評估模型,請務必提供足夠的大型資料範例。此條件會提供檢查,讓您知道是否使用太少的資料。評估 ML 模型所需的資料量是主觀的。此處選擇 10% 作為停止差距,因為沒有更好的措施。
-
符合的結構描述
如果訓練和評估資料來源的結構描述不同,Amazon ML 會提醒您。如果您有某些屬性不存在於評估資料來源中,或有其他屬性,Amazon ML 會顯示此提醒。
-
評估檔案中的所有記錄都用於預測模型效能評估
請務必了解提供用於評估的所有記錄是否實際用於評估模型。如果評估資料來源中的某些記錄無效,且未包含在準確性指標運算中,Amazon ML 會提醒您。例如,如果評估資料來源中的某些觀察缺少目標變數,Amazon ML 無法檢查 ML 模型對這些觀察的預測是否正確。在這種情況下,會將具有遺漏目標值的記錄視為無效。
-
目標變數的分佈
Amazon ML 會顯示訓練和評估資料來源中目標屬性的分佈,以便您可以檢閱目標是否在兩個資料來源中以類似方式分佈。如果根據目標分佈與評估資料上目標分佈不同的培訓資料來培訓模型,則評估品質可能不佳,因為會根據具有極不同統計資料的資料來計算它。最好以類似的方式將資料分佈到培訓和評估資料,並讓這些資料集盡可能模仿模型在預測時將遇到的資料。
如果觸發此提醒,請嘗試使用隨機分割策略,將資料分割為培訓和評估資料來源。在極少數情況下,即使您隨機分割資料,此提醒仍可能會錯誤地警告您目標分佈差異。Amazon ML 使用近似資料統計資料來評估資料分佈,偶爾會錯誤觸發此提醒。