模型擬合:低度擬合與過度擬合 - Amazon Machine Learning

我們不再更新 Amazon Machine Learning 服務或接受新使用者。本文件適用於現有使用者,但我們不再對其進行更新。如需詳細資訊,請參閱什麼是 Amazon Machine Learning

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

模型擬合:低度擬合與過度擬合

了解模型擬合對於了解模型準確性不佳的根本原因相當重要。了解此項可引導您採取修正步驟。查看訓練資料和評估資的預測誤差,即可判斷預測模型是低度擬合還是過度擬合訓練資料。

當模型對訓練資料的執行效能不佳,您的模型是「低度擬合」訓練資料。這是因為模型無法擷取輸入範例 (通常稱為 X) 和目標值 (通常稱為 Y) 之間的關係。當您看到模型對訓練資料有很好的執行效果,但是對於評估資料無法執行得很好,您的模型是「過度擬合」訓練資料。這是因為模型是記憶它看到的資料,但無法一般化未知的範例。

對於訓練資料效能不佳,可能是因為模型太過簡單 (輸入特徵不夠豐富),無法充分描述目標。您可以透過增加模型彈性來改進效能。若要提高模型彈性,請嘗試以下操作:

  • 增加新的領域特定特徵和更多笛卡兒乘積特徵,以及變更特徵處理使用的類型 (例如,提高 n 元語法的大小)

  • 減少使用的正規化數量

如果您的模型過度擬合訓練資料,採取降低模型彈性的措施是有道理的。若要降低模型彈性,請嘗試以下操作:

  • 特徵選擇:考慮使用較少的特徵組合、減少 n 元語法的大小,以及減少數值屬性分箱數。

  • 增加使用的正規化數量。

如果學習演算法沒有足夠的資料可供學習,訓練和測試資料的準確性可能不佳。您可以執行以下動作來提升效能:

  • 增加訓練資料範例的數量。

  • 增加現有訓練資料的通過次數。