評估提醒 - Amazon Machine Learning

我們不再更新 Amazon Machine Learning 服務或接受新使用者。本文件適用於現有使用者,但我們不再對其進行更新。如需詳細資訊,請參閱什麼是 Amazon Machine Learning

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

評估提醒

Amazon ML 提供深度見解,協助您驗證是否正確地評估模型。如果評估不符合任何驗證條件,則 Amazon ML 主控台會顯示已違反的驗證條件來提醒您,如下所示。

  • ML 模型是使用留存資料進行評估

    如果您使用相同的資料來源進行培訓和評估,則 Amazon ML 會提醒您。如果您使用 Amazon ML 來分割資料,則會符合這個有效條件。如果您未使用 Amazon ML 來分割資料,請務必使用培訓資料來源以外的資料來源來評估 ML 模型。

  • 足夠的資料用於評估預測模型

    如果評估資料中的觀察/記錄資料來源中的觀察資料來源中觀察資料來源中的觀察資料來源之 10%,則 Amazon ML 會提醒您。若要正確地評估模型,請務必提供足夠的大型資料範例。此條件會提供檢查,讓您知道是否使用太少的資料。評估 ML 模型所需的資料量十分主觀。在此選取 10% 作為沒有較佳計量的臨時措施。

  • 符合的結構描述

    如果培訓和評估資料來源的結構描述不同,則 Amazon ML 會提醒您。如果您的特定屬性不存在於評估資料來源,或您有其他屬性,則 Amazon ML 會顯示此提醒。

  • 評估檔案中的所有記錄都用於預測模型效能評估

    請務必了解提供進行評估的所有記錄實際上都用於評估模型。如果評估資料來源中的一些記錄無效,而且未包含在計算準確性指標,則 Amazon ML 會提醒您。例如,如果評估資料來源中的某些觀察遺失目標變數,則 Amazon ML 無法檢查 ML 模型的這些觀察預測正確。在這種情況下,會將具有遺漏目標值的記錄視為無效。

  • 目標變數的分佈

    Amazon ML 顯示如何培訓和評估資料來源之目標屬性的分佈,讓您可以檢是否在兩個資料來源中以類似的方式分佈目標。如果根據目標分佈與評估資料上目標分佈不同的培訓資料來培訓模型,則評估品質可能不佳,因為會根據具有極不同統計資料的資料來計算它。最好以類似的方式將資料分佈到培訓和評估資料,並讓這些資料集盡可能模仿模型在預測時將遇到的資料。

    如果觸發此提醒,請嘗試使用隨機分割策略,將資料分割為培訓和評估資料來源。在極少數的情況下,這個提醒可能會錯誤地警告您有關目標分佈差異,即使您隨機分割資料也是一樣。Amazon ML 使用大約的資料統計資料來評估資料分佈,偶而會錯誤地觸發此提醒。