指標參考 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

指標參考

以下各節說明 Amazon SageMaker Canvas 中針對每種模型類型提供的指標。

數值預測的指標

下列清單定義 SageMaker Canvas 中數值預測的量度,並提供有關如何使用它們的資訊。

  • InferenceLatency — 從提出模型預測請求到從部署模型的即時端點接收模型預測之間的大約時間。此量度以秒為單位測量,僅適用於使用「合奏」模式建立的模型。

  • MAE - 絕對平均值錯誤。平均而言,目標欄的預測與實際值相比為 +/-{MAE}。

    測量所有值的平均值時,預測值和實際值的不同程度。MAE 通常用於數字預測,以了解模型預測誤差。如果預測是線性的,MAE 表示從預測線到實際值的平均距離。MAE 被定義為絕對值誤差的總和,除以觀測值的數量。其數值範圍從 0 到無限大,數字越小,表示模型越適合資料。

  • MAPE - 平均絕對百分比誤差。平均而言,目標資料欄的預測距離實際值為 +/-{MAPE}%。

    MAPE 是實際值與預測值或估計值之間絕對差異的平均值,除以實際值並以百分比表示。較低的 MAPE 表示效能較佳,因為這表示預測值或估計值更接近實際值。

  • MSE — 平均平方誤差,或預測值和實際值之間的平方差異的平均值。

    MSE 值始終為正值。MSE 值越小,模型預測實際值的能力越好。

  • R2 - 目標欄中的差異百分比,可由輸入目標欄說明。

    量化多少模型可以解釋一個依賴變量的方差。數值的範圍從一 (1) 到負一 (-1)。較高的數字表示解釋的變異性較高的分數。接近零 (0) 的值表示很少的相依變數可以由模型解釋。負值表示擬合不良,且常數函數 (或水平線) 的效能優於模型。

  • RMSE — 均方根誤差,或誤差的標準差。

    測量預測值和實際值之間的平方差異的平方根,並對所有值進行平均。它用於瞭解模型預測錯誤,並且它是指示存在大型模型錯誤和異常值的重要指標。其數值範圍從零 (0) 到無限大,數字越小,表示模型越適合資料。RMSE 依賴於規模,不應該用於比較不同類型的數據集。

分類預測指標

本節定義 SageMaker Canvas 中分類預測的指標,並提供有關如何使用它們的信息。

以下是雙類別預測的可用量度清單:

  • 準確性 - 正確預測的百分比。

    或者,正確預測的項目數量與預測總數的比率。準確性衡量預測的類別值與實際值的接近程度。準確性指標的值在零 (0) 和一 (1) 之間變化。值 1 表示完美的精確度,0 表示完全不準確。

  • AUC - 介於 0 到 1 之間的值,表示您的模型能夠在資料集中分隔類別的程度。值 1 表示它能夠完美地分隔類別。

  • BalancedAccuracy — 測量準確預測與所有預測的比率。

    這個比率是把真陽性 (TP) 和真陰性 (TN),按照陽性 (P) 和陰性 (N) 的總數標準化之後計算出來的。它的定義如下:0.5*((TP/P)+(TN/N)),其值範圍從 0 到 1。當不平衡的資料集中的正數或負數相互不同時 (例如只有 1% 的電子郵件是垃圾郵件時),平衡準確度量可提供更好的準確度量。

  • F1 - 準確度的平衡衡量,其會考慮類別平衡。

    它是精度和召回分數的調和平均值,定義如下:F1 = 2 * (precision * recall) / (precision + recall)。F1 評分在 0 和 1 之間變化。評分 1 表示效能已達可能性的上限,0 表示最差。

  • InferenceLatency — 從提出模型預測請求到從部署模型的即時端點接收模型預測之間的大約時間。此量度以秒為單位測量,僅適用於使用「合奏」模式建立的模型。

  • LogLoss -日誌損失,也稱為跨熵損失,是用於評估概率輸出質量的度量,而不是輸出本身。對數損失是一項重要指標,能指出模型何時有高機率發生錯誤預測。其數值介於 0 到無限大之間。如數值為 0,代表完美預測資料的模型。

  • 精度-在預測 {類別 x} 的所有時間中,預測是正確的 {精度} % 的時間。

    精確度衡量演算法在所有找到的陽性結果中,預測出真陽性 (TP) 的成效。它的定義如下:Precision = TP/(TP+FP),其值範圍從零(0)到一(1)。當假陽性的成本高時,精確度是一個重要的指標。舉例來說,一個飛機安全系統被錯誤地判定為可安全飛行,這個假陽性的成本就非常高。假陽性 (FP) 反映了資料中實際上是陰性的陽性預測。

  • 召回-該模型正確地預測 {召回} % 當 {目標 _ 列} 是 {類別 x} 實際上是 {類別 X}。

    召回率衡量演算法在資料集內,正確預測所有的真陽性 (TP) 的表現。真陽性代表其為一個陽性預測,同時也是資料中的實際陽性。召回定義如下:Recall = TP/(TP+FN),具有範圍從 0 到 1 的值。分數越高,代表模型在資料中預測出真陽性 (TP) 的能力越好。請注意,僅測量召回通常不足,因為將每個輸出預測為真正的正值會產生完美的召回分數。

以下是 3+ 類別預測的可用指標清單:

  • 準確性 - 正確預測的百分比。

    或者,正確預測的項目數量與預測總數的比率。準確性衡量預測的類別值與實際值的接近程度。準確性指標的值在零 (0) 和一 (1) 之間變化。值 1 表示完美的精確度,0 表示完全不準確。

  • BalancedAccuracy — 測量準確預測與所有預測的比率。

    這個比率是把真陽性 (TP) 和真陰性 (TN),按照陽性 (P) 和陰性 (N) 的總數標準化之後計算出來的。它的定義如下:0.5*((TP/P)+(TN/N)),其值範圍從 0 到 1。當不平衡的資料集中的正數或負數相互不同時 (例如只有 1% 的電子郵件是垃圾郵件時),平衡準確度量可提供更好的準確度量。

  • F1Macro-F1Macro 分數通過計算精度和調用來應用 F1 得分,然後採用其諧波平均值來計算每個類的 F1 分數。然後,F1Macro 對個別分數進行平均,以獲得 F1Macro 得分。F1 宏分數在 0 和 1 之間變化。評分 1 表示效能已達可能性的上限,0 表示最差。

  • InferenceLatency — 從提出模型預測請求到從部署模型的即時端點接收模型預測之間的大約時間。此量度以秒為單位測量,僅適用於使用「合奏」模式建立的模型。

  • LogLoss -日誌損失,也稱為跨熵損失,是用於評估概率輸出質量的度量,而不是輸出本身。對數損失是一項重要指標,能指出模型何時有高機率發生錯誤預測。其數值介於 0 到無限大之間。如數值為 0,代表完美預測資料的模型。

  • PrecisionMacro — 透過計算每個類別的精確度和平均分數,以取得多個類別的精確度來測量精確度。分數範圍從零 (0) 到一 (1)。分數高表示這個模型在所有找到的陽性結果中,預測出真陽性 (TP) 的成效顯著,而且是在好幾個類別裡平均算出來的。

  • RecallMacro — 通過計算每個班級的召回和平均分數來獲得幾個班級的召回措施召回. 分數範圍從 0 到 1。分數越高,就表示這模型預測出資料集裡的真陽性 (TP) 能力越強。真陽性指的是其預測是陽性,而在資料裡實際上也是陽性。通常只測量召回率是不夠的, 因為只要預測每個輸出都是真陽性,就能獲得完美的召回率分數。

請注意,對於 3 個以上的類別預測,您還會收到平均 F1、準確度、精確度和召回量度。這些指標的分數只是所有類別的平均量度分數。

圖像和文本預測指標

以下是影像預測和文字預測的可用量度清單。

  • 準確性 - 正確預測的百分比。

    或者,正確預測的項目數量與預測總數的比率。準確性衡量預測的類別值與實際值的接近程度。準確性指標的值在零 (0) 和一 (1) 之間變化。值 1 表示完美的精確度,0 表示完全不準確。

  • F1 - 準確度的平衡衡量,其會考慮類別平衡。

    它是精度和召回分數的調和平均值,定義如下:F1 = 2 * (precision * recall) / (precision + recall)。F1 評分在 0 和 1 之間變化。評分 1 表示效能已達可能性的上限,0 表示最差。

  • 精度-在預測 {類別 x} 的所有時間中,預測是正確的 {精度} % 的時間。

    精確度衡量演算法在所有找到的陽性結果中,預測出真陽性 (TP) 的成效。它的定義如下:Precision = TP/(TP+FP),其值範圍從零(0)到一(1)。當假陽性的成本高時,精確度是一個重要的指標。舉例來說,一個飛機安全系統被錯誤地判定為可安全飛行,這個假陽性的成本就非常高。假陽性 (FP) 反映了資料中實際上是陰性的陽性預測。

  • 召回-該模型正確地預測 {召回} % 當 {目標 _ 列} 是 {類別 x} 實際上是 {類別 X}。

    召回率衡量演算法在資料集內,正確預測所有的真陽性 (TP) 的表現。真陽性代表其為一個陽性預測,同時也是資料中的實際陽性。召回定義如下:Recall = TP/(TP+FN),具有範圍從 0 到 1 的值。分數越高,代表模型在資料中預測出真陽性 (TP) 的能力越好。請注意,僅測量召回通常不足,因為將每個輸出預測為真正的正值會產生完美的召回分數。

請注意,對於您預測 3 個以上類別的影像和文字預測模型,您也會收到平均 F1、準確度、精確度和回復量度。這些指標的分數只是所有類別的量度平均分數。

時間序列預測的指標

以下內容定義 Amazon SageMaker Canvas 中時間序列預測的進階指標,並提供有關如何使用它們的資訊。

  • 平均加權分位數損失 (WQL) - 透過平均 P10、P50 和 P90 分位數的準確度來評估預測。較低的值表示較精確的模型。

  • 加權絕對誤差百分比 (WAPE) — 由絕對目標總和標準化的絕對誤差總和,測量預測值與觀測值之間的整體偏差。較低的值表示更精確的模型,其中 WAPE = 0 是沒有錯誤的模型。

  • 均方根誤差 (RMSE) - 平均平方誤差的平方根。較低的 RMSE 表示更精確的模型,其中 RMSE = 0 是沒有錯誤的模型。

  • 平均絕對百分比誤差 (MAPE) - 所有時間點的平均誤差百分比 (平均預測值與實際值的百分比差異)。較低的值表示更精確的模型,其中 MAPE = 0 是沒有錯誤的模型。

  • 平均絕對縮放誤差 (MASE) - 由簡單基準預測方法的平均絕對誤差標準化的預測的平均絕對誤差。較低的值表示更精確的模型,其中 MASE < 1 為預估值比基準線更好,MASE > 1 為預估值比基準線更差。