本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
模型訓練完成後,Amazon Fraud Detector 會使用 15% 的資料來驗證模型效能,而這些資料並非用來訓練模型。您可以預期已訓練的 Amazon Fraud Detector 模型具有與驗證效能指標類似的實際詐騙偵測效能。
身為企業,您必須在偵測更多詐騙,以及為合法客戶增加更多摩擦之間取得平衡。為了協助選擇正確的平衡,Amazon Fraud Detector 提供下列工具來評估模型效能:
-
分數分佈圖 – 模型分數分佈的長條圖假設 100,000 個事件的範例群體。左側 Y 軸代表合法事件,右側 Y 軸代表詐騙事件。您可以按一下圖表區域來選取特定的模型閾值。這將更新混淆矩陣和 ROC 圖表中的對應檢視。
-
混淆矩陣 – 透過比較模型預測與實際結果,摘要指定分數閾值的模型準確性。Amazon Fraud Detector 會假設 100,000 個事件的範例人口。詐騙和合法事件的分佈會模擬您企業中的詐騙率。
真陽性 – 此模型可預測詐騙,而事件實際上是詐騙。
誤報 – 此模型預測詐騙,但事件實際上是合法的。
真正的負面:模型預測合法,而事件實際上是合法的。
錯誤負面:模型預測合法,但事件實際上是詐騙。
-
真陽性率 (TPR) – 模型偵測到的總詐騙百分比。也稱為擷取速率。
-
偽陽性率 (FPR) – 錯誤預測為詐騙的總合法事件百分比。
-
接收者運算子曲線 (ROC) – 在所有可能的模型分數閾值中,以偽陽性率函數繪製真正的陽性率。選擇進階指標來檢視此圖表。
-
曲線下面積 (AUC) – 總結所有可能模型分數閾值的 TPR 和 FPR。沒有預測能力的模型 AUC 為 0.5,而完美模型的分數為 1.0。
-
不確定範圍 – 它會顯示模型預期 AUC 的範圍。範圍較大 (AUC 上限和下限的差異 > 0.1) 表示模型不確定性較高。如果不確定性範圍很大 (>0.1),請考慮提供更多已標記的事件並重新訓練模型。
使用模型效能指標
-
從分數分佈圖表開始,檢閱詐騙和合法事件模型分數的分佈。理想情況下,您會在詐騙和合法事件之間有明確的區隔。這表示模型可以準確識別哪些事件是詐騙事件,哪些是合法的事件。按一下圖表區域以選取模型閾值。您可以看到調整模型分數閾值如何影響您的真陽性和偽陽性率。
注意
分數分佈圖表會在兩個不同的 Y 軸上繪製詐騙和合法事件。左側 Y 軸代表合法事件,右側 Y 軸代表詐騙事件。
-
檢閱混淆矩陣。根據您選取的模型分數閾值,您可以根據 100,000 個事件的範例看到模擬的影響。詐騙和合法事件的分佈會模擬您企業中的詐騙率。使用此資訊尋找真陽性率和偽陽性率之間的正確平衡。
-
如需其他詳細資訊,請選擇進階指標。使用 ROC 圖表來了解任何模型分數閾值的真陽性率和偽陽性率之間的關係。ROC 曲線可協助您微調真陽性率和偽陽性率之間的權衡。
注意
您也可以選擇資料表,以資料表形式檢閱指標。
資料表檢視也會顯示指標精確度。精確度是與預測為詐騙的所有事件相比,正確預測為詐騙事件的百分比。
-
使用效能指標,根據您的目標和詐騙偵測使用案例,判斷企業的最佳模型閾值。例如,如果您計劃使用 模型將新帳戶註冊分類為高風險、中等風險或低風險,則需要識別兩個閾值分數,以便您可以草擬三個規則條件,如下所示:
-
分數 > X 是高風險
-
分數 < X 但 > Y 為中等風險
-
分數 < Y 為低風險
-