模型變數重要性 - Amazon Fraud Detector

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

模型變數重要性

模型變數重要性是 Amazon Fraud Detector 的一項功能,可在模型版本中對模型變數進行排名。每個模型變數都會根據其對模型整體效能的相對重要性來提供一個值。與該模型版本的資料集中的其他模型變數相比,具有最高值的模型變數對模型來說更為重要,預設會列在頂端。同樣地,預設情況下,具有最低值的模型變數會列在底部,而且與其他模型變數相比最不重要。使用模型變數重要性值,您可以深入瞭解哪些輸入會驅動模型效能。

您可以在 Amazon Fraud Detector 主控台或使用 DescribeModelVersionAPI,檢視訓練模型版本的模型變數重要性值。

模型變數重要性為用於訓練模型版本的每個變數提供下列一組值。

  • 變數類型:變數類型 (例如 IP 位址或電子郵件)。如需詳細資訊,請參閱變數類型。對於帳戶接管洞察 (ATI) 模型,Amazon Fraud Detector 為原始和彙總變數類型提供可變重要性值。原始變數類型會指派給您提供的變數。彙總變數類型會指派給 Amazon Fraud Detector 結合以計算彙總重要性值的一組原始變數。

  • 變數名稱:用來訓練模型版本的事件變數名稱 (例如ip_addressemail_addressare_creadentials_valid)。如果是彙總變數類型,則會列出用來計算彙總變數重要性值的所有變數名稱。

  • 變數重要性值:代表原始或彙總變數對模型效能的相對重要性的數字。典型範圍:0 到 10

在 Amazon Fraud Detector 主控台中,線上詐騙洞見 (OFI) 或交易詐騙洞見 (TFI) 模型的模型變數重要性值顯示如下。帳戶接管洞察 (ATI) 模型除了原始變數的重要性值之外,還會提供彙總變數重要性值。視覺化圖表可讓您輕鬆查看變數之間的相對重要性,並使用垂直虛線來參考排名最高變數的重要性。

模型變量重要性圖表。

Amazon Fraud Detector 會為每個 Fraud Detector 模型版本產生可變重要性值,無需額外費用。

重要

2021 年 7 月 9 日之前建立的模型版本沒有變數重要性值。您必須訓練模型的新版本,以產生模型變數重要性值。

使用模型變數重要性值

您可以使用模型變數重要性值,深入瞭解模型的提升或下降效能,以及哪些變數的貢獻最大。然後調整您的模型以提高整體性能。

更具體地說,為了提高模型效能,請根據您的領域知識檢查變數重要性值,並對訓練資料中的問題進行除錯。例如,如果帳戶 ID 被用作模型的輸入,並且它列在頂部,請查看其變量重要性值。如果變數重要性值明顯高於其餘值,則您的模型可能會過度擬合特定詐騙模式 (例如,所有詐騙事件都來自相同的帳戶 ID)。但是,如果變量取決於欺詐標籤,則也可能出現標籤洩漏的情況。根據您的領域知識分析的結果,您可能想要刪除變量並使用更多樣化的數據集進行訓練,或保持模型原樣。

同樣,看看最後排名的變量。如果變數重要性值明顯低於其餘值,則此模型變數在訓練模型時可能沒有任何重要性。您可以考慮刪除變量來訓練更簡單的模型版本。如果您的模型有很少的變數 (例如只有兩個變數),Amazon Fraud Detector 仍會提供變數重要性值並對變數進行排序。但是,在這種情況下,見解將受到限制。

重要
  1. 如果您發現 Model 變數重要性圖表中遺失了變數,可能是下列其中一個原因所造成的。請考慮修改資料集中的變數,然後重新訓練模型。

    • 訓練資料集中變數的唯一值計數低於 100。

    • 訓練資料集遺失大於 0.9 的變數值。

  2. 每次要調整模型的輸入變數時,都需要訓練新的模型版本。

評估模型變數重要性值

我們建議您在評估模型變數重要性值時考慮下列事項:

  • 變數重要性值必須始終與領域知識結合進行評估。

  • 檢查變數的變數重要性值,相對於模型版本中其他變數的變數重要性值。請勿獨立考慮單一變數的變數重要性值。

  • 比較相同模型版本內變數的變數重要性值。請勿在模型版本中比較相同變數的變數重要性值,因為模型版本中變數的變數重要性值可能與不同模型版本中相同變數的值不同。如果您使用相同的變數和資料集來訓練不同的模型版本,這不一定會產生相同的變數重要性值。

檢視模型變數重要性等級

模型訓練完成後,您可以在 Amazon Fraud Detector 主控台或使用 DescribeModelVersionAPI 檢視訓練模型版本的模型變數重要性排名。

若要使用主控台檢視模型變數重要性排名,
  1. 開啟主AWS控台並登入您的帳戶。導航到 Amazon Fraud Detector。

  2. 在左側導覽窗格中選擇 Models (模型)

  3. 選擇您的型號,然後選擇模型版本。

  4. 確定已選取 [概觀] 索引標籤。

  5. 向下捲動以檢視「模型」變數重要性窗格。

瞭解如何計算模型變數重要性值

完成每個模型版本訓練後,Amazon Fraud Detector 會自動產生模型變數重要性值和模型的效能指標。為此,Amazon Fraud Detector 使用沙普利添加劑解釋(SHAP)。在考慮了所有模型變量的所有可能組合之後,SHAP 基本上是模型變量的平均預期貢獻。

SHAP 首先為事件的預測分配每個模型變量的貢獻。然後,它彙總這些預測,以在模型層級建立變數的排名。為了分配預測的每個模型變量的貢獻,SHAP 考慮所有可能的變量組合之間的模型輸出差異。通過包括包含或刪除特定變量集以生成模型輸出的所有可能性,SHAP 可以準確地訪問每個模型變量的重要性。當模型變量彼此之間高度相關時,這一點尤其重要。

在大多數情況下,ML 模型不允許您移除變數。您可以改用一或多個基準線 (例如,非詐騙事件) 中的對應變數值來取代模型中移除或遺失的變數。選擇適當的基準執行個體可能很困難,但 Amazon Fraud Detector 會將此基準設定為您的平均人口,從而簡化這項工作。