用於可解釋性的 SHAP 基準 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

用於可解釋性的 SHAP 基準

如前所述,可解釋性通常是相反的 (也就是說,其說明偏離基準的情況)。因此,對於相同的模型預測,您可以期望獲得相對於不同基準的不同解釋。因此,您選擇的基準至關重要。在機器學習 (ML) 的情境中,基準會對應至可能無資訊資訊豐富的假設執行個體。在計算 Shapley 值期間, SageMaker Cleven 會在基準線和指定例證之間產生數個新例證,其中缺少特徵的情況下,可透過將特徵值設定為基準線的值來建模,並透過將特徵值設定為指定例證的值來建模特徵的存在。因此,沒有所有特徵對應到基準,並且所有特徵的存在對應到特定執行個體。

您如何選擇好的基準? 通常需要選擇具有非常低資訊內容的基準。例如,您可以透過取得數值特徵的中位數或平均值以及分類特徵的模式,從訓練資料集建構平均執行個體。對於大學招生的範例,您可能有興趣解釋與平均申請人的基準接受率相比,為什麼特定申請人被接受了。如果未提供,則基準線會透過在輸入資料集中使用 K 均值或 K 原型進行 SageMaker 澄清來自動計算。

或者,您也可以選擇產生資訊基準的說明。對於大學招生的情況,您可能想解釋為什麼與有相似人口統計背景的其他申請人相比,某特定申請人被拒絕了。在這種情況下,您可以選擇代表關注的申請人基準,即有類似人口統計背景的申請人。因此,您可以使用資訊性基準,將分析集中在特定模型預測的特定面向。您可以將人口統計屬性和其他不符合您的特徵設定為與指定執行個體相同的值,以隔離要評估的特徵。