使用塑形值的特徵屬性 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用塑形值的特徵屬性

SageMaker 「澄清」會根據沙普利值的概念提供特徵屬性。您可以使用夏普利值來決定每個特徵對模型預測所做的貢獻。可以針對特定的預測和整體模型的全體層級提供這些屬性。例如,如果您使用 ML 模型計算大學入學率,這些說明可以幫助確定 GPA 或 SAT 分數是否與模型預測最有關的特徵,然後您可以確定每個特徵與對決定特定學生入學決定有關。

SageMaker 澄清從博弈論中汲取了沙普利價值觀的概念,並將其部署在機器學習環境中。夏普利值提供了一種量化每個玩家對遊戲貢獻的方法,因此可以根據他們的貢獻將遊戲產生的總收益分配給玩家。在這個機器學習環境中 SageMaker ,Cleven 會將特定執行個體上模型的預測視為遊戲,而模型中包含的功能則視為玩家對於第一個近似值,您可能會試圖透過量化從模型中捨棄該特徵或從模型中捨棄所有其他特徵的結果,來確定每個特徵的邊際貢獻或效果。但是,此方法並不考慮模型中包含的特徵通常彼此不獨立。例如,如果兩個特徵高度相關,則捨棄其中一個特徵可能不會大幅改變模型預測。

為了解決這些潛在的相依性,夏普利值請求必須考慮每個可能特徵組合(或結合)的結果,以確定每個特徵的重要性。給定 d 特徵,有 2 d 這種可能的特徵組合,每個都對應到一個潛在的模型。若要確定特定特徵 f 的歸因,請考慮在所有不包含 f 的特徵組合(和關聯的模型)中包含 f 的邊際貢獻,並取平均值。可以證明,夏普利值是分配滿足某些所需屬性之每個特徵的貢獻或重要性的獨特方式。特別是,每個特徵的夏普利值總和對應到模型預測與無特徵的虛擬模型之間的差異。然而,即使對於合理的價值 d,比如說 50 個特徵,計算上是無法負擔且不切實際訓練 2d 可能的模型。其結果是, SageMaker 澄清需要利用各種近似技術。為了達到這個目的, SageMaker 澄清使用 Shapley 加法解釋(SHAP),它包含了這樣的近似值,並通過其他優化設計了內核 SHAP 算法的可擴展和高效實現。

有關夏普利值的其他資訊,請參閱模型預測的統一解釋方法