柯爾莫哥洛夫-斯米爾諾夫 (KS) - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

柯爾莫哥洛夫-斯米爾諾夫 (KS)

柯爾莫哥洛夫-斯米爾諾夫偏差量指標 (KS) 等於資料集構面 ad 的分布中標籤的最大發散。Clear 實施的兩個樣本 KS 測試 SageMaker 通過找到最不平衡的標籤來補充標籤不平衡的其他措施。

柯爾莫哥洛夫-斯米爾諾夫指標的公式如下:

        KS = max(|Pa(y) - Pd(y)|)

例如,假設一組申請人 (構面 a) 被大學拒絕,候補或接受分別為 40%、40%、20%,其他申請人 (構面 d) 的比率為 20%、10%、70%。然後,柯爾莫哥洛夫-斯米爾諾夫偏差指標值如下所示:

KS = max(|0.4-0.2|, |0.4-0.1|, |0.2-0.7|) = 0.5

這告訴我們構面分布之間的最大發散是 0.5,且發散是發生在接受率。方程式中有三項,因為標籤是基數 3 的多元分類。

二進位、多類別和連續性結果的 LP 值範圍為 [0, +1],其中:

  • 接近零的值顯示標籤在所有結果類別的構面之間均勻分布。例如,申請貸款的兩個構面都獲得了 50% 的接受率和 50% 的拒絕。

  • 一個附近的值顯示一個結果的標籤都在一個構面。例如,構面 a 獲得了 100% 的接受,而構面 d 沒有。

  • 間歇值顯示最大標籤不平衡的相對程度。