本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS Clean Rooms ML 模型評估指標
無塵室 ML 會計算召回和相關性分數,以決定模型的效能。召回比較相似資料和訓練資料之間的相似性。相關性分數用於決定受眾應該有多大,而不是模型是否表現良好。
召回是相似區段與訓練資料有多相似的公正度量。召回是受眾產生工作包含在種子對象中之訓練資料範例中,最相似的使用者 (預設情況下,最相似的 20%) 的百分比。值的範圍介於 0 到 1 之間。較大的值表示受眾越好。召回值大約等於最大資料桶百分比表示對象模型等於隨機選取。
我們認為這是一個比準確性,精確度和 F1 分數更好的評估指標,因為 Clean Rooms ML 在構建模型時沒有準確地標記真正的負面用戶。
區段層級相關性分數是一種相似度的度量,其值範圍從 -1 (最相似) 到 1 (最相似)。Clean Rooms ML 會針對各種區段大小計算一組相關性分數,以協助您判斷資料的最佳區段大小。相關性分數會隨著區段大小的增加而單調地減少;因此,隨著區段大小的增加,它可能與種子資料不太相似。當區段層級相關性分數達到 0 時,模型會預測相似區段中的所有使用者都來自與種子資料相同的分佈。增加輸出大小可能會將相似區段中的使用者納入與種子資料不同散佈的使用者。
相關性分數會在單一促銷活動中標準化,不應用於跨宣傳活動進行比較。相關性分數不應該用作任何業務結果的單一來源證據。這是因為除了相關性之外,這些因素還受到多種複雜因素的影響,例如庫存質量,庫存類型和廣告時間。
相關性分數不應該用於判斷種子的質量,而應該使用它是否可以增加或減少。請考量下列範例:
-
所有正數分數 — 這表示預測為類似的輸出使用者多於包含在相似區段中的輸出使用者。這對於大型市場一部分的種子數據很常見,例如過去一個月購買牙膏的每個人。我們建議您查看較小的種子數據,例如在過去一個月購買牙膏一次以上的每個人。
-
所有負片都會為您想要的相似區段大小得分或負數 — 這表示 Clean Rooms ML 預測所需的相似區段大小中沒有足夠的類似使用者。這可能是因為種子數據太具體或市場太小。我們建議您對種子資料套用較少的篩選器,或是擴大市場。例如,如果原始種子數據是購買嬰兒車和汽車座椅的客戶,則可以將市場擴展到購買多個嬰兒產品的客戶。
訓練資料提供者會決定是否公開相關性分數,以及計算相關性分數的值區資料桶。