本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用相符項目可信度分數估計相符項目的品質
相符項目可信度分數提供 FindMatches 所找到之相符項目的品質估計,以區分機器學習模型中具有高度自信、不確定或不太可能的相符記錄。相符項目可信度分數介於 0 到 1 之間,其中分數越高,表示相似度越高。檢查相符項目可信度分數可讓您區分系統高度可信 (您可能會決定合併) 的相符項目叢集、系統不確定的叢集 (您可能會決定安排人工檢閱),以及系統認為不太可能的叢集 (可能會決定拒絕)。
如果您看到高相符項目可信度分數,但確定沒有相符項目;或是看到低分數,但實際上確定有相符項目,則可能要調整自己的訓練資料。
存在大規模產業資料集時,可信度分數就特別有用,因為檢閱每個 FindMatches 決定是不切實際的行為。
相符項目可信度分數在 AWS Glue 2.0 或更高版本中推出。
產生相符項目可信度分數
您可以在呼叫 FindMatches
或 FindIncrementalMatches
API 時將 computeMatchConfidenceScores
的布林值設定為 True,即可產生相符項目可信度分數。
AWS Glue 將新的 column match_confidence_score
新增至輸出。
相符項目評分範例
例如,請考慮下列相符的記錄:
分數 >= 0.9
相符記錄的摘要:
primary_id | match_id | match_confidence_score 3281355037663 85899345947 0.9823658302132061 1546188247619 85899345947 0.9823658302132061
詳細資訊:
在此範例中,我們可以看到兩條記錄非常相似,共同具有 display_position
、primary_name
和 street name
。
分數 >= 0.8 和分數 < 0.9
相符記錄的摘要:
primary_id | match_id | match_confidence_score 309237680432 85899345928 0.8309852373674638 3590592666790 85899345928 0.8309852373674638 343597390617 85899345928 0.8309852373674638 249108124906 85899345928 0.8309852373674638 463856477937 85899345928 0.8309852373674638
詳細資訊:
在此範例中,我們可以看到這些記錄具有相同的 primary_name
和 country
。
分數 > = 0.6 和分數 < 0.7
相符記錄的摘要:
primary_id | match_id | match_confidence_score 2164663519676 85899345930 0.6971099896480333 317827595278 85899345930 0.6971099896480333 472446424341 85899345930 0.6971099896480333 3118146262932 85899345930 0.6971099896480333 214748380804 85899345930 0.6971099896480333
詳細資訊:
在此範例中,我們可以看到這些記錄僅具有相同的 primary_name
。
如需詳細資訊,請參閱:
PySpark:FindMatches 類別
PySpark:FindIncrementalMatches 類別
Scala:FindMatches 類別