使用相符項目可信度分數估計相符項目的品質 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用相符項目可信度分數估計相符項目的品質

相符項目可信度分數提供 FindMatches 所找到之相符項目的品質估計,以區分機器學習模型中具有高度自信、不確定或不太可能的相符記錄。相符項目可信度分數介於 0 到 1 之間,其中分數越高,表示相似度越高。檢查相符項目可信度分數可讓您區分系統高度可信 (您可能會決定合併) 的相符項目叢集、系統不確定的叢集 (您可能會決定安排人工檢閱),以及系統認為不太可能的叢集 (可能會決定拒絕)。

如果您看到高相符項目可信度分數,但確定沒有相符項目;或是看到低分數,但實際上確定有相符項目,則可能要調整自己的訓練資料。

存在大規模產業資料集時,可信度分數就特別有用,因為檢閱每個 FindMatches 決定是不切實際的行為。

相符項目可信度分數在 AWS Glue 2.0 或更高版本中推出。

產生相符項目可信度分數

您可以在呼叫 FindMatchesFindIncrementalMatches API 時將 computeMatchConfidenceScores 的布林值設定為 True,即可產生相符項目可信度分數。

AWS Glue 將新的 column match_confidence_score 新增至輸出。

相符項目評分範例

例如,請考慮下列相符的記錄:

分數 >= 0.9

相符記錄的摘要:

primary_id | match_id | match_confidence_score 3281355037663 85899345947 0.9823658302132061 1546188247619 85899345947 0.9823658302132061

詳細資訊:

網際網路閘道的路由表範例。

在此範例中,我們可以看到兩條記錄非常相似,共同具有 display_positionprimary_namestreet name

分數 >= 0.8 和分數 < 0.9

相符記錄的摘要:

primary_id | match_id | match_confidence_score 309237680432 85899345928 0.8309852373674638 3590592666790 85899345928 0.8309852373674638 343597390617 85899345928 0.8309852373674638 249108124906 85899345928 0.8309852373674638 463856477937 85899345928 0.8309852373674638

詳細資訊:

網際網路閘道的路由表範例。

在此範例中,我們可以看到這些記錄具有相同的 primary_namecountry

分數 > = 0.6 和分數 < 0.7

相符記錄的摘要:

primary_id | match_id | match_confidence_score 2164663519676 85899345930 0.6971099896480333 317827595278 85899345930 0.6971099896480333 472446424341 85899345930 0.6971099896480333 3118146262932 85899345930 0.6971099896480333 214748380804 85899345930 0.6971099896480333

詳細資訊:

網際網路閘道的路由表範例。

在此範例中,我們可以看到這些記錄僅具有相同的 primary_name

如需詳細資訊,請參閱: