Estimation de la qualité des correspondances à l'aide des notes de confiance des correspondances - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Estimation de la qualité des correspondances à l'aide des notes de confiance des correspondances

Les notes de confiance des correspondances fournissent une estimation de la qualité des correspondances trouvées par FindMatches, afin de distinguer les registres trouvés pour lesquels le modèle de machine learning est très confiant, incertain ou improbable. Une note de confiance des correspondances sera comprise entre 0 et 1, alors qu'une note plus élevée signifie une similitude plus élevée. L'examen des notes de confiance des correspondances vous permet de distinguer les clusters de correspondances pour lesquels le système est très confiant (que vous pouvez décider de fusionner), les clusters dont le système est incertain (que vous pouvez décider de faire vérifier par un humain) et les clusters que le système juge improbables (que vous pouvez décider de rejeter).

Vous voudrez peut-être ajuster vos données d'entraînement dans des situations où vous constatez une note de confiance des correspondances élevées, mais déterminez qu'il n'y a pas de correspondances, ou lorsque vous voyez une note faible, mais déterminez qu'il y a en fait des correspondances.

Les notes de confiance sont particulièrement utiles lorsqu'il existe des jeux de données industriels de grande taille, où il est impossible de revoir chaque décision de FindMatches.

Les notes de confiance des correspondances sont disponibles dans la version 2.0 ou ultérieure de AWS Glue.

Génération des notes de confiance des correspondances

Vous pouvez générer des notes de confiance des correspondances en définissant la valeur booléenne de computeMatchConfidenceScores sur true (VRAI) lorsque vous appelez l'API FindMatches ou FindIncrementalMatches.

AWS Glue ajoute un nouveau column match_confidence_score à la sortie.

Exemples de notation des correspondances

Prenons l'exemple des registres de correspondance suivant :

Note >= 0,9

Résumé des registres correspondants :

primary_id | match_id | match_confidence_score 3281355037663 85899345947 0.9823658302132061 1546188247619 85899345947 0.9823658302132061

Détails :

Exemple de table de routage avec une passerelle Internet.

Dans cet exemple, nous pouvons voir que deux registres sont très similaires et partagent display_position, primary_name, et street name.

Note >= 0,8 et note < 0,9

Résumé des registres correspondants :

primary_id | match_id | match_confidence_score 309237680432 85899345928 0.8309852373674638 3590592666790 85899345928 0.8309852373674638 343597390617 85899345928 0.8309852373674638 249108124906 85899345928 0.8309852373674638 463856477937 85899345928 0.8309852373674638

Détails :

Exemple de table de routage avec une passerelle Internet.

Dans cet exemple, nous pouvons voir que ces registres partagent le mêmeprimary_name, et country.

Note >= 0,6 et note < 0,7

Résumé des registres correspondants :

primary_id | match_id | match_confidence_score 2164663519676 85899345930 0.6971099896480333 317827595278 85899345930 0.6971099896480333 472446424341 85899345930 0.6971099896480333 3118146262932 85899345930 0.6971099896480333 214748380804 85899345930 0.6971099896480333

Détails :

Exemple de table de routage avec une passerelle Internet.

Dans cet exemple, nous pouvons voir que ces registres ne partagent que le même primary_name.

Pour en savoir plus, consultez :