Estimación de la calidad de coincidencias mediante las puntuaciones de confianza de las coincidencias - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Estimación de la calidad de coincidencias mediante las puntuaciones de confianza de las coincidencias

Las puntuaciones de confianza de coincidencias proporcionan una estimación de la calidad de las coincidencias encontradas por FindMatches para distinguir entre registros coincidentes en los que el modelo de machine learning es muy confiable, incierto o improbable. Una puntuación de confianza de coincidencia estará entre 0 y 1, donde una puntuación más alta significa mayor similitud. El análisis de las puntuaciones de confianza de coincidencias le permite distinguir entre grupos de coincidencias en los que el sistema tiene mucha confianza (que puede decidir fusionar), clústeres sobre los que el sistema no está seguro (que puede decidir hacer revisar por un humano) y clústeres que el sistema considera improbables (que puede decidir rechazar).

Es posible que quiera ajustar sus datos de formación en situaciones en las que vea una puntuación de confianza alta, pero determine que no hay coincidencias, o en las que vea una puntuación baja pero determine que sí hay, de hecho, coincidencias.

Las puntuaciones de confianza son especialmente útiles cuando hay conjuntos de datos industriales de gran tamaño, en los que no es factible revisar todas las decisiones de FindMatches.

Las puntuaciones de confianza de coincidencias están disponibles en AWS Glue, versión 2.0 o posterior.

Generación de puntuaciones de confianza de coincidencias

Puede generar puntuaciones de confianza de coincidencias al establecer el valor booleano de computeMatchConfidenceScores a verdadero cuando llama a la API FindMatches o FindIncrementalMatches.

AWS Glue agrega una nueva column match_confidence_score al resultado.

Ejemplos de puntuación de coincidencias

Por ejemplo, considere los siguientes registros coincidentes:

Puntuación >=0,9

Resumen de registros coincidentes:

primary_id | match_id | match_confidence_score 3281355037663 85899345947 0.9823658302132061 1546188247619 85899345947 0.9823658302132061

Detalles:

Ejemplo de una tabla de ruteo con una gateway de Internet.

En este ejemplo, podemos ver que dos registros son muy similares y comparten display_position, primary_name y street name.

Puntuación >=0,8 y puntuación <0,9

Resumen de registros coincidentes:

primary_id | match_id | match_confidence_score 309237680432 85899345928 0.8309852373674638 3590592666790 85899345928 0.8309852373674638 343597390617 85899345928 0.8309852373674638 249108124906 85899345928 0.8309852373674638 463856477937 85899345928 0.8309852373674638

Detalles:

Ejemplo de una tabla de ruteo con una gateway de Internet.

En este ejemplo, podemos ver que estos registros comparten el mismo primary_name y country.

Puntuación >=0,6 y puntuación <0,7

Resumen de registros coincidentes:

primary_id | match_id | match_confidence_score 2164663519676 85899345930 0.6971099896480333 317827595278 85899345930 0.6971099896480333 472446424341 85899345930 0.6971099896480333 3118146262932 85899345930 0.6971099896480333 214748380804 85899345930 0.6971099896480333

Detalles:

Ejemplo de una tabla de ruteo con una gateway de Internet.

En este ejemplo, podemos ver que estos registros comparten solo el mismo primary_name.

Para obtener más información, consulte: