Decidir entre precisión y exhaustividad
Cada transformaciónFindMatches
contiene un parámetro precision-recall
. Utilice este parámetro para especificar una de las siguientes opciones:
-
Si está más preocupado por la transformación que indica falsamente que dos registros coinciden cuando realmente no lo hace, debe hacer hincapié en precisión.
-
Si está más preocupado por la transformación que no detecta correctamente los registros que coinciden, debe hacer hincapié en exhaustividad.
Puede realizar esta compensación en la consola de AWS Glue o mediante las operaciones de la API de machine learning de AWS Glue.
Cuándo favorecer la precisión
Favorezca la precisión si está más preocupado por el resigo que genera FindMatches
en un par de registros que coinciden cuando realmente no coinciden. Para favorecer la precisión, elija un valor de compensación de precisión-exhaustividad superior. Con un valor más alto, la transformación FindMatches
requiere más evidencias para decidir que un par de registros debe coincidir. La transformación se ajusta para sesgarse hacia una situación en la que los registros no coinciden.
Por ejemplo, supongamos que va a utilizar FindMatches
para detectar elementos duplicados en un catálogo de vídeo y proporciona un valor de precisión-exhaustividad más alto para la transformación. Si su transformación detecta incorrectamente que Star Wars: Una nueva esperanza es igual que Star Wars: El imperio contraataca, es posible que el cliente que quiere Una nueva esperanza vea El imperio contraataca. Esto sería una experiencia del cliente deficiente.
Sin embargo, si la transformación no es capaz de detectar que Star Wars: Una nueva esperanza y Star Wars: Episodio IV - Una nueva esperanza son el mismo elemento, el cliente podría confundirse al principio pero podría reconocerlos como el mismo. Sería un error, pero no tan grave como la situación anterior.
Cuándo favorecer la exhaustividad
Favorezca la exhaustividad si está más preocupado por el riesgo de que se puedan producir errores en los resultados de la transformación FindMatches
al detectar un par de registros que en realidad no coinciden. Para favorecer la exhaustividad, elija un valor de compensación de precisión-exhaustividad inferior. Con un valor más bajo, la transformación FindMatches
requiere menos evidencias para decidir que un par de registros debe coincidir. La transformación se ajusta para sesgarse hacia una situación en la que los registros coinciden.
Por ejemplo, esto podría ser una prioridad para una organización de seguridad. Supongamos que quiere disponer de coincidencias de clientes en relación con una lista de defraudadores conocidos y es importante determinar si un cliente es un defraudador. Está utilizando FindMatches
para que la lista de defraudadores coincida con la lista de clientes. Cada vez que FindMatches
detecta una coincidencia entre las dos listas, se asigna un auditor humano para comprobar que la persona es, de hecho, un defraudador. Es posible que su organización prefiera para elegir la exhaustividad en lugar de la precisión. Es decir, puede emplear auditores para que revisen y rechacen manualmente algunos casos cuando el cliente no sea un defraudador en lugar de no poder identificar que un cliente está, de hecho, en la lista de defraudadores.
Cómo favorecer tanto la precisión como la exhaustividad
La mejor forma de mejorar tanto la precisión como la exhaustividad es etiquetar más datos. A medida que etiqueta más datos, mejora la exactitud global de la transformación FindMatches
y, por lo tanto, tanto la precisión como la exhaustividad son superiores. Sin embargo, incluso con la transformación más precisa, siempre hay un área en gris que necesita experimentar para el favorecimiento de la precisión o la exhaustividad, o elegir un valor intermedio.