Choisir entre la précision et le rappel - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Choisir entre la précision et le rappel

Chaque transformation FindMatches contient un paramètre precision-recall. Vous utilisez ce paramètre pour spécifier l'un des éléments suivants :

  • Si vous êtes plus préoccupé par le fait que la transformation indique de manière erronée que deux enregistrements sont des correspondances alors que ce n'est pas le cas, vous devez alors mettre l'accent sur la précision.

  • Si vous êtes plus préoccupé par le fait que la transformation ne parvienne pas à détecter les enregistrements qui sont de réelles correspondances, vous devez mettre l'accent sur le rappel.

Vous pouvez effectuer un tel compromis sur la console AWS Glue ou à l'aide d'opérations d'API de Machine Learning AWS Glue.

Dans quel cas favoriser la précision

Privilégiez la précision si vous êtes plus préoccupé par le risque que FindMatches se traduise par une paire d'enregistrements correspondants alors qu'il n'y a aucune correspondance réelle. Pour favoriser la précision, choisissez une valeur de compromis précision-rappel plus élevée. Avec une valeur plus élevée, la transformation FindMatches a besoin de plus de preuves pour décider qu'une paire d'enregistrements doivent correspondre. La transformation est réglée sur une tendance à indiquer que les enregistrements ne correspondent pas.

Par exemple, supposons que vous utilisez FindMatches pour détecter des articles en double dans un catalogue vidéo, et que vous fournissez une valeur précision-rappel plus élevée à la transformation. Si votre transformation détecte de manière incorrecte détecte qu' Star Wars : Un nouvel espoir est identique à Star Wars : L'Empire contre-attaque, un client qui souhaite Un nouvel espoir peut voir s'afficher L'Empire contre-attaque. Cela constituerait une mauvaise expérience client.

Toutefois, si la transformation ne parvient pas à détecter que Star Wars : Un nouvel espoir et Star Wars : Episode IV - Un nouvel espoir sont un seul et même article, le client peut être un peu perdu au début mais il peut au final les reconnaître comme étant identiques. Il s'agirait là d'une erreur, mais pas aussi grave que dans le scénario précédent.

Dans quel cas favoriser le rappel

Privilégiez le rappel si vous êtes plus préoccupé par le risque que les résultats de la transformation FindMatches ne parviennent pas à détecter une paire d'enregistrements qui correspondent réellement. Pour favoriser le rappel, choisissez une valeur de compris précision-rappel plus faible. Avec une valeur plus faible, la transformation FindMatches a besoin de moins de preuves pour décider qu'une paire d'enregistrements doivent correspondre. La transformation est réglée sur une tendance à indiquer que les enregistrements correspondent.

Cela peut, par exemple, être une priorité pour une organisation de sécurité. Supposons que vous établissez des correspondances entre des clients et une liste de fraudeurs connus, et il est important de déterminer si un client est un fraudeur. Vous utilisez FindMatches pour établir des correspondances entre la liste de fraudeurs et la liste de clients. Chaque fois que FindMatches détecte une correspondance entre les deux listes, un auditeur humain est affecté pour vérifier que la personne est effectivement un fraudeur. Il se peut que votre organisation préfère le rappel à la précision. En d'autres termes, vous préférez plutôt avoir des auditeurs qui vérifient et rejettent manuellement certains cas lorsque le client n'est pas un fraudeur que de ne pas parvenir à identifier qu'un client est, effectivement, sur la liste de fraudeurs.

Comment favoriser à la fois la précision et le rappel

Le meilleur moyen d'améliorer à la fois la précision et le rappel est d'étiqueter davantage de données. Au fur et à mesure que vous étiquetez plus de données, l'exactitude globale de la transformation FindMatches s'améliore, ce qui améliore à la fois la précision et le rappel. Néanmoins, même avec la transformation la plus précise possible, il demeure toujours une zone grise où vous devez essayer de favoriser la précision ou le rappel, ou choisir une valeur intermédiaire.