Escolher entre precisão e recuperação - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Escolher entre precisão e recuperação

Toda transformação FindMatches tem um parâmetro precision-recall. Você usa esse parâmetro para especificar o seguinte:

  • Caso esteja mais preocupado com a possibilidade da transformação detectar a correspondência de dois registros que, na verdade, não correspondem, favoreça a precisão.

  • Caso esteja mais preocupado com a transformação falhar na detecção de registros que correspondem, favoreça a revocação.

Você pode ajustar esse equilíbrio no console do AWS Glue ou usando as operações da API de machine learning do AWS Glue.

Quando favorecer a precisão

Dê preferência para a precisão se você estiver mais preocupado com o risco de FindMatches corresponder registros que, na verdade, não correspondem. Para favorecer a precisão, escolha um valor mais alto de equilíbrio entre precisão e recall. Com um valor mais alto, a transformação FindMatches precisa de mais evidências para decidir se dois registros devem corresponder. A transformação será ajustada para corresponder menos registros.

Por exemplo, suponha que você esteja usando FindMatches para detectar itens duplicados em um catálogo de filmes e fornece um valor de precisão-revocação mais alto para a transformação. Se a sua transformação detecta incorretamente que Star Wars: Uma Nova Esperança é o mesmo que Star Wars: O Império Contra-Ataca, um cliente que procurando Uma Nova Esperança poderá ver O Império Contra-Ataca. Isso resultaria em uma experiência do cliente insatisfatória.

No entanto, se a transformação não detectar que Star Wars: Uma Nova Esperança e Star Wars: Episódio IV - Uma Nova Esperança são o mesmo item, o cliente pode ficar confuso, mas reconhecerá os dois como iguais. Isso seria um erro, mas menos prejudicial que o primeiro caso.

Quando favorecer a recuperação

Dê preferência para a revocação se você estiver mais preocupado com o risco da transformação FindMatches não detectar pares de registros que, na verdade, são correspondentes. Para favorecer o recall, escolha um valor mais baixo de equilíbrio entre precisão e recall. Com um valor mais baixo, a transformação FindMatches precisa de menos evidências para decidir se dois registros devem corresponder. A transformação será ajustada para tender a corresponder mais registros.

Por exemplo, isso pode ser uma prioridade em uma organização de segurança. Suponha que você está comparando a lista de clientes com uma lista de falsificadores, e deve determinar se cada cliente é um falsificador ou não. Você vai usar FindMatches para corresponder a lista de falsificadores com a lista de clientes. Sempre que FindMatches detectar uma correspondência entre as duas listas, um auditor humano é atribuído para verificar se aquela pessoa é realmente um falsificador. Sua organização pode preferir revocação ao invés de precisão. Ou seja, você prefere que os auditores revisem e rejeitem manualmente os casos nos quais o cliente não é um falsificador à transformação falhar ao identificar se um cliente está na lista de falsificadores.

Como favorecer tanto a precisão como a recuperação

A melhor maneira de aprimorar a precisão e a revocação é rotulando mais dados. Conforme você rotula mais dados, a acurácia geral da transformação FindMatches melhora, aprimorando, por sua vez, a precisão e a revocação. No entanto, até com a maior acurácia possível em uma transformação, você sempre precisará experimentar entre favorecer precisão ou revocação, ou manter um valor equilibrado.