適合率と再現率のトレードオフ - AWS Glue

適合率と再現率のトレードオフ

FindMatches 変換には、precision-recall パラメータが含まれています。このパラメータを使用して、次のいずれかを指定します。

  • 変換の結果で、2 つのレコードが誤って一致すると報告され、実際には一致していない場合は、適合率を高めます。

  • 変換の結果で、2 つのレコードが実際には一致しているにもかかわらず、一致として検出されない場合は、再現率を高めます。

このトレードオフを行うには、AWS Glue コンソールまたは AWS Glue 機械学習 API オペレーションを使用できます。

適合率を優先する場合

FindMatches で実際には一致しないレコードのペアが一致と見なされるリスクに対処するには、適合率を優先します。適合率を優先するには、適合率-再現率トレードオフとしてより高い値を選択します。値を高くするほど、FindMatches 変換でレコードのペアを一致と見なす根拠がさらに必要となります。変換は調整されて、レコードのペアが一致しないと判断する傾向が強化されます。

たとえば、FindMatches を使用してビデオカタログ内の重複する商品を検出する際に、適合率-再現率のより高い値を変換に指定したとします。変換で「スターウォーズ: 新たなる希望」と「スターウォーズ: 帝国の逆襲」が誤って同じものとして検出された場合、「新たなる希望」を欲しい利用者に「帝国の逆襲」が提供される可能性があります。これは、カスタマーエクスペリエンスを悪化させることになります。

一方、変換で「スターウォーズ: 新たなる希望」と「スターウォーズ エピソード 4/新たなる希望」が同じ商品として検出されない場合、利用者は最初は混乱するとしても、最終的には同じものとして認識する可能性があります。これは誤検出ではあっても、前の例ほど深刻ではありません。

再現率を優先する場合

FindMatches 変換の結果で、実際には一致するレコードのペアが一致として検出されないリスクに対処するには、再現率を優先します。再現率を優先するには、適合率-再現率トレードオフとしてより低い値を選択します。値を低くするほど、FindMatches 変換でレコードのペアを一致と見なす根拠が少なくて済みます。変換は調整されて、レコードのペアが一致すると判断する傾向が強化されます。

たとえば、これはセキュリティを重視する組織で優先される場合があります。利用者を詐欺行為者のリストと照合する場合、利用者が詐欺行為者であるかどうかを判断することが重要です。FindMatches を使用して利用者リストと詐欺行為者リストを照合するとします。FindMatches において 2 つのリスト間で一致が検出されるたびに、該当する利用者が実際に詐欺行為者であるかどうかを人間の監査担当者が確認します。このような組織では、適合率よりも再現率を優先できます。つまり、利用者が実際に詐欺行為者リストに該当することを見逃すよりは、利用者が詐欺行為者ではないことを監査担当者が手動で確認して除外することを優先します。

適合率と再現率の両方を優先する方法

適合率と再現率の両方を改善する最適な方法は、ラベル付けするデータを増やすことです。より多くのデータをラベル付けすると、FindMatches 変換全体の精度が向上するため、適合率と再現率の両方が向上します。ただし、最も正確な変換であっても、適合率の優先、再現率の優先、または中間値の選択を試す必要があるグレー領域が常に存在します。