翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
一致信頼度スコアを使用して一致の品質を見積もります。
一致信頼度スコアは、機械学習モデルの信頼度が高い、不確か、またはありそうにない一致レコードを区別するために、findMatches によって検出された一致の品質を推定します。一致信頼度スコアは 0 から 1 の間で、スコアが高いほど類似度が高くなります。一致信頼度スコアを調べると、システムが非常に信頼できる一致のクラスター(マージすることを決定する可能性があります)、システムが不確実であるクラスター(人間がレビューしたと決定する可能性がある)、および一致のクラスターを区別できます。 システムは可能性が低いと見なします(拒否することを決定する場合があります)。
一致信頼度スコアが高いが一致がないと判断した場合、またはスコアが低いが実際に一致しているかどうかを判断する状況では、トレーニングデータを調整できます。
信頼度スコアは、すべての FindMatches 決定を確認することが不可能な、大規模な産業用データセットがある場合に特に役立ちます。
一致信頼度スコアは AWS Glue バージョン 2.0 以降。
マッチ信頼度スコアの生成
ブール値を computeMatchConfidenceScores
Trueに設定するか、FindMatches
または FindIncrementalMatches
APIを呼び出すときに一致信頼スコアを生成できます。
AWS Glue 新規に column match_confidence_score
を出力に追加します。
スコアリングの例に一致
たとえば、次のマッチングレコードを考えてみましょう。
スコア >= 0.9
一致したレコードのサマリー:
primary_id | match_id | match_confidence_score 3281355037663 85899345947 0.9823658302132061 1546188247619 85899345947 0.9823658302132061
詳細:
この例から、2 つのレコードが非常によく似ていて、display_position
、primary_name
、およびstreet name
を共有していることがわかります。
スコア >= 0.8、得点 < 0.9
一致したレコードのサマリー:
primary_id | match_id | match_confidence_score 309237680432 85899345928 0.8309852373674638 3590592666790 85899345928 0.8309852373674638 343597390617 85899345928 0.8309852373674638 249108124906 85899345928 0.8309852373674638 463856477937 85899345928 0.8309852373674638
詳細:
この例から、これらのレコードが同じ primary_name
および country
を共有していることがわかります。
スコア >= 0.6、得点 < 0.7
一致したレコードのサマリー:
primary_id | match_id | match_confidence_score 2164663519676 85899345930 0.6971099896480333 317827595278 85899345930 0.6971099896480333 472446424341 85899345930 0.6971099896480333 3118146262932 85899345930 0.6971099896480333 214748380804 85899345930 0.6971099896480333
詳細:
この例から、これらのレコードが同じもの primary_name
を共有しているだけであることがわかります 。
詳細については、以下を参照してください。
PySpark: FindMatches クラス
PySpark: FindIncrementalMatches クラス
Scala: FindMatches クラス
Scala: FindIncrementalMatches クラス