일치 신뢰도 점수를 사용하여 일치 항목의 품질 추정 - AWS Glue

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

일치 신뢰도 점수를 사용하여 일치 항목의 품질 추정

일치 신뢰도 점수는 FindMatchs에서 찾은 일치 항목의 품질을 추정하여 기계 학습 모델의 신뢰도가 높거나 불확실하거나 낮은 일치 레코드를 구별합니다. 일치 신뢰도 점수는 0에서 1 사이이며, 점수가 높을수록 유사성이 높아집니다. 일치 신뢰도 점수를 검사하면 신뢰도가 높은 일치 항목 클러스터(병합하기로 결정할 수 있음), 불확실한 클러스터(사람이 검토하기로 결정할 수 있음), 신뢰도가 낮은 클러스터(거부하기로 결정할 수 있음)를 구별할 수 있습니다.

일치 신뢰도 점수가 높은데 일치 항목이 없거나 점수가 낮은데 실제로 일치 항목이 있는 경우 훈련 데이터를 조정하는 것이 좋습니다.

신뢰도 점수는 모든 FindMatches 결정을 검토하는 것이 불가능한 대규모 산업 데이터 집합이 있는 경우에 특히 유용합니다.

일치 신뢰도 점수는 AWS Glue 버전 2.0 이상에서 사용 가능합니다.

일치 신뢰도 점수 생성

FindMatches 또는 FindIncrementalMatches API를 호출할 때 computeMatchConfidenceScores의 부울 값을 True로 설정하면 일치 신뢰도 점수를 생성할 수 있습니다.

AWS Glue는 새 column match_confidence_score를 출력에 추가합니다.

일치 점수 매기기 예

예를 들어 다음 일치 레코드를 고려해 보세요.

점수 >= 0.9

일치 레코드 요약:

primary_id | match_id | match_confidence_score 3281355037663 85899345947 0.9823658302132061 1546188247619 85899345947 0.9823658302132061

세부 정보:

인터넷 게이트웨이를 통한 라우팅 테이블 예제.

이 예제에서는 두 레코드가 매우 유사하고 display_position, primary_name, street name을 공유한다는 것을 확인할 수 있습니다.

점수 >= 0.8 및 점수 < 0.9

일치 레코드 요약:

primary_id | match_id | match_confidence_score 309237680432 85899345928 0.8309852373674638 3590592666790 85899345928 0.8309852373674638 343597390617 85899345928 0.8309852373674638 249108124906 85899345928 0.8309852373674638 463856477937 85899345928 0.8309852373674638

세부 정보:

인터넷 게이트웨이를 통한 라우팅 테이블 예제.

이 예제에서는 두 레코드가 동일한 primary_namecountry를 공유한다는 것을 확인할 수 있습니다.

점수 >= 0.6 및 점수 < 0.7

일치 레코드 요약:

primary_id | match_id | match_confidence_score 2164663519676 85899345930 0.6971099896480333 317827595278 85899345930 0.6971099896480333 472446424341 85899345930 0.6971099896480333 3118146262932 85899345930 0.6971099896480333 214748380804 85899345930 0.6971099896480333

세부 정보:

인터넷 게이트웨이를 통한 라우팅 테이블 예제.

이 예제에서는 두 레코드가 동일한 primary_name만 공유한다는 것을 확인할 수 있습니다.

자세한 내용은 다음 섹션을 참조하세요.