온라인 사기 인사이트 - Amazon Fraud Detector

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

온라인 사기 인사이트

Online Fraud Insights는 감독형 기계 학습 모델입니다. 즉, 사기 및 합법적인 거래의 과거 사례를 사용하여 모델을 학습시킵니다. Online Fraud Insights 모델은 소량의 과거 데이터를 기반으로 사기를 탐지할 수 있습니다. 모델 입력은 유연하므로 가짜 리뷰, 프로모션 악용, 게스트 체크아웃 사기 등 다양한 사기 위험을 탐지하도록 모델을 조정할 수 있습니다.

Online Fraud Insights 모델은 다양한 기계 학습 알고리즘을 사용하여 데이터 강화, 변환 및 사기 분류를 수행합니다. 모델 교육 프로세스의 일환으로 Online Fraud Insights는 IP 주소 또는 신용 카드 발급 은행의 지리적 위치와 같은 타사 데이터로 IP 주소 및 BIN 번호와 같은 원시 데이터 요소를 보강합니다. Online Fraud Insights는 타사 데이터 외에도 Amazon에서 발견된 사기 패턴을 고려하는 딥 러닝 알고리즘을 사용합니다AWS. 이러한 사기 패턴은 그래디언트 트리 부스팅 알고리즘을 사용하여 모델의 입력 기능이 됩니다.

성능을 높이기 위해 Online Fraud Insights는 베이지안 최적화 프로세스를 통해 그래디언트 트리 부스팅 알고리즘의 하이퍼 파라미터를 최적화합니다. 다양한 모델 매개변수 (예: 나무 수, 나무 깊이, 잎당 샘플 수) 를 사용하여 수십 개의 서로 다른 모델을 순차적으로 학습시킵니다. 또한 매우 낮은 사기율을 처리하기 위해 소수 부정 행위 집단을 늘리는 등 다양한 최적화 전략을 사용합니다.

데이터 소스 선택

온라인 사기 인사이트 모델을 교육할 때는 외부 (Amazon Fraud Detector 외부) 에 저장되거나 Amazon Fraud Detector 내에 저장되는 이벤트 데이터를 기반으로 모델을 학습하도록 선택할 수 있습니다. 현재 Amazon Fraud Detector에서 지원하는 외부 스토리지는 아마존 심플 스토리지 서비스 (Amazon S3) 입니다. 외부 스토리지를 사용하는 경우 이벤트 데이터세트를 쉼표로 구분된 값 (CSV) 형식으로 Amazon S3 버킷에 업로드해야 합니다. 모델 교육 구성 내에서 이러한 데이터 스토리지 옵션을 EXTERNAL_EVENTS (외부 스토리지용) 및 INGESTED_EVENTS (내부 스토리지용) 라고 합니다. 사용 가능한 데이터 원본 및 해당 데이터 원본에 데이터를 저장하는 방법에 대한 자세한 내용은 을 참조하십시오. 이벤트 데이터 스토리지

데이터 준비

이벤트 데이터를 어디에 저장하든 (Amazon S3 또는 Amazon Fraud Detector), 온라인 사기 인사이트 모델 유형에 대한 요구 사항은 동일합니다.

데이터세트에는 EVENT_LABEL 열 헤더가 포함되어야 합니다. 이 변수는 이벤트를 사기 또는 합법적 이벤트로 분류합니다. CSV 파일 (외부 저장소) 을 사용하는 경우 파일의 각 이벤트에 대해 EVENT_LABEL을 포함해야 합니다. 내부 저장소의 경우 EVENT_LABEL 필드는 선택 사항이지만 교육 데이터세트에 포함되려면 모든 이벤트에 레이블을 지정해야 합니다. 모델 학습을 구성할 때 레이블이 지정되지 않은 이벤트를 무시할지, 레이블이 지정되지 않은 이벤트에 대해 합법적인 레이블로 가정할지, 레이블이 지정되지 않은 모든 이벤트에 대해 허위 레이블을 적용할지 선택할 수 있습니다.

데이터 선택

온라인 사기 인사이트 모델 교육을 위한 데이터 선택에 대한 자세한 내용은 이벤트 데이터 수집을 참조하십시오.

온라인 사기 인사이트 교육에서는 EVENT_TIMESTAMP를 기반으로 이전 데이터를 샘플링하고 분할합니다. 데이터를 수동으로 샘플링할 필요가 없으며 이렇게 하면 모델 결과에 부정적인 영향을 미칠 수 있습니다.

이벤트 변수

Online Fraud Insights 모델에는 필수 이벤트 메타데이터 외에 모델 학습을 위한 데이터 검증을 통과하고 모델당 최대 100개의 변수를 허용하는 변수가 두 개 이상 필요합니다. 일반적으로 더 많은 변수를 제공할수록 모델이 사기 사건과 합법적인 사건을 더 잘 구분할 수 있습니다. Online Fraud Insights 모델은 사용자 지정 변수를 포함하여 수십 개의 변수를 지원할 수 있지만 IP 주소와 이메일 주소를 포함하는 것이 좋습니다. 이러한 변수는 일반적으로 평가 대상 개체를 식별하는 데 가장 효과적이기 때문입니다.

데이터 검증

교육 프로세스의 일환으로 Online Fraud Insights는 모델 학습에 영향을 미칠 수 있는 데이터 품질 문제가 있는지 데이터세트를 검증합니다. Amazon Fraud Detector는 데이터를 검증한 후 적절한 조치를 취하여 가능한 최상의 모델을 구축합니다. 여기에는 잠재적 데이터 품질 문제에 대한 경고 발행, 데이터 품질 문제가 있는 변수 자동 제거, 오류 발생 및 모델 교육 프로세스 중단이 포함됩니다. 자세한 내용은 데이터세트 검증을 참조하세요.