기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
CSV 파일 생성
Amazon Fraud Detector를 사용하려면 CSV 파일의 첫 번째 행에 열 헤더가 포함되어야 합니다. CSV 파일의 열 헤더는 이벤트 유형에 정의된 변수에 매핑되어야 합니다. 예제 데이터 세트는 섹션을 참조하세요. 예제 데이터 세트 가져오기 및 업로드
Online Fraud Insights 모델에는 최소 2개의 변수와 최대 100개의 변수가 있는 훈련 데이터 세트가 필요합니다. 이벤트 변수 외에도 훈련 데이터 세트에는 다음 헤더가 포함되어야 합니다.
-
EVENT_TIMESTAMP - 이벤트가 발생한 시기를 정의합니다.
-
EVENT_LABEL - 이벤트를 사기성 또는 합법적인 것으로 분류합니다. 열의 값은 이벤트 유형에 정의된 값과 일치해야 합니다.
다음 샘플 CSV 데이터는 온라인 판매자의 과거 등록 이벤트를 나타냅니다.
EVENT_TIMESTAMP,EVENT_LABEL,ip_address,email_address 4/10/2019 11:05,fraud,209.146.137.48,fake_burtonlinda@example.net 12/20/2018 20:04,legit,203.0.112.189,fake_davidbutler@example.org 3/14/2019 10:56,legit,169.255.33.54,fake_shelby76@example.net 1/3/2019 8:38,legit,192.119.44.26,fake_curtis40@example.com 9/25/2019 3:12,legit,192.169.85.29,fake_rmiranda@example.org
참고
CSV 데이터 파일에는 데이터의 일부로 큰따옴표와 쉼표가 포함될 수 있습니다.
해당 이벤트 유형의 단순화된 버전이 아래에 나와 있습니다. 이벤트 변수는 CSV 파일의 헤더에 해당하고의 값은 레이블 목록의 값에 EVENT_LABEL
해당합니다.
( name = 'sample_registration', eventVariables = ['ip_address', 'email_address'], labels = ['legit', 'fraud'], entityTypes = ['sample_customer'] )
이벤트 타임스탬프 형식
이벤트 타임스탬프가 필수 형식인지 확인합니다. 모델 빌드 프로세스의 일환으로 Online Fraud Insights 모델 유형은 이벤트 타임스탬프를 기반으로 데이터를 주문하고 훈련 및 테스트 목적으로 데이터를 분할합니다. 성능을 공정하게 추정하기 위해 모델은 먼저 훈련 데이터 세트를 훈련한 다음 테스트 데이터 세트에서이 모델을 테스트합니다.
Amazon Fraud Detector는 모델 훈련 EVENT_TIMESTAMP
중에의 값에 대해 다음과 같은 날짜/타임스탬프 형식을 지원합니다.
%yyyy-%mm-%ddT%hh:%mm:%ssZ(밀리초 없이 UTC 전용 ISO 8601 표준)
예: 2019-11-30T13:01:01Z
-
%yyyy/%mm/%dd %hh:%mm:%ss(AM/PM)
예: 2019/11/30 1:01:01 PM 또는 2019/11/30 13:01:01
%mm/%dd/%yyyy %hh:%mm:%ss
예: 11/30/2019 1:01:01 PM, 11/30/2019 13:01:01
%mm/%dd/%yy %hh:%mm:%ss
예: 11/30/19 1:01:01 PM, 11/30/19 13:01:01
Amazon Fraud Detector는 이벤트 타임스탬프에 대한 날짜/타임스탬프 형식을 구문 분석할 때 다음과 같이 가정합니다.
ISO 8601 표준을 사용하는 경우 이전 사양과 정확히 일치해야 합니다.
다른 형식 중 하나를 사용하는 경우 추가 유연성이 있습니다.
월과 일에는 한 자릿수 또는 두 자릿수를 입력할 수 있습니다. 예를 들어 1/12/2019은 유효한 날짜입니다.
hh:mm:ss가 없는 경우 hh:mm:ss를 포함할 필요가 없습니다(예: 날짜를 제공하면 됩니다). 시간 및 분(예: hh:mm)의 하위 집합만 제공할 수도 있습니다. 시간만 제공하면 지원되지 않습니다. 밀리초도 지원되지 않습니다.
AM/PM 레이블을 입력하면 12시간 클럭이 가정됩니다. AM/PM 정보가 없는 경우 24시간 시계를 가정합니다.
날짜 요소의 구분 기호로 “/” 또는 “-”를 사용할 수 있습니다. 타임스탬프 요소에는 “:”가 사용됩니다.
시간 경과에 따른 데이터 세트 샘플링
동일한 시간 범위의 사기 및 합법적인 샘플의 예를 제공하는 것이 좋습니다. 예를 들어 지난 6개월 동안의 사기 이벤트를 제공하는 경우 동일한 기간에 균등하게 적용되는 합법적인 이벤트도 제공해야 합니다. 데이터 세트에 매우 고르지 않은 사기 및 합법적인 이벤트 분포가 포함되어 있는 경우 "시간별 사기 분포가 허용할 수 없을 정도로 변동합니다. 데이터 세트를 올바르게 분할할 수 없습니다.” 일반적으로이 오류의 가장 쉬운 해결 방법은 사기 이벤트와 합법적인 이벤트가 동일한 기간에 균등하게 샘플링되도록 하는 것입니다. 또한 짧은 기간 내에 사기가 크게 급증한 경우 데이터를 제거해야 할 수도 있습니다.
균등하게 분산된 데이터 세트를 생성하기에 충분한 데이터를 생성할 수 없는 경우 한 가지 접근 방식은 이벤트의 EVENT_TIMESTAMP를 균등하게 분산되도록 무작위화하는 것입니다. 그러나 Amazon Fraud Detector는 EVENT_TIMESTAMP를 사용하여 데이터 세트의 적절한 이벤트 하위 집합에 대한 모델을 평가하기 때문에 성능 지표가 비현실적으로 나타나는 경우가 많습니다.
Null 및 누락된 값
Amazon Fraud Detector는 null 및 누락 값을 처리합니다. 그러나 변수에 대한 null의 백분율은 제한되어야 합니다. EVENT_TIMESTAMP 및 EVENT_LABEL 열에는 누락된 값이 포함되어서는 안 됩니다.
파일 검증
다음 조건 중 하나라도 트리거되면 Amazon Fraud Detector가 모델 훈련에 실패합니다.
-
CSV를 구문 분석할 수 없는 경우
-
열의 데이터 유형이 잘못된 경우