이벤트 데이터 세트 구조 데이터 모델 탐색기를 사용하여 이벤트 데이터 세트 요구 사항 가져오기 이벤트 데이터 수집 데이터 세트 검증 데이터 세트 스토리지

이벤트 데이터 세트

이벤트 데이터 세트는 회사의 과거 사기 데이터입니다. 이 데이터를 Amazon Fraud Detector에 제공하여 사기 탐지 모델을 생성합니다.

Amazon Fraud Detector는 기계 학습 모델을 사용하여 사기 예측을 생성합니다. 각 모델은 모델 유형을 사용하여 훈련됩니다. 모델 유형은 모델 훈련에 사용되는 알고리즘과 변환을 지정합니다. 모델 훈련은 제공한 데이터 세트를 사용하여 사기 이벤트를 예측할 수 있는 모델을 생성하는 프로세스입니다. 자세한 내용은 Amazon Fraud Detector 작동 방식을 참조하세요.

사기 탐지 모델을 생성하는 데 사용되는 데이터 세트는 이벤트의 세부 정보를 제공합니다. 이벤트는 사기 위험에 대한 평가가 이루어지는 비즈니스 활동입니다. 예를 들어 계정 등록은 이벤트일 수 있습니다. 계정 등록 이벤트와 연결된 데이터는 이벤트 데이터 세트일 수 있습니다. Amazon Fraud Detector는이 데이터 세트를 사용하여 계정 등록 사기를 평가합니다.

모델 생성을 위해 Amazon Fraud Detector에 데이터 세트를 제공하기 전에 모델 생성 목표를 정의해야 합니다. 또한 모델을 사용할 방법을 결정하고 모델이 특정 요구 사항에 따라 성능을 발휘하는지 여부를 평가하기 위한 지표를 정의해야 합니다.

예를 들어 계정 등록 사기를 평가하는 사기 탐지 모델을 생성하는 목표는 다음과 같을 수 있습니다.

합법적인 등록을 자동 승인하려면
이후 조사를 위해 사기 등록을 캡처합니다.

목표를 결정한 후 다음 단계는 모델을 사용할 방법을 결정하는 것입니다. 사기 탐지 모델을 사용하여 등록 사기를 평가하는 몇 가지 예는 다음과 같습니다.

각 계정 등록에 대한 실시간 사기 탐지.
매시간 모든 계정 등록의 오프라인 평가.

모델의 성능을 측정하는 데 사용할 수 있는 지표의 몇 가지 예는 다음과 같습니다.

프로덕션의 현재 기준보다 일관되게 더 나은 성능을 발휘합니다.
Y% 오탐률로 X% 사기 등록을 캡처합니다.
사기인 자동 승인 등록의 최대 5%를 허용합니다.

이벤트 데이터 세트 구조

Amazon Fraud Detector를 사용하려면 UTF-8 형식의 쉼표로 구분된 값(CSV)을 사용하여 이벤트 데이터 세트를 텍스트 파일로 제공해야 합니다. CSV 데이터 세트 파일의 첫 번째 줄에는 파일 헤더가 포함되어야 합니다. 파일 헤더는 이벤트 메타데이터와 이벤트와 연결된 각 데이터 요소를 설명하는 이벤트 변수로 구성됩니다. 헤더 뒤에 이벤트 데이터가 옵니다. 각 줄은 단일 이벤트의 데이터 요소로 구성됩니다.

이벤트 메타데이터 - 이벤트에 대한 정보를 제공합니다. 예를 들어 EVENT_TIMESTAMP는 이벤트가 발생한 시간을 지정하는 이벤트 메타데이터입니다. 비즈니스 사용 사례와 사기 탐지 모델을 생성하고 훈련하는 데 사용되는 모델 유형에 따라 Amazon Fraud Detector는 특정 이벤트 메타데이터를 제공해야 합니다. CSV 파일 헤더에서 이벤트 메타데이터를 지정할 때는 Amazon Fraud Detector에서 지정한 것과 동일한 이벤트 메타데이터 이름을 사용하고 대문자만 사용합니다.
이벤트 변수 - 사기 탐지 모델을 생성하고 훈련하는 데 사용하려는 이벤트와 관련된 데이터 요소를 나타냅니다. 비즈니스 사용 사례 및 사기 탐지 모델을 생성하고 훈련하는 데 사용되는 모델 유형에 따라 Amazon Fraud Detector는 특정 이벤트 변수를 제공하도록 요구하거나 권장할 수 있습니다. 또한 모델 훈련에 포함하려는 이벤트의 다른 이벤트 변수를 선택적으로 제공할 수 있습니다. 온라인 등록 이벤트에 대한 이벤트 변수의 몇 가지 예는 이메일 주소, IP 주소 및 전화번호일 수 있습니다. CSV 파일 헤더에서 이벤트 변수 이름을 지정할 때는 원하는 변수 이름을 사용하고 소문자만 사용합니다.
이벤트 데이터 - 실제 이벤트에서 수집된 데이터를 나타냅니다. CSV 파일에서 파일 헤더 뒤의 각 행은 단일 이벤트의 데이터 요소로 구성됩니다. 예를 들어 온라인 등록 이벤트 데이터 파일에서 각 행에는 단일 등록의 데이터가 포함됩니다. 행의 각 데이터 요소는 해당 이벤트 메타데이터 또는 이벤트 변수와 일치해야 합니다.

다음은 계정 등록 이벤트의 데이터가 포함된 CSV 파일의 예입니다. 헤더 행에는 이벤트 메타데이터가 대문자로, 이벤트 변수가 소문자로, 이벤트 데이터가 뒤에 옵니다. 데이터 세트의 각 행에는 헤더에 해당하는 각 데이터 요소와 함께 단일 계정 등록과 연결된 데이터 요소가 포함되어 있습니다.

CSV file showing event metadata and variables with sample data for account registration events.

데이터 모델 탐색기를 사용하여 이벤트 데이터 세트 요구 사항 가져오기

모델을 생성하도록 선택한 모델 유형은 데이터 세트의 요구 사항을 정의합니다. Amazon Fraud Detector는 사용자가 제공한 데이터 세트를 사용하여 사기 탐지 모델을 생성하고 교육합니다. Amazon Fraud Detector가 모델을 생성하기 전에 데이터세트가 크기, 형식 및 기타 요구 사항을 충족하는지 확인합니다. 데이터 세트가 요구 사항을 충족하지 않으면 모델 생성 및 훈련이 실패합니다. 데이터 모델 탐색기를 사용하여 비즈니스 사용 사례에 사용할 모델 유형을 식별하고 식별된 모델 유형의 데이터 세트 요구 사항에 대한 인사이트를 얻을 수 있습니다.

데이터 모델 탐색기

데이터 모델 탐색기는 Amazon Fraud Detector 콘솔의 도구로, 비즈니스 사용 사례를 Amazon Fraud Detector에서 지원하는 모델 유형에 맞게 조정합니다. 또한 데이터 모델 탐색기는 Amazon Fraud Detector가 사기 탐지 모델을 생성하는 데 필요한 데이터 요소에 대한 인사이트를 제공합니다. 이벤트 데이터 세트를 준비하기 전에 데이터 모델 탐색기를 사용하여 Amazon Fraud Detector가 비즈니스용으로 권장하는 모델 유형을 파악하고 데이터 세트를 생성하는 데 필요한 필수, 권장 및 선택적 데이터 요소의 목록을 확인합니다.

데이터 모델 탐색기를 사용하려면

AWS Management Console을 열고 계정에 로그인합니다. Amazon Fraud Detector로 이동합니다.
왼쪽 탐색 창에서 데이터 모델 탐색기를 선택합니다.
데이터 모델 탐색기 페이지의 비즈니스 사용 사례에서 사기 위험을 평가할 비즈니스 사용 사례를 선택합니다.
Amazon Fraud Detector는 비즈니스 사용 사례와 일치하는 권장 모델 유형을 표시합니다. 모델 유형은 Amazon Fraud Detector가 사기 탐지 모델을 훈련하는 데 사용할 알고리즘, 보강 및 변환을 정의합니다.

권장 모델 유형을 기록해 둡니다. 나중에 모델을 생성할 때이 정보가 필요합니다.

참고
비즈니스 사용 사례를 찾을 수 없는 경우 설명의 연락 링크를 사용하여 비즈니스 사용 사례에 대한 세부 정보를 제공하세요. 비즈니스 사용 사례에 대한 사기 탐지 모델을 생성하는 데 사용할 모델 유형을 권장합니다.
데이터 모델 인사이트 창은 비즈니스 사용 사례에 대한 사기 탐지 모델을 생성하고 교육하는 데 필요한 필수, 권장 및 선택적 데이터 요소에 대한 인사이트를 제공합니다. 인사이트 창의 정보를 사용하여 이벤트 데이터를 수집하고 데이터 세트를 생성합니다.

이벤트 데이터 수집

이벤트 데이터를 수집하는 것은 모델을 생성하는 데 중요한 단계입니다. 이는 사기를 예측하는 모델의 성능이 데이터 세트의 품질에 따라 달라지기 때문입니다. 이벤트 데이터를 수집하기 시작할 때 데이터 모델 탐색기가 데이터 세트를 생성하기 위해 제공한 데이터 요소 목록을 염두에 두세요. 모든 필수(이벤트 메타데이터) 데이터를 수집하고 모델 생성 목표를 기반으로 포함할 권장 및 선택적 데이터 요소(이벤트 변수)를 결정해야 합니다. 또한 포함하려는 각 이벤트 변수의 형식과 데이터 세트의 총 크기를 결정하는 것이 중요합니다.

이벤트 데이터 세트 품질

모델의 고품질 데이터 세트를 수집하려면 다음을 수행하는 것이 좋습니다.

성숙한 데이터 수집 - 최신 데이터를 사용하면 최신 사기 패턴을 식별하는 데 도움이 됩니다. 그러나 사기 사용 사례를 감지하려면 데이터가 성숙되도록 합니다. 성숙 기간은 비즈니스에 따라 달라지며 2주에서 3개월까지 걸릴 수 있습니다. 예를 들어 이벤트에 신용 카드 트랜잭션이 포함된 경우 데이터의 성숙도는 신용 카드의 결제 기간 또는 조사자가 결정을 내리는 데 걸린 시간에 따라 결정될 수 있습니다.

모델을 훈련하는 데 사용된 데이터 세트가 비즈니스에 따라 성숙할 충분한 시간을 가졌는지 확인합니다.
데이터 배포가 크게 드리프트되지 않도록 - Amazon Fraud Detector 모델 훈련은 EVENT_TIMESTAMP를 기반으로 데이터 세트를 샘플링하고 분할합니다. 예를 들어 데이터 세트가 지난 6개월에서 가져온 사기 이벤트로 구성되지만 합법적인 이벤트의 마지막 달만 포함된 경우 데이터 배포는 드리프팅되고 불안정한 것으로 간주됩니다. 불안정한 데이터 세트는 모델 성능 평가에 편향을 초래할 수 있습니다. 데이터 배포가 크게 드리프트되는 경우 현재 데이터 배포와 유사한 데이터를 수집하여 데이터 세트의 균형을 맞추는 것이 좋습니다.
데이터세트가 모델이 구현/테스트되는 사용 사례를 나타내는지 확인합니다. 그렇지 않으면 예상 성능이 편향될 수 있습니다. 모델을 사용하여 모든 실내 신청자를 자동으로 거부하지만 모델은 이전에 승인된 기록 데이터/레이블이 있는 데이터 세트로 훈련된다고 가정해 보겠습니다. 그러면 평가가 거부된 신청자의 표현이 없는 데이터 세트를 기반으로 하므로 모델의 평가가 부정확할 수 있습니다.

이벤트 데이터 형식

Amazon Fraud Detector는 모델 훈련 프로세스의 일환으로 대부분의 데이터를 필요한 형식으로 변환합니다. 그러나 Amazon Fraud Detector가 데이터 세트를 검증할 때 나중에 문제를 방지하는 데 도움이 될 수 있는 데이터를 제공하는 데 쉽게 사용할 수 있는 몇 가지 표준 형식이 있습니다. 다음 표에서는 권장 이벤트 메타데이터를 제공하기 위한 형식에 대한 지침을 제공합니다.

참고

CSV 파일을 생성할 때 아래 나열된 대로 이벤트 메타데이터 이름을 대문자로 입력해야 합니다.

메타데이터 이름	형식	필수
EVENT_ID	제공된 경우 다음 요구 사항을 충족해야 합니다. 해당 이벤트에 고유합니다. 비즈니스에 의미 있는 정보를 나타냅니다. 정규식 패턴(예: `^[0-9a-z_-]+$.)` 위의 요구 사항 외에도 EVENT_ID에 타임스탬프를 추가하지 않는 것이 좋습니다. 이렇게 하면 이벤트를 업데이트할 때 문제가 발생할 수 있습니다. 이렇게 하면 정확히 동일한 EVENT_ID를 제공해야 하기 때문입니다.	모델 유형에 따라 다름
EVENT_TIMESTAMP	다음 형식 중 하나로 지정해야 합니다. %yyyy-%mm-%ddT%hh:%mm:%ssZ(밀리초 없이 UTC 전용 ISO 8601 표준) 예: 2019-11-30T13:01:01Z %yyyy/%mm/%dd %hh:%mm:%ss(AM/PM) 예: 2019/11/30 1:01:01 PM 또는 2019/11/30 13:01:01 %mm/%dd/%yyyy %hh:%mm:%ss 예: 11/30/2019 1:01:01 PM, 11/30/2019 13:01:01 %mm/%dd/%yy %hh:%mm:%ss 예: 11/30/19 1:01:01 PM, 11/30/19 13:01:01 Amazon Fraud Detector는 이벤트 타임스탬프에 대한 날짜/타임스탬프 형식을 구문 분석할 때 다음과 같은 가정을 합니다. ISO 8601 표준을 사용하는 경우 이전 사양과 정확히 일치해야 합니다. 다른 형식 중 하나를 사용하는 경우 추가 유연성이 있습니다. 월과 일에는 단일 또는 두 자릿수를 입력할 수 있습니다. 예를 들어 1/12/2019은 유효한 날짜입니다. hh:mm:ss가 없는 경우 hh:mm:ss를 포함할 필요가 없습니다(즉, 단순히 날짜를 입력할 수 있음). 시간 및 분(예: hh:mm)의 하위 집합만 제공할 수도 있습니다. 시간 제공만 지원되지 않습니다. 밀리초도 지원되지 않습니다. AM/PM 레이블을 입력하면 12시간 클럭이 가정됩니다. AM/PM 정보가 없는 경우 24시간 시계가 가정됩니다. 날짜 요소의 구분 기호로 “/” 또는 “-”를 사용할 수 있습니다. 타임스탬프 요소에는 “:”가 가정됩니다.	예
ENTITY_ID	정규식 패턴인를 따라야 합니다`^[0-9A-Za-z_.@+-]+$`. 평가 시 개체 ID를 사용할 수 없는 경우 개체 ID를 알 수 없음으로 지정합니다.	모델 유형에 따라 다름
ENTITY_TYPE	모든 문자열을 사용할 수 있습니다.	모델 유형에 따라 다름
EVENT_LABEL	'사기', '법률', '1' 또는 '0'과 같은 모든 레이블을 사용할 수 있습니다.	LABEL_TIMESTAMP가 포함된 경우 필수
LABEL_TIMESTAMP	타임스탬프 형식을 따라야 합니다.	EVENT_LABEL이 포함된 경우 필수

이벤트 변수에 대한 자세한 내용은 변수를 참조하세요.

중요

Account Takeover Insights(ATI) 모델을 생성하는 경우 데이터 준비 및 선택에 대한 자세한 내용은 데이터 준비 섹션을 참조하세요.

Null 또는 누락된 값

EVENT_TIMESTAMP 및 EVENT_LABEL 변수에는 null 또는 누락 값이 포함되어서는 안 됩니다. 다른 변수에 대해 null 또는 누락 값이 있을 수 있습니다. 그러나 이러한 변수에는 작은 수의 null만 사용하는 것이 좋습니다. Amazon Fraud Detector가 이벤트 변수에 대한 null 또는 누락 값이 너무 많다고 판단하면 모델에서 변수를 자동으로 생략합니다.

최소 변수

모델을 생성할 때 데이터 세트에는 필요한 이벤트 메타데이터 외에도 최소 2개의 이벤트 변수가 포함되어야 합니다. 두 이벤트 변수는 검증 검사를 통과해야 합니다.

이벤트 데이터 세트 크기

필수

성공적인 모델 훈련을 위해서는 데이터 세트가 다음과 같은 기본 요구 사항을 충족해야 합니다.

최소 100개 이벤트의 데이터.
데이터 세트에는 사기로 분류된 이벤트(행)가 50개 이상 포함되어야 합니다.

권장

성공적인 모델 훈련과 우수한 모델 성능을 위해 데이터 세트에 다음을 포함하는 것이 좋습니다.

최소 3주 동안 기록 데이터를 포함하되 최대 6개월 동안 데이터를 포함시킵니다.
최소 10K개의 총 이벤트 데이터를 포함합니다.
사기로 분류된 최소 400개의 이벤트(행)와 합법적으로 분류된 400개의 이벤트(행)를 포함합니다.
모델 유형에 ENTITY_ID가 필요한 경우 100개 이상의 고유 엔터티를 포함합니다.

데이터 세트 검증

Amazon Fraud Detector는 모델 생성을 시작하기 전에 모델 훈련을 위한 데이터 세트에 포함된 변수가 크기, 형식 및 기타 요구 사항을 충족하는지 확인합니다. 데이터 세트가 검증을 통과하지 못하면 모델이 생성되지 않습니다. 모델을 생성하기 전에 먼저 검증을 통과하지 못한 변수를 수정해야 합니다. Amazon Fraud Detector는 모델 훈련을 시작하기 전에 데이터 세트의 문제를 식별하고 해결하는 데 사용할 수 있는 데이터 프로파일러를 제공합니다.

데이터 프로파일러

Amazon Fraud Detector는 모델 훈련을 위해 데이터를 프로파일링하고 준비하기 위한 오픈 소스 도구를 제공합니다. 이 자동화된 데이터 프로파일러는 일반적인 데이터 준비 오류를 방지하고 모델 성능에 부정적인 영향을 미칠 수 있는 잘못 매핑된 변수 유형과 같은 잠재적 문제를 식별하는 데 도움이 됩니다. 프로파일러는 변수 통계, 레이블 분포, 범주형 및 숫자 분석, 변수 및 레이블 상관관계를 포함하여 데이터 세트에 대한 직관적이고 포괄적인 보고서를 생성합니다. 변수 유형에 대한 지침과 데이터세트를 Amazon Fraud Detector에 필요한 형식으로 변환하는 옵션을 제공합니다.

데이터 프로파일러 사용

자동화된 데이터 프로파일러는 몇 번의 클릭으로 쉽게 시작할 수 있는 AWS CloudFormation 스택으로 빌드됩니다. 모든 코드는 Github에서 사용할 수 있습니다. 데이터 프로파일러를 사용하는 방법에 대한 자세한 내용은 Amazon Fraud Detector용 자동 데이터 프로파일러를 사용하여 더 빠르게 모델 학습 블로그의 지침을 따르세요.

일반적인 이벤트 데이터 세트 오류

다음은 이벤트 데이터 세트를 검증할 때 Amazon Fraud Detector에서 발생하는 몇 가지 일반적인 문제입니다. 데이터 프로파일러를 실행한 후 모델을 생성하기 전에이 목록을 사용하여 데이터 세트에 오류가 있는지 확인합니다.

CSV 파일은 UTF-8 형식이 아닙니다.
데이터 세트의 이벤트 수가 100개 미만입니다.
사기 또는 합법적으로 식별된 이벤트 수가 50개 미만입니다.
사기 이벤트와 연결된 고유 엔터티의 수가 100개 미만입니다.
EVENT_TIMESTAMP에서 값의 0.1% 이상이 지원되는 날짜/타임스탬프 형식 이외의 null 또는 값을 포함합니다.
EVENT_LABEL에서 값의 1% 이상은 이벤트 유형에 정의된 값 이외의 null 또는 값을 포함합니다.
모델 훈련에 사용할 수 있는 변수는 2개 미만입니다.

데이터 세트 스토리지

데이터 세트를 수집한 후 Amazon Fraud Detector를 사용하여 내부적으로 또는 Amazon Simple Storage Service(Amazon S3)를 사용하여 외부적으로 데이터 세트를 저장합니다. 사기 예측을 생성하는 데 사용하는 모델을 기반으로 데이터 세트를 저장할 위치를 선택하는 것이 좋습니다. 모델 유형에 대한 자세한 내용은 모델 유형 선택을 참조하세요. 데이터 세트 저장에 대한 자세한 내용은 섹션을 참조하세요이벤트 데이터 스토리지.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

다음 단계

이벤트 유형