이벤트 데이터 세트 - Amazon Fraud Detector

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

이벤트 데이터 세트

이벤트 데이터셋은 회사의 과거 부정 행위 데이터입니다. 이 데이터를 Amazon Fraud Detector에 제공하여 사기 탐지 모델을 생성합니다.

Amazon Fraud Detector는 기계 학습 모델을 사용하여 사기 예측을 생성합니다. 각 모델은 모델 유형을 사용하여 학습됩니다. 모델 유형은 모델 학습에 사용되는 알고리즘 및 변환을 지정합니다. 모델 트레이닝은 사용자가 제공한 데이터세트를 사용하여 사기 이벤트를 예측할 수 있는 모델을 만드는 프로세스입니다. 자세한 내용은 Amazon Fraud Detector의 작동 방식을 참조하세요.

사기 탐지 모델을 만드는 데 사용되는 데이터셋은 이벤트의 세부 정보를 제공합니다. 이벤트는 사기 위험에 대한 평가가 이루어지는 비즈니스 활동입니다. 예를 들어, 계정 등록은 이벤트일 수 있습니다. 계정 등록 이벤트와 관련된 데이터는 이벤트 데이터셋일 수 있습니다. Amazon Fraud Detector는 이 데이터 세트를 사용하여 계정 등록 사기를 평가합니다.

모델을 생성하기 위해 Amazon Fraud Detector에 데이터 세트를 제공하기 전에 모델 생성 목표를 정의해야 합니다. 또한 모델을 어떻게 사용할지 결정하고 특정 요구 사항에 따라 모델의 성능을 평가하기 위한 메트릭을 정의해야 합니다.

예를 들어, 계정 등록 사기를 평가하는 사기 탐지 모델을 만들기 위한 목표는 다음과 같을 수 있습니다.

  • 합법적인 등록을 자동 승인하기 위해서입니다.

  • 나중에 조사할 수 있도록 허위 등록을 캡처하기 위해서입니다.

목표를 결정했으면 다음 단계는 모델을 어떻게 사용할지 결정하는 것입니다. 사기 탐지 모델을 사용하여 등록 사기를 평가하는 몇 가지 예는 다음과 같습니다.

  • 각 계정 등록에 대한 실시간 사기 탐지를 위한 것입니다.

  • 매시간 모든 계정 등록에 대한 오프라인 평가용.

모델의 성능을 측정하는 데 사용할 수 있는 몇 가지 지표의 예는 다음과 같습니다.

  • 현재 생산 기준선보다 지속적으로 더 나은 성능을 발휘합니다.

  • Y%의 오탐률로 X% 사기 등록을 캡처합니다.

  • 자동 승인된 허위 등록의 최대 5% 를 수락합니다.

이벤트 데이터 세트 구조

Amazon Fraud Detector를 사용하려면 UTF-8 형식의 쉼표로 구분된 값 (CSV) 을 사용하는 텍스트 파일로 이벤트 데이터 세트를 제공해야 합니다. CSV 데이터세트 파일의 첫 번째 줄에는 파일 헤더가 포함되어야 합니다. 파일 헤더는 이벤트와 관련된 각 데이터 요소를 설명하는 이벤트 메타데이터와 이벤트 변수로 구성됩니다. 헤더 다음에는 이벤트 데이터가 옵니다. 각 라인은 단일 이벤트의 데이터 요소로 구성됩니다.

  • 이벤트 메타데이터 - 이벤트에 대한 정보를 제공합니다. 예를 들어 EVENT_TIMESTAMP는 이벤트가 발생한 시간을 지정하는 이벤트 메타데이터입니다. 비즈니스 사용 사례와 사기 탐지 모델을 만들고 학습하는 데 사용한 모델 유형에 따라 Amazon Fraud Detector에서는 특정 이벤트 메타데이터를 제공해야 합니다. CSV 파일 헤더에 이벤트 메타데이터를 지정할 때는 Amazon Fraud Detector에서 지정한 것과 동일한 이벤트 메타데이터 이름을 사용하고 대문자만 사용하십시오.

  • 이벤트 변수 - 사기 탐지 모델을 만들고 학습하는 데 사용할 이벤트와 관련된 데이터 요소를 나타냅니다. 비즈니스 사용 사례와 사기 탐지 모델을 만들고 학습하는 데 사용한 모델 유형에 따라 Amazon Fraud Detector에서는 특정 이벤트 변수를 제공하도록 요구하거나 권장할 수 있습니다. 모델 학습에 포함하려는 이벤트의 다른 이벤트 변수를 선택적으로 제공할 수도 있습니다. 온라인 등록 이벤트에 대한 이벤트 변수의 예로는 이메일 주소, IP 주소 및 전화번호가 있습니다. CSV 파일 헤더에 이벤트 변수 이름을 지정할 때는 원하는 변수 이름을 사용하고 소문자만 사용하십시오.

  • 이벤트 데이터 - 실제 이벤트에서 수집된 데이터를 나타냅니다. CSV 파일에서 파일 헤더 뒤의 각 행은 단일 이벤트의 데이터 요소로 구성됩니다. 예를 들어, 온라인 등록 이벤트 데이터 파일의 각 행에는 단일 등록의 데이터가 포함됩니다. 행의 각 데이터 요소는 해당 이벤트 메타데이터 또는 이벤트 변수와 일치해야 합니다.

다음은 계정 등록 이벤트의 데이터를 포함하는 CSV 파일의 예입니다. 헤더 행에는 이벤트 메타데이터가 대문자로 표시되고 이벤트 변수가 소문자로 표시되고 그 뒤에 이벤트 데이터가 표시됩니다. 데이터세트의 각 행에는 단일 계정 등록과 관련된 데이터 요소가 포함되며 각 데이터 요소는 헤더에 해당합니다.

CSV file showing event metadata and variables with sample data for account registration events.

데이터 모델 탐색기를 사용하여 이벤트 데이터세트 요구 사항 가져오기

모델을 생성하기 위해 선택한 모델 유형에 따라 데이터세트의 요구 사항이 정의됩니다. Amazon Fraud Detector는 사용자가 제공한 데이터 세트를 사용하여 사기 탐지 모델을 생성하고 교육합니다. Amazon Fraud Detector는 모델 생성을 시작하기 전에 데이터세트가 크기, 형식 및 기타 요구 사항을 충족하는지 확인합니다. 데이터세트가 요구 사항을 충족하지 않으면 모델 생성 및 학습이 실패합니다. 데이터 모델 탐색기를 사용하여 비즈니스 사용 사례에 사용할 모델 유형을 식별하고 식별된 모델 유형에 대한 데이터세트 요구 사항을 파악할 수 있습니다.

데이터 모델 탐색기

데이터 모델 탐색기는 Amazon Fraud Detector 콘솔의 도구로, Amazon Fraud Detector에서 지원하는 모델 유형에 맞게 비즈니스 사용 사례를 조정합니다. 또한 데이터 모델 탐색기는 Amazon Fraud Detector가 사기 탐지 모델을 생성하는 데 필요한 데이터 요소에 대한 통찰력을 제공합니다. 이벤트 데이터세트를 준비하기 전에 데이터 모델 탐색기를 사용하여 Amazon Fraud Detector가 업무용으로 권장하는 모델 유형을 파악하고 데이터세트를 생성하는 데 필요한 필수, 권장 및 선택 데이터 요소 목록을 확인하십시오.

데이터 모델 탐색기를 사용하려면
  1. AWS관리 콘솔을 열고 계정에 로그인합니다. Amazon Fraud Detector로 이동합니다.

  2. 왼쪽 탐색 창에서 데이터 모델 탐색기를 선택합니다.

  3. 데이터 모델 탐색기 페이지의 비즈니스 사용 사례에서 사기 위험을 평가하려는 비즈니스 사용 사례를 선택합니다.

  4. Amazon Fraud Detector는 비즈니스 사용 사례에 맞는 권장 모델 유형을 표시합니다. 모델 유형은 Amazon Fraud Detector가 사기 탐지 모델을 학습하는 데 사용할 알고리즘, 강화 및 변환을 정의합니다.

    권장 모델 유형을 기록해 둡니다. 나중에 모형을 생성할 때 이 정보가 필요합니다.

    참고

    비즈니스 사용 사례를 찾을 수 없는 경우 설명에 있는 문의하기 링크를 사용하여 비즈니스 사용 사례의 세부 정보를 제공하세요. 비즈니스 사용 사례에 맞는 사기 탐지 모델을 만드는 데 사용할 모델 유형을 권장합니다.

  5. 데이터 모델 인사이트 패널은 비즈니스 사용 사례에 맞는 사기 탐지 모델을 만들고 학습하는 데 필요한 필수, 권장 및 선택 데이터 요소에 대한 통찰력을 제공합니다. 인사이트 패널의 정보를 사용하여 이벤트 데이터를 수집하고 데이터 세트를 만들 수 있습니다.

이벤트 데이터 수집

이벤트 데이터 수집은 모델 생성의 중요한 단계입니다. 사기 예측 모델의 성능은 데이터세트의 품질에 따라 달라지기 때문입니다. 이벤트 데이터 수집을 시작할 때는 데이터 모델 탐색기가 데이터세트를 만들기 위해 제공한 데이터 요소 목록을 염두에 두십시오. 모든 필수 (이벤트 메타데이터) 데이터를 수집하고 모델 생성 목표에 따라 포함할 권장 및 선택적 데이터 요소 (이벤트 변수) 를 결정해야 합니다. 포함하려는 각 이벤트 변수의 형식과 데이터셋의 전체 크기를 결정하는 것도 중요합니다.

이벤트 데이터세트 품질

모델에 대해 고품질 데이터 세트를 수집하려면 다음을 권장합니다.

  • 성숙한 데이터 수집 - 최신 데이터를 사용하면 가장 최근의 사기 패턴을 식별하는 데 도움이 됩니다. 하지만 사기 사용 사례를 탐지하려면 데이터가 완성되도록 허용해야 합니다. 만기 기간은 비즈니스에 따라 다르며 2주에서 3개월까지 걸릴 수 있습니다. 예를 들어, 이벤트에 신용 카드 거래가 포함된 경우 신용 카드의 지불 거절 기간 또는 조사자가 결정을 내리는 데 걸린 시간에 따라 데이터 만기가 결정될 수 있습니다.

    모델을 학습하는 데 사용된 데이터세트가 비즈니스에 맞게 성숙할 수 있는 충분한 시간을 확보했는지 확인하세요.

  • 데이터 분포가 크게 달라지지 않도록 주의하세요. Amazon Fraud Detector 모델 학습 프로세스는 EVENT_TIMESTAMP를 기반으로 데이터세트를 샘플링하고 파티셔닝합니다. 예를 들어 데이터세트가 지난 6개월 동안 수집된 사기 이벤트로 구성되어 있지만 합법적인 이벤트의 마지막 달만 포함된 경우 데이터 분포는 변동하고 불안정한 것으로 간주됩니다. 데이터 세트가 불안정하면 모델 성능 평가에 편향이 생길 수 있습니다. 데이터 분포가 크게 변동하는 경우 현재 데이터 분포와 유사한 데이터를 수집하여 데이터세트의 균형을 맞추는 것을 고려해 보십시오.

  • 데이터세트가 모델이 구현/테스트된 사용 사례를 대표하는지 확인하십시오. 그렇지 않으면 예상 성능이 편향될 수 있습니다. 모든 실내 지원자를 자동으로 거절하는 모델을 사용하고 있는데 이전에 승인된 과거 데이터/라벨이 있는 데이터세트로 모델을 학습시켰다고 가정해 보겠습니다. 그러면 평가가 거부된 지원자의 표현이 없는 데이터세트를 기반으로 하기 때문에 모델 평가가 정확하지 않을 수 있습니다.

이벤트 데이터 형식

Amazon Fraud Detector는 모델 학습 프로세스의 일환으로 대부분의 데이터를 필요한 형식으로 변환합니다. 하지만 나중에 Amazon Fraud Detector가 데이터 세트를 검증할 때 문제가 발생하지 않도록 데이터를 제공하는 데 쉽게 사용할 수 있는 몇 가지 표준 형식이 있습니다. 다음 표는 권장 이벤트 메타데이터를 제공하기 위한 형식에 대한 지침을 제공합니다.

참고

CSV 파일을 만들 때는 아래 나열된 대로 이벤트 메타데이터 이름을 대문자로 입력해야 합니다.

메타데이터 이름 형식 필수

이벤트_ID

제공된 경우 다음 요구 사항을 충족해야 합니다.

  • 이 이벤트에서만 볼 수 있는 특별한 이벤트입니다.

  • 이는 비즈니스에 의미 있는 정보를 나타냅니다.

  • 정규 표현식 패턴을 따릅니다 (예:^[0-9a-z_-]+$.)

  • 위의 요구 사항 외에도 EVENT_ID에 타임스탬프를 추가하지 않는 것이 좋습니다. 이렇게 하면 이벤트를 업데이트할 때 문제가 발생할 수 있습니다. 이렇게 하려면 정확히 동일한 EVENT_ID를 제공해야 하기 때문입니다.

모델 유형에 따라 다름

이벤트_타임스탬프

  • 다음 형식 중 하나로 지정해야 합니다.

    • %yyy-%mm-%DDT%HH: %mm: %ssZ (밀리초 없이 UTC로만 표시되는 ISO 8601 표준)

      예: 2019-11-30T13:01:01 Z

    • %yyy/%mm/%dd %hh: %mm: %s (오전/오후)

      예: 2019/11/30 오후 1:01:01 또는 2019/11/30 13:01:01

    • %mm/%dd/%yyyy %hh: %mm: %s

      예: 2019년 11월 30일 오후 1:01:01, 2019년 11월 30일 13:01:01

    • %mm/%dd/%yy %hh: %mm: %ss

      예: 11/30/19 오후 1:01:01, 11/30/19 13:01:01

  • Amazon Fraud Detector는 이벤트 타임스탬프의 날짜/타임스탬프 형식을 분석할 때 다음과 같은 가정을 합니다.

    • ISO 8601 표준을 사용하는 경우 이전 사양과 정확히 일치해야 합니다.

    • 다른 형식 중 하나를 사용하는 경우 유연성이 더욱 향상됩니다.

      • 월 및 일 단위로 한 자리 또는 두 자리 숫자를 제공할 수 있습니다. 예를 들어, 2019년 1월 12일은 유효한 날짜입니다.

      • hh:mm:ss가 없으면 포함하지 않아도 됩니다 (즉, 날짜를 입력하기만 하면 됩니다). 시간과 분의 하위 집합 (예: hh:mm) 을 제공할 수도 있습니다. 시간만 제공하는 것은 지원되지 않습니다. 밀리초도 지원되지 않습니다.

      • AM/PM 레이블을 제공하는 경우 12시간 시간을 기준으로 합니다. AM/PM 정보가 없는 경우 24시간 시계를 사용하는 것으로 가정합니다.

      • 날짜 요소의 구분 기호로 “/” 또는 “-”를 사용할 수 있습니다. 타임스탬프 요소에는 “:”가 사용됩니다.

엔티티_아이디

  • 정규 표현식 패턴을 따라야 합니다^[0-9A-Za-z_.@+-]+$.

  • 평가 시 개체 ID를 사용할 수 없는 경우 개체 ID를 수 없음으로 지정하십시오.

모델 유형에 따라 다름

엔티티_유형

모든 문자열을 사용할 수 있습니다.

모델 유형에 따라 다름

이벤트_라벨

“사기”, “합법적”, “1" 또는 “0"과 같은 모든 레이블을 사용할 수 있습니다.

LABEL_타임스탬프가 포함된 경우 필수

레이블_타임스탬프

타임스탬프 형식을 따라야 합니다.

이벤트_라벨이 포함된 경우 필수

이벤트 변수에 대한 자세한 내용은 변수를 참조하십시오.

중요

계정 인사이트 (ATI) 모델을 생성하는 경우 데이터 준비 및 선택에데이터 준비 대한 자세한 내용은 을 참조하십시오.

값이 없거나 누락된 값

EVENT_TIMESTAMP 및 EVENT_LABEL 변수에는 null이나 누락된 값이 포함되어서는 안 됩니다. 다른 변수에는 null 또는 누락된 값이 있을 수 있습니다. 그러나 이러한 변수에는 적은 수의 null만 사용하는 것이 좋습니다. Amazon Fraud Detector는 이벤트 변수에 대해 null 또는 누락된 값이 너무 많다고 판단하면 모델에서 변수를 자동으로 생략합니다.

최소 변수

모델을 만들 때 데이터셋에는 필수 이벤트 메타데이터 외에 두 개 이상의 이벤트 변수가 포함되어야 합니다. 두 이벤트 변수는 유효성 검사를 통과해야 합니다.

이벤트 데이터세트 크기

필수

성공적인 모델 학습을 위해서는 데이터세트가 다음과 같은 기본 요구 사항을 충족해야 합니다.

  • 최소 100개 이벤트의 데이터

  • 데이터세트에는 사기로 분류된 이벤트 (행) 가 50개 이상 포함되어야 합니다.

권장

성공적인 모델 학습과 우수한 모델 성능을 위해서는 데이터세트에 다음을 포함하는 것이 좋습니다.

  • 최소 3주 분량의 과거 데이터를 포함하되, 최대 6개월 분량의 데이터를 포함해야 합니다.

  • 최소 10,000개의 총 이벤트 데이터를 포함해야 합니다.

  • 사기성 이벤트로 분류된 최소 400개의 이벤트 (행) 와 합법적인 것으로 분류된 400개 이상의 이벤트 (행) 를 포함합니다.

  • 모델 유형에 ENTITY_ID가 필요한 경우 100개 이상의 고유 엔티티를 포함하십시오.

데이터 세트 검증

Amazon Fraud Detector는 모델 생성을 시작하기 전에 모델 학습용 데이터세트에 포함된 변수가 크기, 형식 및 기타 요구 사항을 충족하는지 확인합니다. 데이터세트가 검증을 통과하지 못하면 모델이 생성되지 않습니다. 모델을 생성하기 전에 검증을 통과하지 못한 변수를 먼저 수정해야 합니다. Amazon Fraud Detector는 모델 학습을 시작하기 전에 데이터 세트와 관련된 문제를 식별하고 해결하는 데 사용할 수 있는 데이터 프로파일러를 제공합니다.

데이터 프로파일러

Amazon Fraud Detector는 모델 교육을 위해 데이터를 프로파일링하고 준비할 수 있는 오픈 소스 도구를 제공합니다. 이 자동화된 데이터 프로파일러를 사용하면 일반적인 데이터 준비 오류를 방지하고 잘못 매핑된 변수 유형과 같이 모델 성능에 부정적인 영향을 미칠 수 있는 잠재적 문제를 식별할 수 있습니다. 프로파일러는 변수 통계, 라벨 분포, 범주형 및 수치 분석, 변수 및 레이블 상관관계를 포함하여 데이터세트에 대한 직관적이고 포괄적인 보고서를 생성합니다. 변수 유형에 대한 지침과 데이터 세트를 Amazon Fraud Detector에 필요한 형식으로 변환하는 옵션을 제공합니다.

데이터 프로파일러 사용

자동화된 데이터 프로파일러는 몇 번의 클릭만으로 쉽게 실행할 수 있는AWS CloudFormation 스택으로 구축됩니다. 모든 코드는 Github에서 사용할 수 있습니다. 데이터 프로파일러 사용 방법에 대한 자세한 내용은 블로그의 지침을 따르십시오. Amazon Fraud Detector용 자동 데이터 프로파일러로 모델을 더 빠르게 교육하세요.

일반적인 이벤트 데이터세트 오류

다음은 Amazon Fraud Detector가 이벤트 데이터 세트를 검증할 때 발생하는 몇 가지 일반적인 문제입니다. 데이터 프로파일러를 실행한 후 모델을 생성하기 전에 이 목록을 사용하여 데이터세트에 오류가 있는지 확인하십시오.

  • CSV 파일은 UTF-8 형식이 아닙니다.

  • 데이터셋의 이벤트 수가 100개 미만입니다.

  • 사기 또는 합법적인 것으로 확인된 이벤트의 수는 50개 미만입니다.

  • 사기 이벤트와 관련된 고유 개체의 수는 100개 미만입니다.

  • EVENT_TIMESTAMP의 0.1% 이상의 값에 지원되는 날짜/타임스탬프 형식이 아닌 다른 값이나 null이 포함되어 있습니다.

  • EVENT_LABEL 값의 1% 이상에 이벤트 유형에 정의된 것과 다른 값이나 null이 포함되어 있습니다.

  • 모델 학습에 사용할 수 있는 변수는 두 개 미만입니다.

데이터 세트 스토리지에 대해

데이터 세트를 수집한 후에는 Amazon Simple Storage Service (Amazon S3) 을 사용하여 데이터 세트를 내부적으로 저장합니다. 사기 예측을 생성하는 데 사용하는 모델을 기반으로 데이터세트를 저장할 위치를 선택하는 것이 좋습니다. 모델 유형에 대한 자세한 내용은 모델 유형 선택을 참조하십시오. 데이터세트 저장에 대한 자세한 내용은 을 참조하십시오이벤트 데이터 스토리지.