Clean Rooms ML의 교육 데이터 요구 사항 - AWS Clean Rooms

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Clean Rooms ML의 교육 데이터 요구 사항

유사 모델을 성공적으로 만들려면 훈련 데이터가 다음 요구 사항을 충족해야 합니다.

  • 훈련 데이터는 ParquetCSV, 또는 형식이어야 합니다. JSON

  • 훈련 데이터는 다음 범주에 포함되어야 합니다. AWS Glue. 자세한 내용은 시작하기 를 참조하십시오. AWS Glue Data Catalog의 AWS Glue 개발자 가이드. 다음을 사용하는 것이 좋습니다. AWS Glue 스키마가 자동으로 추론되므로 크롤러를 사용하여 테이블을 생성합니다.

  • 교육 데이터와 시드 데이터를 포함하는 Amazon S3 버킷은 같은 위치에 있습니다. AWS 다른 클린룸 ML 리소스와 같은 지역.

  • 교육 데이터에는 각각 항목 상호 작용이 두 번 이상 IDs 있는 고유 사용자가 100,000명 이상이어야 합니다.

  • 훈련 데이터에는 최소 1백만 개의 기록이 포함되어야 합니다.

  • CreateTrainingDataset작업에 지정된 스키마는 다음과 같은 경우에 정의된 스키마와 일치해야 합니다. AWS Glue 테이블이 생성되었습니다.

  • 제공된 표에 정의된 필수 필드는 CreateTrainingDataset 작업에 정의되어 있습니다.

    필드 유형 지원되는 데이터 유형 필수 설명
    USER_ID 문자열, 정수, 빅진수 데이터세트에 있는 각 사용자의 고유 식별자. 개인 식별이 불가능한 정보 () PII 값이어야 합니다. 이는 해시된 식별자 또는 고객 ID일 수 있습니다.
    ITEM_ID 문자열, 정수, 빅진수 사용자가 상호작용하는 각 항목의 고유 식별자.
    TIMESTAMP bigint, int, 타임스탬프 사용자가 항목과 상호작용한 시간. 값은 Unix epoch 시간 (초) 형식이어야 합니다.
    CATEGORICAL_FEATURE 문자열, int, float, bigint, 더블, 부울, 배열 아니요 사용자 또는 항목과 관련된 범주형 데이터를 캡처합니다. 여기에는 이벤트 유형 (예: 클릭 또는 구매), 사용자 인구 통계 (연령 그룹, 성별 - 익명), 사용자 위치 (도시, 국가 - 익명), 아이템 카테고리 (예: 의류 또는 전자 제품) 또는 아이템 브랜드 등이 포함될 수 있습니다.
    NUMERICAL_FEATURE 더블, 플로트, int, bigint 아니요 사용자 또는 항목과 관련된 수치 데이터를 캡처합니다. 여기에는 사용자 구매 내역 (총 지출 금액), 항목 가격, 항목 방문 횟수, 항목에 대한 사용자 평점 등이 포함될 수 있습니다.
  • 선택적으로 총 10개의 범주형 또는 숫자형 특징을 제공할 수 있습니다.

다음은 형식상 유효한 훈련 데이터 세트의 예입니다. CSV

USER_ID,ITEM_ID,TIMESTAMP, EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE) 196,242,881250949,click,15 186,302,891717742,click,13 22,377,878887116,click,10 244,51,880606923,click,20 166,346,886397596,click,10