사용자 지정 데이터세트 및 스키마

사용자 지정 데이터세트 그룹을 만들 때는 처음부터 자체 스키마를 생성합니다. 사용자 지정 데이터세트 그룹 데이터세트와 스키마는 필수 필드 수가 더 적고 유연성이 높습니다. 다음 주제에서는 사용자 지정 데이터 세트 그룹의 데이터 세트에 대한 스키마와 데이터 요구 사항을 설명합니다. 각 데이터세트 단원에는 데이터세트 유형을 위한 필수 데이터가 나열되고 스키마의 JSON 예제를 제공합니다.

Personalize로 가져올 수 있는 데이터 유형에 대한 자세한 내용은 Personalize가 사용할 수 있는 데이터 유형단원을 참조하세요. 형식 지정 요구 사항 및 사용 가능한 필드 데이터 유형과 같은 일반적인 Personalize 스키마 요구 사항에 대한 자세한 내용은 Amazon Personalize 스키마에 대한 스키마 JSON 파일 생성단원을 참조하세요. 이러한 요구 사항은 모든 Personalize 스키마에 적용됩니다.

주제

사용자 지정 데이터세트 및 스키마 요구 사항

사용자 지정 데이터세트 그룹의 데이터세트를 만들 때 각 데이터세트 유형에는 다음과 같은 필수 필드와 필수 데이터 유형이 포함된 예약어가 있습니다.

데이터세트 유형	필수 필드	예약어
항목 상호 작용(스키마 예제)	USER_ID(`string`) ITEM_ID(`string`) TIMESTAMP(`long`)	EVENT_TYPE(`string`) EVENT_VALUE(`float`, `null`) IMPRESSION(`string`, `null`) RECOMMENDATION_ID(`string`, `null`) EVENT_ATTRIBUTION_SOURCE(`string`, `null`)
사용자(스키마 예제)	USER_ID(`string`) 메타데이터 필드 1개(범주형 `string`또는 숫자형)
항목(스키마 예제)	ITEM_ID(`string`) 메타데이터 필드 1개(범주형 또는 텍스트형 `string`필드 또는 숫자형 필드)	CREATION_TIMESTAMP(`long`)
작업(스키마 예제)	ACTION_ID(`string`) 메타데이터 필드 1개(범주형 `string`또는 숫자형)	CREATION_TIMESTAMP(`long`) VALUE(`long`, `null`) TYPE(`string`, `null`) EXPIRATION_TIMESTAMP(`long`, `null`) REPEAT_FREQUENCY(`long`, `null`)
작업 상호 작용(스키마 예제)	USER_ID(`string`) ACTION_ID(`string`) EVENT_TYPE(`string`) TIMESTAMP(`long`)	IMPRESSION(`string`, `null`) RECOMMENDATION_ID(`string`, `null`)

메타데이터 필드

메타데이터에는 필수가 아니거나 예약어를 사용하지 않는 문자열 또는 문자열이 아닌 필드가 포함됩니다. 메타데이터 스키마에는 다음과 같은 제한이 있습니다.

사용자, 항목 및 작업 스키마는 하나 이상의 메타데이터 필드가 필요합니다.
사용자 스키마의 경우 최대 25개의 메타데이터 필드, 항목 스키마의 경우 100개의 메타데이터 필드, 작업 스키마의 경우 10개의 메타데이터 필드를 추가할 수 있습니다.
유형 string의 자체 메타데이터 필드를 추가하는 경우, categorical속성이나 textual속성을 포함해야만 합니다(항목 스키마는 텍스트 속성이 있는 필드만 지원함). 그렇지 않으면 Personalize는 모델을 학습할 때 필드를 사용하지 않습니다.

예약어

예약어는 메타데이터가 아닌 선택형 필드입니다. 이러한 필드는 사용할 때 필수 데이터 유형으로 필드를 정의해야 하고 예약어는 데이터의 값으로 사용할 수 없으므로 예약된 것으로 간주됩니다. 예약된 범주형 문자열 필드는 categorical을 true로 설정되어 있어야 하지만 예약된 문자열 필드는 범주형일 수 없습니다. 다음은 예약어입니다.

EVENT_TYPE: 하나 이상의 이벤트 유형(예: 클릭 및 다운로드 모두)이 있는 항목 상호 작용 데이터 세트의 경우, EVENT_TYPE 필드를 사용합니다. EVENT_TYPE 필드를 string으로 정의해야 하며 범주형으로 설정할 수 없습니다.
EVENT_VALUE: 이벤트에 대한 값 데이터(예: 사용자가 시청한 동영상의 비율)가 포함된 항목 상호 작용 데이터 세트의 경우, 유형 float 및 선택형 null이 포함된 EVENT_VALUE 필드를 사용합니다.
CREATION_TIMESTAMP: 각 항목의 생성일에 대한 타임스탬프가 있는 항목 또는 작업 데이터 세트의 경우, 유형 long이 있는 CREATION_TIMESTAMP 필드를 사용합니다. Personalize는 CREATION_TIMESTAMP데이터를 사용하여 항목의 수명을 계산하고 그에 따라 추천을 조정합니다. 생성 타임스탬프 데이터을(를) 참조하세요.
IMPRESSION: 명시적 노출 데이터가 포함된 항목 상호 작용 데이터 세트의 경우, 유형 String이 있고 선택형 유형 null이 있는 IMPRESSION 필드를 사용합니다. 노출은 사용자가 특정 항목과 상호작용(예: 클릭 또는 시청)했을 때 볼 수 있었던 항목의 목록입니다. 자세한 내용은 노출 데이터 단원을 참조하십시오.
RECOMIDATION_ID: 이전 추천을 암시적 노출 데이터로 사용하는 항목 상호 작용 데이터 세트의 경우, 유형 String이 있고 선택형 유형 null이 있는 RECOMMENDATION_ID 필드를 필요에 따라 사용합니다.

추천을 생성할 때 Personalize에 암시적 노출을 사용하기 위해 RECOMMENDATION_ID필드를 추가할 필요는 없습니다. 필드가 없어도 PutEvents작업에서 recommendationId을 전달할 수 있습니다. 자세한 내용은 노출 데이터 단원을 참조하십시오.
VALUE: 작업 데이터 세트의 경우, 일부 또는 모든 작업에 데이터에 대한 값이 있다면 스키마에 VALUE 필드를 추가합니다. 유형에는 long을 사용하고 필요에 따라 null 유형을 사용합니다. 작업 및 작업 값에 대한 자세한 내용은 값 데이터 섹션을 참조하세요.
ACTION_EXPIRATION_TIMESTAMP: 작업 데이터 세트의 경우, 일부 또는 모든 작업에 만료 타임스탬프가 있다면 스키마에 ACTION_EXPIRATION_TIMESTAMP 필드를 추가합니다. 유형에는 long을 사용하고 필요에 따라 null 유형을 사용합니다. 만료 타임스탬프에 대한 자세한 내용은 작업 만료 타임스탬프 데이터 섹션을 참조하세요.
REPEAT_FREQUENCY: 작업 데이터 세트의 경우, 일부 또는 모든 작업에 반복 빈도 데이터가 있다면 스키마에 REPEAT_FREQUENCY 필드를 추가합니다. 유형에는 long을 사용하고 필요에 따라 null 유형을 사용합니다. 반복 빈도 데이터에 대한 자세한 내용은 반복 빈도 데이터 섹션을 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

항목 데이터세트 요구 사항

항목 상호 작용 데이터 세트 스키마 요구 사항