기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
사용자 지정 데이터세트 및 스키마
사용자 지정 데이터세트 그룹을 만들 때는 처음부터 자체 스키마를 생성합니다. 사용자 지정 데이터세트 그룹 데이터세트와 스키마는 필수 필드 수가 더 적고 유연성이 높습니다. 다음 주제에서는 사용자 지정 데이터 세트 그룹의 데이터 세트에 대한 스키마와 데이터 요구 사항을 설명합니다. 각 데이터세트 단원에는 데이터세트 유형을 위한 필수 데이터가 나열되고 스키마의 JSON 예제를 제공합니다.
Personalize로 가져올 수 있는 데이터 유형에 대한 자세한 내용은 데이터세트단원을 참조하세요. 형식 지정 요구 사항 및 사용 가능한 필드 데이터 유형과 같은 일반적인 Personalize 스키마 요구 사항에 대한 자세한 내용은 스키마단원을 참조하세요. 이러한 요구 사항은 모든 Personalize 스키마에 적용됩니다.
주제
사용자 지정 데이터세트 및 스키마 요구 사항
사용자 지정 데이터세트 그룹의 데이터세트를 만들 때 각 데이터세트 유형에는 다음과 같은 필수 필드와 필수 데이터 유형이 포함된 예약어가 있습니다.
데이터세트 유형 | 필수 필드 | 예약어 |
---|---|---|
항목 상호 작용(스키마 예제) |
USER_ID( ITEM_ID( TIMESTAMP( |
EVENT_TYPE( EVENT_VALUE( IMPRESSION( RECOMMENDATION_ID( EVENT_ATTRIBUTION_SOURCE( |
사용자(스키마 예제) |
USER_ID( 메타데이터 필드 1개(범주형 |
|
항목(스키마 예제) |
ITEM_ID( 메타데이터 필드 1개(범주형 또는 텍스트형 |
CREATION_TIMESTAMP( |
작업(스키마 예제) |
ACTION_ID( 메타데이터 필드 1개(범주형 |
CREATION_TIMESTAMP( VALUE( TYPE( EXPIRATION_TIMESTAMP( REPEAT_FREQUENCY( |
작업 상호 작용(스키마 예제) |
USER_ID( ACTION_ID( EVENT_TYPE( TIMESTAMP( |
IMPRESSION( RECOMMENDATION_ID( |
메타데이터 필드
메타데이터에는 필수가 아니거나 예약어를 사용하지 않는 문자열 또는 문자열이 아닌 필드가 포함됩니다. 메타데이터 스키마에는 다음과 같은 제한이 있습니다.
-
사용자, 항목 및 작업 스키마에는 하나 이상의 메타데이터 필드가 필요합니다.
-
사용자 스키마의 경우 최대 25개의 메타데이터 필드, 항목 스키마의 경우 100개의 메타데이터 필드, 작업 스키마의 경우 10개의 메타데이터 필드를 추가할 수 있습니다.
-
유형
string
의 자체 메타데이터 필드를 추가하는 경우,categorical
속성이나textual
속성을 포함해야만 합니다(항목 스키마는 텍스트 속성이 있는 필드만 지원함). 그렇지 않으면 Personalize는 모델을 학습할 때 필드를 사용하지 않습니다.
예약어
예약어는 메타데이터가 아닌 선택형 필드입니다. 이러한 필드는 사용할 때 필수 데이터 유형으로 필드를 정의해야 하고 예약어는 데이터의 값으로 사용할 수 없으므로 예약된 것으로 간주됩니다. 예약된 범주형 문자열 필드는 categorical
을 true
로 설정되어 있어야 하지만 예약된 문자열 필드는 범주형일 수 없습니다. 다음은 예약어입니다.
-
EVENT_TYPE: 하나 이상의 이벤트 유형(예: 클릭 및 다운로드 모두)이 있는 항목 상호 작용 데이터 세트의 경우,
EVENT_TYPE
필드를 사용합니다. EVENT_TYPE 필드를string
으로 정의해야 하며 범주형으로 설정할 수 없습니다. -
EVENT_VALUE: 이벤트에 대한 값 데이터(예: 사용자가 시청한 동영상의 비율)가 포함된 항목 상호 작용 데이터 세트의 경우, 유형
float
및 선택형null
이 포함된EVENT_VALUE
필드를 사용합니다. -
CREATION_TIMESTAMP: 각 항목의 생성일에 대한 타임스탬프가 있는 항목 또는 작업 데이터 세트의 경우, 유형
long
이 있는CREATION_TIMESTAMP
필드를 사용합니다. Personalize는CREATION_TIMESTAMP
데이터를 사용하여 항목의 수명을 계산하고 그에 따라 추천을 조정합니다. 생성 타임스탬프 데이터 단원을 참조하세요. -
IMPRESSION: 명시적 노출 데이터가 포함된 항목 상호 작용 데이터 세트의 경우, 유형
String
이 있고 선택형 유형null
이 있는IMPRESSION
필드를 사용합니다. 노출은 사용자가 특정 항목과 상호작용(예: 클릭 또는 시청)했을 때 볼 수 있었던 항목의 목록입니다. 자세한 내용은 노출 데이터단원을 참조하세요. -
RECOMIDATION_ID: 이전 추천을 암시적 노출 데이터로 사용하는 항목 상호 작용 데이터 세트의 경우, 유형
String
이 있고 선택형 유형null
이 있는RECOMMENDATION_ID
필드를 필요에 따라 사용합니다.추천을 생성할 때 Personalize에 암시적 노출을 사용하기 위해
RECOMMENDATION_ID
필드를 추가할 필요는 없습니다. 필드가 없어도 PutEvents작업에서recommendationId
을 전달할 수 있습니다. 자세한 내용은 노출 데이터단원을 참조하세요. -
VALUE: 작업 데이터 세트의 경우, 일부 또는 모든 작업에 데이터에 대한 값이 있다면 스키마에
VALUE
필드를 추가합니다. 유형에는long
을 사용하고 필요에 따라null
유형을 사용합니다. 작업 및 작업 값에 대한 자세한 내용은 값 데이터 섹션을 참조하세요. -
ACTION_EXPIRATION_TIMESTAMP: 작업 데이터 세트의 경우, 일부 또는 모든 작업에 만료 타임스탬프가 있다면 스키마에
ACTION_EXPIRATION_TIMESTAMP
필드를 추가합니다. 유형에는long
을 사용하고 필요에 따라null
유형을 사용합니다. 만료 타임스탬프에 대한 자세한 내용은 작업 만료 타임스탬프 데이터 섹션을 참조하세요. -
REPEAT_FREQUENCY: 작업 데이터 세트의 경우, 일부 또는 모든 작업에 반복 빈도 데이터가 있다면 스키마에
REPEAT_FREQUENCY
필드를 추가합니다. 유형에는long
을 사용하고 필요에 따라null
유형을 사용합니다. 반복 빈도 데이터에 대한 자세한 내용은 반복 빈도 데이터 섹션을 참조하세요.