사용자 지정 데이터세트 및 스키마 - Personalize

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

사용자 지정 데이터세트 및 스키마

사용자 지정 데이터세트 그룹을 만들 때는 처음부터 자체 스키마를 생성합니다. 사용자 지정 데이터세트 그룹 데이터세트와 스키마는 필수 필드 수가 더 적고 유연성이 높습니다. 다음 주제에서는 사용자 지정 데이터 세트 그룹의 데이터 세트에 대한 스키마와 데이터 요구 사항을 설명합니다. 각 데이터세트 단원에는 데이터세트 유형을 위한 필수 데이터가 나열되고 스키마의 JSON 예제를 제공합니다.

Personalize로 가져올 수 있는 데이터 유형에 대한 자세한 내용은 데이터세트단원을 참조하세요. 형식 지정 요구 사항 및 사용 가능한 필드 데이터 유형과 같은 일반적인 Personalize 스키마 요구 사항에 대한 자세한 내용은 스키마단원을 참조하세요. 이러한 요구 사항은 모든 Personalize 스키마에 적용됩니다.

사용자 지정 데이터세트 및 스키마 요구 사항

사용자 지정 데이터세트 그룹의 데이터세트를 만들 때 각 데이터세트 유형에는 다음과 같은 필수 필드와 필수 데이터 유형이 포함된 예약어가 있습니다.

데이터세트 유형 필수 필드 예약어
항목 상호 작용(스키마 예제)

USER_ID(string)

ITEM_ID(string)

TIMESTAMP(long)

EVENT_TYPE(string)

EVENT_VALUE(float, null)

IMPRESSION(string, null)

RECOMMENDATION_ID(string, null)

EVENT_ATTRIBUTION_SOURCE(string, null)

사용자(스키마 예제)

USER_ID(string)

메타데이터 필드 1개(범주형 string또는 숫자형)

항목(스키마 예제)

ITEM_ID(string)

메타데이터 필드 1개(범주형 또는 텍스트형 string필드 또는 숫자형 필드)

CREATION_TIMESTAMP(long)

작업(스키마 예제)

ACTION_ID(string)

메타데이터 필드 1개(범주형 string또는 숫자형)

CREATION_TIMESTAMP(long)

VALUE(long, null)

TYPE(string, null)

EXPIRATION_TIMESTAMP(long, null)

REPEAT_FREQUENCY(long, null)

작업 상호 작용(스키마 예제)

USER_ID(string)

ACTION_ID(string)

EVENT_TYPE(string)

TIMESTAMP(long)

IMPRESSION(string, null)

RECOMMENDATION_ID(string, null)

메타데이터 필드

메타데이터에는 필수가 아니거나 예약어를 사용하지 않는 문자열 또는 문자열이 아닌 필드가 포함됩니다. 메타데이터 스키마에는 다음과 같은 제한이 있습니다.

  • 사용자, 항목 및 작업 스키마에는 하나 이상의 메타데이터 필드가 필요합니다.

  • 사용자 스키마의 경우 최대 25개의 메타데이터 필드, 항목 스키마의 경우 100개의 메타데이터 필드, 작업 스키마의 경우 10개의 메타데이터 필드를 추가할 수 있습니다.

  • 유형 string의 자체 메타데이터 필드를 추가하는 경우, categorical속성이나 textual속성을 포함해야만 합니다(항목 스키마는 텍스트 속성이 있는 필드만 지원함). 그렇지 않으면 Personalize는 모델을 학습할 때 필드를 사용하지 않습니다.

예약어

예약어는 메타데이터가 아닌 선택형 필드입니다. 이러한 필드는 사용할 때 필수 데이터 유형으로 필드를 정의해야 하고 예약어는 데이터의 값으로 사용할 수 없으므로 예약된 것으로 간주됩니다. 예약된 범주형 문자열 필드는 categoricaltrue로 설정되어 있어야 하지만 예약된 문자열 필드는 범주형일 수 없습니다. 다음은 예약어입니다.

  • EVENT_TYPE: 하나 이상의 이벤트 유형(예: 클릭다운로드 모두)이 있는 항목 상호 작용 데이터 세트의 경우, EVENT_TYPE 필드를 사용합니다. EVENT_TYPE 필드를 string으로 정의해야 하며 범주형으로 설정할 수 없습니다.

  • EVENT_VALUE: 이벤트에 대한 값 데이터(예: 사용자가 시청한 동영상의 비율)가 포함된 항목 상호 작용 데이터 세트의 경우, 유형 float 및 선택형 null이 포함된 EVENT_VALUE 필드를 사용합니다.

  • CREATION_TIMESTAMP: 각 항목의 생성일에 대한 타임스탬프가 있는 항목 또는 작업 데이터 세트의 경우, 유형 long이 있는 CREATION_TIMESTAMP 필드를 사용합니다. Personalize는 CREATION_TIMESTAMP데이터를 사용하여 항목의 수명을 계산하고 그에 따라 추천을 조정합니다. 생성 타임스탬프 데이터 단원을 참조하세요.

  • IMPRESSION: 명시적 노출 데이터가 포함된 항목 상호 작용 데이터 세트의 경우, 유형 String이 있고 선택형 유형 null이 있는 IMPRESSION 필드를 사용합니다. 노출은 사용자가 특정 항목과 상호작용(예: 클릭 또는 시청)했을 때 볼 수 있었던 항목의 목록입니다. 자세한 내용은 노출 데이터단원을 참조하세요.

  • RECOMIDATION_ID: 이전 추천을 암시적 노출 데이터로 사용하는 항목 상호 작용 데이터 세트의 경우, 유형 String이 있고 선택형 유형 null이 있는 RECOMMENDATION_ID 필드를 필요에 따라 사용합니다.

    추천을 생성할 때 Personalize에 암시적 노출을 사용하기 위해 RECOMMENDATION_ID필드를 추가할 필요는 없습니다. 필드가 없어도 PutEvents작업에서 recommendationId을 전달할 수 있습니다. 자세한 내용은 노출 데이터단원을 참조하세요.

  • VALUE: 작업 데이터 세트의 경우, 일부 또는 모든 작업에 데이터에 대한 값이 있다면 스키마에 VALUE 필드를 추가합니다. 유형에는 long을 사용하고 필요에 따라 null 유형을 사용합니다. 작업 및 작업 값에 대한 자세한 내용은 값 데이터 섹션을 참조하세요.

  • ACTION_EXPIRATION_TIMESTAMP: 작업 데이터 세트의 경우, 일부 또는 모든 작업에 만료 타임스탬프가 있다면 스키마에 ACTION_EXPIRATION_TIMESTAMP 필드를 추가합니다. 유형에는 long을 사용하고 필요에 따라 null 유형을 사용합니다. 만료 타임스탬프에 대한 자세한 내용은 작업 만료 타임스탬프 데이터 섹션을 참조하세요.

  • REPEAT_FREQUENCY: 작업 데이터 세트의 경우, 일부 또는 모든 작업에 반복 빈도 데이터가 있다면 스키마에 REPEAT_FREQUENCY 필드를 추가합니다. 유형에는 long을 사용하고 필요에 따라 null 유형을 사용합니다. 반복 빈도 데이터에 대한 자세한 내용은 반복 빈도 데이터 섹션을 참조하세요.