항목 데이터 세트 스키마 요구 사항(사용자 지정)

항목 데이터세트는 카탈로그의 항목에 대한 메타데이터를 저장합니다. 여기에는 각 항목의 가격, 장르, 재고 여부 등의 정보가 포함될 수 있습니다. Personalize로 가져올 수 있는 항목 데이터 유형에 대한 자세한 내용은 항목 메타데이터단원을 참조하세요.

각 항목에 제공하는 데이터는 항목 데이터세트 스키마와 일치해야 합니다. 최소한 각 항목의 항목 ID(최대 길이 256자)를 제공해야 합니다. 스키마에 따라 항목 메타데이터에는 비어 있음/null 값이 포함될 수 있습니다. 스키마에는 최소 하나 이상의 메타데이터 필드가 있어야 하지만 null 유형을 추가할 경우 항목에 대해 이 값이 null이 될 수 있습니다. 사용 사례와 데이터에 따라 추가 필드를 마음대로 추가할 수 있습니다. 필드가 필수 또는 예약으로 나열되어 있지 않고 데이터 유형이 스키마 데이터 유형에 나열된 경우, 필드 이름과 데이터 사용자가 선택할 수 있습니다.

범주형 데이터를 사용하려면 스키마에서 유형 string필드를 추가하고 필드의 범주형 속성을 true로 설정합니다. 그런 다음 대량 CSV 파일 및 개별 항목 가져오기에 범주형 데이터를 포함합니다. 범주형 값은 최대 1000자까지 포함할 수 있습니다. 범주형 값이 1000자를 초과하는 항목이 있는 경우, 데이터세트 가져오기 작업이 실패합니다.

여러 범주를 갖는 항목의 경우, 세로 막대 '|'로 각 값을 구분합니다. 예를 들어, GENRES 필드의 경우 항목에 대한 데이터가 Action|Crime|Biopic이 될 수 있습니다. 여러 수준의 범주형 데이터가 있고 일부 항목에 계층의 각 수준에 대해 여러 범주가 있는 경우, 각 수준에 필드를 추가하고 각 필드 이름 뒤에 GENRES, GENRE_L2, GENRE_L3 등의 수준 지표를 추가합니다. 이렇게 하면 항목이 여러 멀티 레벨 범주에 속하더라도 하위 범주를 기준으로 추천을 필터링할 수 있습니다(필터 생성 및 사용에 대한 자세한 내용은 추천 및 사용자 세그먼트 필터링단원을 참조하세요). 예를 들어, 동영상에는 각 범주 수준에 대해 다음과 같은 데이터가 있을 수 있습니다.

GENRES: 액션|어드벤처
GENRE_L2: 범죄|서부영화
GENRE_L3: 일대기 영화

이 예제에서는 동영상이 액션 > 범죄 > 일대기 영화 계층 및 모험 > 서부 영화 > 일대기 영화 계층 구조로 되어 있습니다. L3까지만 사용하는 것이 좋지만, 필요한 경우 더 많은 레벨을 사용할 수 있습니다.

모델 교육 중에 Personalize는 최대 750,000개의 항목을 고려합니다. 750,000개가 넘는 항목을 가져오는 경우, Personalize는 새 항목(상호작용 없이 최근 추가한 항목)과 최근 상호작용 데이터가 있는 기존 항목을 포함시키는 것에 중점을 두고 교육에 포함할 항목을 결정합니다.

항목 데이터세트에 대한 최소 요구 사항 및 최대 데이터 한도에 대한 자세한 내용은 Service quotas단원을 참조하세요.

항목 데이터세트 스키마 예제(사용자 지정)

다음 예제에서는 항목 스키마를 조직하는 방법을 보여줍니다. ITEM_ID 필드는 필수 사항입니다. GENRE 필드는 범주형 메타데이터이고 DESCRIPTION필드는 텍스트 메타데이터입니다. 최소 한 개 이상의 메타데이터 필드가 필요합니다. 최대 100개의 메타데이터 필드를 추가할 수 있습니다. CREATION_TIMESTAMP 필드는 예약어입니다. 스키마 요구 사항에 대한 자세한 내용은 사용자 지정 데이터세트 및 스키마 요구 사항단원을 참조하세요.


{
  "type": "record",
  "name": "Items",
  "namespace": "com.amazonaws.personalize.schema",
  "fields": [
    {
      "name": "ITEM_ID",
      "type": "string"
    },
    {
      "name": "GENRES",
      "type": [
        "null",
        "string"
      ],
      "categorical": true
    },
    {
      "name": "CREATION_TIMESTAMP",
      "type": "long"
    },
    {
      "name": "DESCRIPTION",
      "type": [
        "null",
        "string"
      ],
      "textual": true
    }
  ],
  "version": "1.0"
}

이 스키마의 경우, CSV 파일의 이력 데이터의 처음 몇 줄은 다음과 같을 수 있습니다.


ITEM_ID,GENRES,CREATION_TIMESTAMP,DESCRIPTION
1,Adventure|Animation|Children|Comedy|Fantasy,1570003267,"This is an animated movie that features action, comedy, and fantasy. Audience is children. This movie was released in 2004."
2,Adventure|Children|Fantasy,1571730101,"This is an adventure movie with elements of fantasy. Audience is children. This movie was release in 2010."
3,Comedy|Romance,1560515629,"This is a romantic comedy. The movie was released in 1999. Audience is young women."
4,Comedy|Drama|Romance,1581670067,"This movie includes elements of both comedy and drama as well as romance. This movie was released in 2020."
...
...

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

사용자 데이터세트 요구 사항

작업 데이터 세트 스키마 요구 사항