항목 데이터 세트 스키마 요구 사항(사용자 지정) - Personalize

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

항목 데이터 세트 스키마 요구 사항(사용자 지정)

항목 데이터세트는 카탈로그의 항목에 대한 메타데이터를 저장합니다. 여기에는 각 항목의 가격, 장르, 재고 여부 등의 정보가 포함될 수 있습니다. Personalize로 가져올 수 있는 항목 데이터 유형에 대한 자세한 내용은 항목 데이터 세트단원을 참조하세요.

각 항목에 제공하는 데이터는 항목 데이터세트 스키마와 일치해야 합니다. 최소한 각 항목의 항목 ID(최대 길이 256자)를 제공해야 합니다. 스키마에 따라 항목 메타데이터에는 비어 있음/null 값이 포함될 수 있습니다. 스키마에는 최소 하나 이상의 메타데이터 필드가 있어야 하지만 null 유형을 추가하면 항목에 대해 이 값이 null이 될 수 있습니다. 사용 사례와 데이터에 따라 추가 필드를 마음대로 추가할 수 있습니다. 필드가 필수 또는 예약으로 나열되어 있지 않고 데이터 유형이 스키마 데이터 유형에 나열된 경우, 필드 이름과 데이터 사용자가 선택할 수 있습니다.

범주형 데이터를 사용하려면 스키마에서 유형 string필드를 추가하고 필드의 범주형 속성을 true로 설정합니다. 그런 다음 대량 CSV 파일 및 개별 항목 가져오기에 범주형 데이터를 포함합니다. 범주형 값은 최대 1000자까지 포함할 수 있습니다. 범주형 값이 1000자를 초과하는 항목이 있는 경우, 데이터세트 가져오기 작업이 실패합니다.

여러 범주를 갖는 항목의 경우, 세로 막대 '|'로 각 값을 구분합니다. 예를 들어, GENRES 필드의 경우 항목에 대한 데이터가 Action|Crime|Biopic이 될 수 있습니다. 여러 수준의 범주형 데이터가 있고 일부 항목에 계층의 각 수준에 대해 여러 범주가 있는 경우, 각 수준에 필드를 추가하고 각 필드 이름 뒤에 GENRES, GENRE_L2, GENRE_L3 등의 수준 지표를 추가합니다. 이렇게 하면 항목이 여러 멀티 레벨 범주에 속하더라도 하위 범주를 기준으로 추천을 필터링할 수 있습니다(필터 생성 및 사용에 대한 자세한 내용은 추천 및 사용자 세그먼트 필터링단원을 참조하세요). 예를 들어, 동영상에는 각 범주 수준에 대해 다음과 같은 데이터가 있을 수 있습니다.

  • GENRES: 액션|어드벤처

  • GENRE_L2: 범죄|서부영화

  • GENRE_L3: 일대기 영화

이 예제에서는 동영상이 액션 > 범죄 > 일대기 영화 계층 및 모험 > 서부 영화 > 일대기 영화 계층 구조로 되어 있습니다. L3까지만 사용하는 것이 좋지만, 필요한 경우 더 많은 레벨을 사용할 수 있습니다.

모델 교육 중에 Personalize는 최대 750,000개의 항목을 고려합니다. 750,000개가 넘는 항목을 가져오는 경우, Personalize는 새 항목(상호작용 없이 최근 추가한 항목)과 최근 상호작용 데이터가 있는 기존 항목을 포함시키는 것에 중점을 두고 교육에 포함할 항목을 결정합니다.

항목 데이터세트에 대한 최소 요구 사항 및 최대 데이터 한도에 대한 자세한 내용은 Service quotas단원을 참조하세요.

항목 데이터세트 스키마 예제(사용자 지정)

다음 예제에서는 항목 스키마를 조직하는 방법을 보여줍니다. ITEM_ID 필드는 필수 사항입니다. GENRE 필드는 범주형 메타데이터이고 DESCRIPTION필드는 텍스트 메타데이터입니다. 최소 한 개 이상의 메타데이터 필드가 필요합니다. 최대 100개의 메타데이터 필드를 추가할 수 있습니다. CREATION_TIMESTAMP 필드는 예약어입니다. 스키마 요구 사항에 대한 자세한 내용은 사용자 지정 데이터세트 및 스키마 요구 사항단원을 참조하세요.

{ "type": "record", "name": "Items", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "ITEM_ID", "type": "string" }, { "name": "GENRES", "type": [ "null", "string" ], "categorical": true }, { "name": "CREATION_TIMESTAMP", "type": "long" }, { "name": "DESCRIPTION", "type": [ "null", "string" ], "textual": true } ], "version": "1.0" }

이 스키마의 경우, CSV 파일의 이력 데이터의 처음 몇 줄은 다음과 같을 수 있습니다.

ITEM_ID,GENRES,CREATION_TIMESTAMP,DESCRIPTION 1,Adventure|Animation|Children|Comedy|Fantasy,1570003267,"This is an animated movie that features action, comedy, and fantasy. Audience is children. This movie was released in 2004." 2,Adventure|Children|Fantasy,1571730101,"This is an adventure movie with elements of fantasy. Audience is children. This movie was release in 2010." 3,Comedy|Romance,1560515629,"This is a romantic comedy. The movie was released in 1999. Audience is young women." 4,Comedy|Drama|Romance,1581670067,"This movie includes elements of both comedy and drama as well as romance. This movie was released in 2020." ... ...