Amazon Personalize
개발자 안내서

SIMS 레시피

항목 간 유사성(SIMS)은 협업 필터링의 개념을 기반으로 합니다. SIMS 모델은 사용자-항목 상호 작용 데이터를 활용하여 주어진 항목과 유사한 항목을 추천합니다. 항목에 대한 사용자 동작 데이터가 충분하지 않은 경우 이 레시피는 인기 항목을 권장합니다.

이 미리 정의된 레시피의 속성은 다음과 같습니다.

  • 이름aws-sims

  • 레시피 ARNarn:aws:personalize:::recipe/aws-sims

  • 알고리즘 ARNarn:aws:personalize:::algorithm/aws-sims

  • 기능 변환 ARNarn:aws:personalize:::feature-transformation/sims

  • 레시피 유형RELATED_ITEMS

다음 표에는 레시피에 사용되는 하이퍼파라미터가 나열되어 있습니다. 각 하이퍼라라미터에 대해 이름, 기본값, 설명 및 다음 속성이 제공됩니다.

  • 범위: [하한, 상한]

  • 값 유형: 정수, 연속(부동 소수점), 범주(부울, 목록, 문자열)

  • 조정 가능한 HPO: 파라미터가 하이퍼파라미터 최적화(HPO)에 참여할 수 있습니까?

이름 기본값 범위 값 유형 조정 가능한 HPO 설명
Algorithm
popularity_discount_factor 0.5 [0.0, 1.0] 부동 소수점

유사성 계산 시 인기와 상관관계 간의 균형에 영향을 미칩니다. 특정 항목의 유사성을 계산하는 경우 상관관계와 상관없이 0의 값은 가장 인기 있는 항목을 권장 사항으로 표시합니다. 1의 값은 인기와 상관없이 특정 항목이 포함된 공동 상호 작용(공유 상호 작용)이 있는 대부분의 항목을 권장 사항으로 표시합니다. 양극단의 한 쪽을 사용하면 매우 긴 권장 항목 목록을 생성할 수 있습니다. 대부분의 경우 약 0.5의 값이 최적의 효과를 나타냅니다.

min_cointeraction_count 3 [0, 10] 정수

항목 한 쌍 간의 유사성을 계산하는 데 필요한 최소 공동 상호 작용의 수. 예를 들어 3의 값은 유사성을 계산하기 위해 알고리즘에 대해 양쪽 항목과 상호 작용한 세 명 이상의 사용자가 필요함을 의미합니다.

Featurization
min_user_history_length_percentile 0.005 [0.0, 1.0] 부동 소수점 아니요 모델 교육에 포함할 사용자 기록 길이의 최소 백분위수. 기록 길이는 사용자에 대해 사용 가능한 데이터의 총 용량입니다. min_user_history_length_percentile을 사용하여 기록 길이가 짧은 사용자의 백분율을 제외합니다. 기록 길이가 짧은 사용자는 사용자의 개인 요구나 필요 대신에 항목 인기 기반의 패턴을 종종 보입니다. 이 패턴을 제거하면 데이터의 기본 패턴에 더 많이 집중하며 모델을 교육할 수 있습니다. 히스토그램 또는 유사한 도구를 사용하여 사용자 기록 길이를 검토한 후 적절한 값을 선택합니다. 다수의 사용자를 유지하되 엣지 케이스를 제거하는 값을 설정하는 것이 좋습니다.
max_user_history_length_percentile 0.995 [0.0, 1.0] 부동 소수점 아니요

모델 교육에 포함할 사용자 기록 길이의 최대 백분위수. 기록 길이는 사용자에 대해 사용 가능한 데이터의 총 용량입니다. max_user_history_length_percentile을 사용하여 기록 길이가 긴 사용자의 백분율을 제외합니다. 기록 길이가 긴 사용자는 노이즈를 포함하는 경향이 있습니다. 예를 들어 로봇은 자동화된 상호 작용의 긴 목록을 포함할 수 있습니다. 이러한 사용자를 제거하는 경우 교육에 유입된 노이즈가 제한됩니다. 히스토그램 또는 유사한 도구를 사용하여 사용자 기록 길이를 검토한 후 적절한 값을 선택합니다. 다수의 사용자를 유지하되 엣지 케이스를 제거하는 값을 설정하는 것이 좋습니다.

예를 들어 min_hist_length_percentile = 0.05max_hist_length_percentile = 0.95에는 기록 길이가 하위 또는 상위 5%에 해당하는 사용자를 제외한 모든 사용자가 포함됩니다.

min_item_interaction_count_percentile 0.01 [0.0, 1.0] 부동 소수점 아니요 모델 교육에 포함할 항목 상호 작용 수의 최소 백분위수. min_item_interaction_count_percentile을 사용하여 상호 작용 기록이 짧은 항목의 백분율을 제외합니다. 기록이 짧은 항목은 종종 새 항목입니다. 이 항목을 제거하면 기록이 알려진 항목에 더 집중하며 모델을 교육할 수 있습니다. 히스토그램 또는 유사한 도구를 사용하여 사용자 기록 길이를 검토한 후 적절한 값을 선택합니다. 다수의 항목을 유지하되 엣지 케이스를 제거하는 값을 설정하는 것이 좋습니다.
max_item_interaction_count_percentile 0.9 [0.0, 1.0] 부동 소수점 아니요

모델 교육에 포함할 항목 상호 작용 수의 최대 백분위수. max_item_interaction_count_percentile을 사용하여 상호 작용 기록이 긴 항목의 백분율을 제외합니다. 기록이 긴 항목은 오래된 경향이 있고 날짜가 만료될 수 있습니다. 예를 들어 절판된 영화 릴리스입니다. 이 항목을 제거하면 더 많은 관련 항목에 집중할 수 있습니다. 히스토그램 또는 유사한 도구를 사용하여 사용자 기록 길이를 검토한 후 적절한 값을 선택합니다. 다수의 항목을 유지하되 엣지 케이스를 제거하는 값을 설정하는 것이 좋습니다.

예를 들어 min_item_interaction_count_percentile = 0.05max_item_interaction_count_percentile = 0.95에는 상호 작용 수가 하위 또는 상위 5%에 해당하는 항목을 제외한 모든 항목이 포함됩니다.