Amazon Personalize
개발자 안내서

SIMS 레시피

항목 간 유사성(SIMS) 레시피는 협업 필터링의 개념을 기반으로 합니다. SIMS 모델은 사용자-항목 상호 작용 데이터를 활용하여 주어진 항목과 유사한 항목을 추천합니다. 항목에 대한 사용자 동작 데이터가 충분하지 않은 경우 이 레시피는 인기 항목을 권장합니다.

이 미리 정의된 레시피의 속성은 다음과 같습니다.

  • 이름aws-sims

  • 레시피 Amazon 리소스 이름(ARN)arn:aws:personalize:::recipe/aws-sims

  • 알고리즘 ARNarn:aws:personalize:::algorithm/aws-sims

  • 기능 변환 ARNarn:aws:personalize:::feature-transformation/sims

  • 레시피 유형RELATED_ITEMS

다음 표에서는 SIMS 레시피의 하이퍼파라미터를 설명합니다. 하이퍼파라미터는 모델 성능을 향상시키기 위해 조정할 수 있는 알고리즘 파라미터입니다. 알고리즘 하이퍼파라미터는 모델이 성능을 내는 방식을 제어합니다. 기능화 하이퍼파라미터는 교육에서 사용할 데이터를 필터링하는 방법을 제어합니다. 하이퍼파라미터에 대한 최적 값을 선택하는 과정을 하이퍼파라미터 최적화(HPO)라고 합니다. 자세한 내용은 하이퍼파라미터 및 HPO 단원을 참조하십시오.

표에는 각 하이퍼파라미터에 대한 다음 정보도 표시됩니다.

  • 범위: [하한, 상한]

  • 값 유형: 정수, 연속(부동 소수점), 범주(부울, 목록, 문자열)

  • 조정 가능한 HPO: 파라미터가 하이퍼파라미터 최적화(HPO)에 참여할 수 있습니까?

이름 설명
알고리즘 하이퍼파라미터
popularity_discount_factor

유사성 계산 시 인기와 상관관계 간의 균형에 영향을 미칩니다. 특정 항목의 유사성을 계산하는 경우 상관관계와 상관없이 0의 값은 가장 인기 있는 항목을 권장 사항으로 표시합니다. 1의 값은 인기와 상관없이 특정 항목이 포함된 공동 상호 작용(공유 상호 작용)이 있는 대부분의 항목을 권장 사항으로 표시합니다. 양극단의 한 쪽을 사용하면 매우 긴 권장 항목 목록을 생성할 수 있습니다. 대부분의 경우 약 0.5의 값이 최적의 효과를 나타냅니다.

기본값: 0.5

범위: [0.0, 1.0]

값 유형: 부동 소수점

HPO 조정 가능: 예

min_cointeraction_count

항목 한 쌍 간의 유사성을 계산하는 데 필요한 최소 공동 상호 작용의 수. 예를 들어 3의 값은 유사성을 계산하기 위해 알고리즘에 대해 양쪽 항목과 상호 작용한 세 명 이상의 사용자가 필요함을 의미합니다.

기본값: 3

범위: [0, 10]

값 형식: 정수

HPO 조정 가능: 예

기능화 하이퍼파라미터
min_user_history_length_percentile

모델 교육에 포함할 사용자 기록 길이의 최소 백분위수. 기록 길이는 사용자에 대해 사용 가능한 데이터의 총 용량입니다. min_user_history_length_percentile을 사용하여 기록 길이가 짧은 사용자의 백분율을 제외합니다. 기록 길이가 짧은 사용자는 사용자의 개인 요구나 필요 대신에 항목 인기 기반의 패턴을 종종 보입니다. 이 패턴을 제거하면 데이터의 기본 패턴에 더 많이 집중하며 모델을 교육할 수 있습니다. 히스토그램 또는 유사한 도구를 사용하여 사용자 기록 길이를 검토한 후 적절한 값을 선택합니다. 다수의 사용자를 유지하되 엣지 케이스를 제거하는 값을 설정하는 것이 좋습니다.

기본값: 0.005

범위: [0.0, 1.0]

값 유형: 부동 소수점

HPO 조정 가능: 아니요

max_user_history_length_percentile

모델 교육에 포함할 사용자 기록 길이의 최대 백분위수. 기록 길이는 사용자에 대해 사용 가능한 데이터의 총 용량입니다. max_user_history_length_percentile을 사용하여 기록 길이가 긴 사용자의 백분율을 제외합니다. 기록 길이가 긴 사용자는 노이즈를 포함하는 경향이 있습니다. 예를 들어 로봇은 자동화된 상호 작용의 긴 목록을 포함할 수 있습니다. 이러한 사용자를 제거하는 경우 교육 시 노이즈가 제한됩니다. 히스토그램 또는 유사한 도구를 사용하여 사용자 기록 길이를 검토한 후 적절한 값을 선택합니다. 다수의 사용자를 유지하되 엣지 케이스를 제거하는 값을 설정하는 것이 좋습니다.

예를 들어 min_hist_length_percentile = 0.05max_hist_length_percentile = 0.95에는 기록 길이가 하위 또는 상위 5%에 해당하는 사용자를 제외한 모든 사용자가 포함됩니다.

기본값: 0.995

범위: [0.0, 1.0]

값 유형: 부동 소수점

HPO 조정 가능: 아니요

min_item_interaction_count_percentile

모델 교육에 포함할 항목 상호 작용 수의 최소 백분위수. min_item_interaction_count_percentile을 사용하여 상호 작용 기록이 짧은 항목의 백분율을 제외합니다. 기록이 짧은 항목은 종종 새 항목입니다. 이 항목을 제거하면 기록이 알려진 항목에 더 집중하며 모델을 교육할 수 있습니다. 히스토그램 또는 유사한 도구를 사용하여 사용자 기록 길이를 검토한 후 적절한 값을 선택합니다. 다수의 항목을 유지하되 엣지 케이스를 제거하는 값을 설정하는 것이 좋습니다.

기본값: 0.01

범위: [0.0, 1.0]

값 유형: 부동 소수점

HPO 조정 가능: 아니요

max_item_interaction_count_percentile

모델 교육에 포함할 항목 상호 작용 수의 최대 백분위수 max_item_interaction_count_percentile을 사용하여 상호 작용 기록이 긴 항목의 백분율을 제외합니다. 기록이 긴 항목은 오래된 경향이 있고 날짜가 만료될 수 있습니다. 예를 들어 절판된 영화 릴리스입니다. 이 항목을 제거하면 더 많은 관련 항목에 집중할 수 있습니다. 히스토그램 또는 유사한 도구를 사용하여 사용자 기록 길이를 검토한 후 적절한 값을 선택합니다. 다수의 항목을 유지하되 엣지 케이스를 제거하는 값을 설정하는 것이 좋습니다.

예를 들어 min_item_interaction_count_percentile = 0.05max_item_interaction_count_percentile = 0.95에는 상호 작용 수가 하위 또는 상위 5%에 해당하는 항목을 제외한 모든 항목이 포함됩니다.

기본값: 0.9

범위: [0.0, 1.0]

값 유형: 부동 소수점

HPO 조정 가능: 아니요