LDA 모델 튜닝 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

LDA 모델 튜닝

하이퍼파라미터 튜닝이라고도 하는 자동 모델 튜닝은 데이터 세트에 대한 광범위한 하이퍼파라미터를 테스트하는 여러 작업을 실행하여 최적의 모델 버전을 찾습니다. 튜닝 가능한 하이퍼파라미터, 각 하이퍼파라미터에 대한 값 범위 및 목표 지표를 선택합니다. 알고리즘에서 계산하는 지표 중에서 목표 지표를 선택합니다. 자동 모델 튜닝은 선택한 하이퍼파라미터를 검색하여 목표 지표를 최적화하는 모델을 만드는 값 조합을 찾습니다.

LDA는 관측치 세트(문서)를 다른 범주(주제)의 혼합으로서 설명하려 하는 비지도 주제 모델링 알고리즘입니다. “Per-Word Log-Likelihood”(PWLL) 지표는 학습한 주제 세트(LDA 모델)가 테스트 문서 데이터 세트를 정확하게 설명할 가능성을 측정합니다. PWLL의 값이 클수록 LDA 모델이 테스트 데이터를 설명할 가능성이 커집니다.

모델 튜닝에 대한 자세한 정보는 다음을 사용하여 자동 모델 튜닝을 수행합니다. SageMaker 단원을 참조하십시오.

LDA 알고리즘으로 계산되는 지표

LDA 알고리즘은 훈련 중 단일 지표 test:pwll에 대해 보고합니다. 모델을 튜닝할 때 목표 지표로 이 지표를 선택합니다.

지표 이름 설명 최적화 방향
test:pwll

테스트 데이터 세트에 대한 Per-Word Log-Likelihood. 학습한 LDA 모델이 테스트 데이터 세트를 정확하게 설명할 가능성.

최대화

튜닝 가능한 LDA 하이퍼파라미터

LDA 알고리즘에 대한 다음 하이퍼파라미터를 튜닝할 수 있습니다. 하이퍼파라미터 alpha0num_topics은 LDA 목표 지표(test:pwll)에 영향을 미칠 수 있습니다. per-word log-likelihood를 최대화하고 정확한 LDA 모델을 생성하는 이러한 하아퍼파라미터의 최적 값을 아직 모르는 경우 자동 모델 튜닝을 통해 최적 값을 찾을 수 있습니다.

파라미터 이름 파라미터 유형 권장 범위
alpha0

ContinuousParameterRanges

MinValue: 0.1, MaxValue: 10

num_topics

IntegerParameterRanges

MinValue: 1, MaxValue: 150