Ajustar um modelo LDA - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Ajustar um modelo LDA

O ajuste automático de modelos, também conhecido como ajuste de hiperparâmetros, localiza a melhor versão de um modelo executando vários trabalhos que testam uma série de hiperparâmetros no seu conjunto de dados. Você escolhe os hiperparâmetros ajustáveis, um intervalo de valores para cada um e uma métrica objetiva. Você escolhe a métrica objetiva entre as métricas que o algoritmo calcula. O ajuste de modelo automático pesquisa os hiperparâmetros escolhidos para encontrar a combinação de valores que resultam no modelo que otimiza a métrica objetiva.

O LDA é um algoritmo de modelagem de tópico não supervisionado que tenta descrever um conjunto de observações (documentos) como uma mistura de diferentes categorias (tópicos). A métrica "verossimilhança de log por palavra" (PWLL) mede a probabilidade de que um conjunto de tópicos aprendidos (um modelo LDA) descreva com precisão um conjunto de dados do documento de teste. Valores maiores de PWLL indicam que é mais provável que os dados de teste sejam descritos pelo modelo LDA.

Para mais informações sobre o ajuste de modelos, consulte Execute o ajuste automático do modelo com SageMaker.

Métricas calculadas pelo algoritmo LDA

O algoritmo LDA informa sobre uma única métrica durante o treinamento: test:pwll. Ao ajustar um modelo, escolha essa métrica como a métrica objetiva.

Nome da métrica Descrição Direção de otimização
test:pwll

Verossimilhança de log por palavra no conjunto de dados de teste. A probabilidade de o conjunto de dados de teste ser descrito com precisão pelo modelo LDA aprendido.

Maximizar

Hiperparâmetros ajustáveis do algoritmo LDA

Você pode ajustar os seguintes hiperparâmetros para o algoritmo LDA. Ambos os hiperparâmetros, alpha0 e num_topics , podem afetar a métrica objetiva do algoritmo LDA (test:pwll). Se você ainda não conhece os valores ideais para esses hiperparâmetros, que maximizam a verossimilhança de log por palavra e produzem um modelo LDA preciso, o ajuste automático do modelo pode ajudar a encontrá-los.

Nome do parâmetro Tipo de parâmetro Intervalos recomendados
alpha0

ContinuousParameterRanges

MinValue: 0,1, MaxValue 10

num_topics

IntegerParameterRanges

MinValue: 1, MaxValue 150