Ajuste do modelo: subajuste x sobreajuste

Compreender o ajuste de modelo é importante para entender a causa raiz da precisão de modelo insatisfatória. Essa compreensão orientará você a tomar medidas corretivas. Podemos determinar se um modelo preditivo está fazendo o subajuste ou o sobreajuste dos dados de treinamento consultando o erro de previsão nos dados de treinamento e nos dados de avaliação.

Three graphs showing underfitting, balanced, and overfitting models with data points and trend lines.

O modelo está fazendo o subajuste dos dados de treinamento quando o modelo desempenha de modo insatisfatório nos dados de treinamento. Isso ocorre porque o modelo não consegue capturar o relacionamento entre os exemplos de entrada (geralmente denominado X) e os valores de destino (geralmente denominado Y). O modelo está fazendo o sobreajuste dos dados de treinamento quando você percebe que ele desempenha de modo satisfatório nos dados de treinamento, mas não nos dados de avaliação. Isso acontece porque o modelo está memorizando os dados reconhecidos e não consegue fazer a generalização nos exemplos não vistos.

O desempenho insatisfatório nos dados de treinamento pode ocorrer porque o modelo é muito simples (os recursos de entrada não são suficientemente expressivos) para descrever o destino. É possível melhorar o desempenho aumentando a flexibilidade do modelo. Para aumentar a flexibilidade do modelo, tente o seguinte:

Adicione novos recursos específicos de domínio e mais produtos cartesianos de recursos, e altere os tipos de processamento de recursos usados (por exemplo, aumentando o tamanho dos n-grams)
Diminua o volume de regularização usado

Se o modelo estiver fazendo o sobreajuste dos dados de treinamento, faz sentido realizar ações que reduzam sua flexibilidade. Para reduzir a flexibilidade do modelo, tente o seguinte:

Seleção de recurso: é recomendável usar algumas combinações de recursos, diminuir o tamanho dos n-grams e diminuir a quantidade de agrupamentos de atributos numéricos.
Aumente o volume de regularização usado.

A precisão nos dados de treinamento e de teste pode ser insatisfatória porque o algoritmo de aprendizagem não tem dados suficientes para serem aprendidos. Melhore o desempenho fazendo o seguinte:

Aumente a quantidade de exemplos de dados de treinamento.
Aumente o número de passagens nos dados de treinamento existentes.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Aprimorar a precisão do modelo

Usar o modelo para fazer previsões