Dividir os dados em dados de treinamento e de avaliação - Amazon Machine Learning

Não estamos mais atualizando o serviço Amazon Machine Learning nem aceitando novos usuários para ele. Essa documentação está disponível para usuários existentes, mas não estamos mais atualizando-a. Para obter mais informações, consulte O que é o Amazon Machine Learning.

Dividir os dados em dados de treinamento e de avaliação

O objetivo fundamental do ML é generalizar além das instâncias de dados usadas para treinar modelos. Queremos avaliar o modelo para estimar a qualidade da sua generalização de padrão nos dados nos quais o modelo não foi treinado. No entanto, como as instâncias futuras têm valores de destino desconhecidos e não podemos verificar a precisão das nossas previsões para instâncias futuras no momento, precisamos usar alguns dados cuja resposta já conhecemos como um proxy para dados futuros. Avaliar o modelo com os mesmos dados usados no treinamento não é útil, pois isso acaba recompensando os modelos que conseguem "memorizar" os dados de treinamento, em vez de fazer a generalização a partir deles.

Uma estratégia comum é usar todos os dados rotulados disponíveis e dividi-los em subconjuntos de treinamento e de avaliação, geralmente com uma proporção de 70 a 80 por cento para treinamento e de 20 a 30 por cento para avaliação. O sistema de ML usa os dados de treinamento para treinar os modelos a verem padrões e usa os dados de avaliação para avaliar a qualidade preditiva do modelo treinado. O sistema do ML avalia o desempenho preditivo comparando as previsões no conjunto de dados de avaliação com valores verdadeiros (conhecidos como informação do terreno) através de diversas métricas. Geralmente, você usa o "melhor" modelo no subconjunto da avaliação para fazer previsões em instâncias futuras cuja resposta de destino você conhece.

O Amazon ML divide os dados enviados para treinar um modelo por meio do console do Amazon ML em 70 por cento para treinamento e 30 por cento para avaliação. Por padrão, o Amazon ML usa os primeiros 70% dos dados de entrada na ordem em que aparecem nos dados de origem para a fonte de dados de treinamento e os 30% restantes dos dados para a fonte de dados de avaliação. O Amazon ML também permite que você selecione 70% dos dados de origem aleatoriamente para treinamento, em vez de usar os primeiros 70% e o complemento desse subconjunto aleatório para avaliação. Você pode usar as APIs do Amazon ML para especificar taxas de divisão personalizadas e fornecer dados de treinamento e de avaliação que foram divididas fora do Amazon ML. O Amazon ML também oferece estratégias para dividir os dados. Para obter mais informações sobre a divisão de estratégias, consulte Dividir dados.