Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Dividir os dados em dados de treinamento e de avaliação - Amazon Machine Learning

Não estamos mais atualizando o serviço Amazon Machine Learning nem aceitando novos usuários para ele. Essa documentação está disponível para usuários existentes, mas não estamos mais atualizando-a. Para obter mais informações, consulte O que é o Amazon Machine Learning.

Não estamos mais atualizando o serviço Amazon Machine Learning nem aceitando novos usuários para ele. Essa documentação está disponível para usuários existentes, mas não estamos mais atualizando-a. Para obter mais informações, consulte O que é o Amazon Machine Learning.

Dividir os dados em dados de treinamento e de avaliação

O objetivo fundamental do ML é generalizar além das instâncias de dados usadas para treinar modelos. Queremos avaliar o modelo para estimar a qualidade da sua generalização de padrão nos dados nos quais o modelo não foi treinado. No entanto, como as instâncias futuras têm valores de destino desconhecidos e não podemos verificar a precisão das nossas previsões para instâncias futuras no momento, precisamos usar alguns dados cuja resposta já conhecemos como um proxy para dados futuros. Avaliar o modelo com os mesmos dados usados no treinamento não é útil, pois isso acaba recompensando os modelos que conseguem "memorizar" os dados de treinamento, em vez de fazer a generalização a partir deles.

Uma estratégia comum é usar todos os dados rotulados disponíveis e dividi-los em subconjuntos de treinamento e de avaliação, geralmente com uma proporção de 70 a 80 por cento para treinamento e de 20 a 30 por cento para avaliação. O sistema de ML usa os dados de treinamento para treinar os modelos a verem padrões e usa os dados de avaliação para avaliar a qualidade preditiva do modelo treinado. O sistema do ML avalia o desempenho preditivo comparando as previsões no conjunto de dados de avaliação com valores verdadeiros (conhecidos como informação do terreno) através de diversas métricas. Geralmente, você usa o "melhor" modelo no subconjunto da avaliação para fazer previsões em instâncias futuras cuja resposta de destino você conhece.

O Amazon ML divide os dados enviados para treinar um modelo por meio do console do Amazon ML em 70 por cento para treinamento e 30 por cento para avaliação. Por padrão, o Amazon ML usa os primeiros 70% dos dados de entrada na ordem em que aparecem nos dados de origem para a fonte de dados de treinamento e os 30% restantes dos dados para a fonte de dados de avaliação. O Amazon ML também permite que você selecione 70% dos dados de origem aleatoriamente para treinamento, em vez de usar os primeiros 70% e o complemento desse subconjunto aleatório para avaliação. Você pode usar as APIs do Amazon ML para especificar taxas de divisão personalizadas e fornecer dados de treinamento e de avaliação que foram divididas fora do Amazon ML. O Amazon ML também oferece estratégias para dividir os dados. Para obter mais informações sobre a divisão de estratégias, consulte Dividir dados.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.