Coletar dados rotulados - Amazon Machine Learning

Não estamos mais atualizando o serviço Amazon Machine Learning nem aceitando novos usuários para ele. Essa documentação está disponível para usuários existentes, mas não estamos mais atualizando-a. Para obter mais informações, consulte O que é o Amazon Machine Learning.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Coletar dados rotulados

Os problemas de ML começam nos dados, de preferência, muitos dados (exemplos ou observações), cuja resposta de destino você já conhece. Os dados cuja resposta de destino você já conhece são denominados dados rotulados. Em ML supervisionada, o algoritmo ensina a si mesmo para aprender a partir dos exemplos rotulados que fornecemos.

Cada exemplo/observação nos dados precisa conter dois elementos:

  • O destino – A resposta que você deseja prever. Você fornece dados rotulados com o destino (resposta correta) ao algoritmo de ML a partir do qual a aprendizagem será feita. Em seguida, você usará o modelo de ML treinado para prever essa resposta nos dados cuja resposta de destino você não conhece.

  • Variáveis/recursos – Estes são atributos de exemplo que podem ser usados para identificar padrões para prever a resposta de destino.

Por exemplo, para o problema de classificação de e-mail, o destino é um rótulo que indica se um e-mail é spam ou não. Entre os exemplos de variáveis estão o remetente do e-mail, o texto no corpo do e-mail, o texto da linha de assunto, a hora em que o e-mail foi enviado e a existência de correspondência anterior entre o remetente e o destinatário.

Geralmente, os dados não ficam imediatamente disponíveis em um formulário rotulado. A coleta e a preparação das variáveis e do destino são geralmente as etapas mais importantes na resolução de um problema de ML. Os dados de exemplo devem representar os dados que você terá quando estiver usando o modelo para fazer uma previsão. Por exemplo, se você quiser prever se um e-mail é spam ou não, precisará coletar positivos (e-mails spam) e negativos (e-mails que não são spam) para que o algoritmo de Machine Learning possa localizar padrões façam a distinção entre os dois tipos de e-mail.

Quando você tiver os dados rotulados, talvez seja necessário convertê-los em um formato compatível com o algoritmo ou o software. Por exemplo, para usar o Amazon ML, você precisará converter os dados em formato separado por vírgula (CSV), com cada exemplo compondo uma linha do arquivo CSV, cada coluna contendo uma variável de entrada e uma coluna contendo a resposta de destino.