Processamento de recursos - Amazon Machine Learning

Não estamos mais atualizando o serviço Amazon Machine Learning nem aceitando novos usuários para ele. Essa documentação está disponível para usuários existentes, mas não estamos mais atualizando-a. Para obter mais informações, consulte O que é o Amazon Machine Learning.

Processamento de recursos

Após conhecer os dados por meio dos resumos de dados e das visualizações, talvez você precise transformar ainda mais as variáveis para torná-las mais significativas. Isso é chamado de processamento de recursos. Digamos que você tenha uma variável que capture a data e a hora em que um evento ocorreu. Essa data e hora nunca ocorrerão novamente e, portanto, não serão úteis para prever o destino. No entanto, se essa variável for transformada em recursos que representem a hora do dia, o dia da semana, e o mês, ela poderá ser útil para informar se o evento tende a acontecer em uma hora, dia da semana ou mês específico. Esse processamento de recursos para formar pontos de dados mais generalizáveis a serem aprendidos pode resultar em melhorias significativas nos modelos preditivos.

Outros exemplos de processamento de recursos comuns:

  • A substituição de dados ausentes ou inválidos por valores mais significativos (por exemplo, se você souber que o valor ausente de uma variável de tipo de produto representa um livro, substitua todos os valores ausentes no tipo de produto pelo valor do livro). Uma estratégia comum usada para atribuir valores ausentes é substituí-los pela média ou mediana. É importante compreender os dados antes de escolher uma estratégia para substituir os valores ausentes.

  • Formação de produtos cartesianos de uma variável com outra. Por exemplo, se você tiver duas variáveis, como densidade populacional (urban, suburban, rural) e estado (Washington, Oregon, California), pode haver informações úteis nos recursos formados por um produto cartesiano dessas duas variáveis que resulta em recursos (urban_Washington, suburban_Washington, rural_Washington, urban_Oregon, suburban_Oregon, rural_Oregon, urban_California, suburban_California, rural_California).

  • Transformações não lineares como variáveis numéricas de agrupamento em categorias. Em muitos casos, a relação entre um recurso numérico e o destino não é linear (o valor do recurso não aumenta nem diminui monotonicamente com o destino). Nesses casos, pode ser útil agrupar o recurso numérico em recursos categóricos que represente diferentes intervalos do recurso numérico. Cada recurso categórico (agrupamento) pode ser, então, modelado considerando que ele tem seu próprio relacionamento linear com o destino. Digamos que você sabe que o recurso numérico contínuo age não está linearmente correlacionado com a probabilidade de compra de um livro. Você pode agrupar age em recursos categóricos que podem capturar o relacionamento com o destino de modo mais preciso. O número ideal de agrupamentos de uma variável numérica depende das características da variável e de seu relacionamento com o destino; a melhor formar de determinar isso é por meio de experimentação. O Amazon ML sugere o número ideal de agrupamento para um recurso numérico com base nas estatísticas de dados da receita sugerida. Consulte o Guia do desenvolvedor para obter detalhes sobre a receita sugerida.

  • Recursos específicos de domínio (por exemplo, tamanho, amplitude e altura são variáveis separadas; você pode criar um novo recurso de volume como produto dessas três variáveis).

  • Recursos específicos de variável. Alguns tipos de variável, como recursos de texto, recursos que capturam a estrutura de uma página da web ou a estrutura de uma frase, têm formas genéricas de processamento que ajudam a extrair a estrutura e o contexto. Por exemplo, a formação de n-grams a partir do texto “the fox jumped over the fence” pode ser representado por unigrams: the, fox, jumped, over, fence ou por bigrams: the fox, fox jumped, jumped over, over the, the fence.

A inclusão de recursos mais relevantes ajuda a melhorar a capacidade de previsão. Claramente, nem sempre é possível saber com antecedência os recursos com "sinal" ou influência preditiva. Portanto, é recomendável incluir todos os recursos que podem ser relacionados ao rótulo de destino e deixar que o algoritmo de treinamento de modelo selecione os recursos com correlações mais fortes. No Amazon ML, o processamento de recursos pode ser especificado na receita durante a criação de um modelo. Consulte o Guia de desenvolvedor para obter uma lista dos processadores de recursos disponíveis.