As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
O algoritmo de máquinas de fatoração é um algoritmo de aprendizado supervisionado de uso geral que pode ser usado para tarefas de classificação e regressão. É uma extensão de um modelo linear projetado para capturar, com baixo custo, as interações entre os atributos presentes em conjuntos de dados esparsos altamente dimensionais. Por exemplo, em um sistema de predição de cliques, o modelo de máquinas de fatoração pode capturar padrões de taxa de cliques observados quando anúncios de uma determinada categoria de anúncios são colocados em páginas de uma determinada categoria de páginas. As máquinas de fatoração são uma boa opção para tarefas que lidam com conjuntos de dados esparsos altamente dimensionais, como a predição de cliques e a recomendação de itens.
nota
A implementação do Amazon SageMaker AI do algoritmo Factorization Machines considera somente interações de pares (2ª ordem) entre os recursos.
Tópicos
Interface de entrada/saída para o algoritmo de Máquinas de fatoração
O algoritmo de máquinas de fatoração pode ser executado no modo de classificação binária ou no modo de regressão. Em cada modo, um conjunto de dados pode ser fornecido para o canal de teste com um conjunto de dados de treinamento. A pontuação depende do modo usado. No modo de regressão, o conjunto de dados de teste é pontuado com a métrica RMSE (raiz do erro quadrático médio). No modo de classificação binária, o conjunto de dados de teste é pontuado com as métricas de entropia cruzada binária (perda de log), de precisão (no limite = 0,5) e de pontuação F1 (no limite = 0,5).
Para treinamento, o algoritmo de máquinas de fatoração atualmente é compatível apenas com o formato recordIO-protobuf
com tensores Float32
. Como seu caso de uso é predominantemente em dados esparsos, o formato CSV
não é uma bom opção. Treinamentos nos modo de Arquivo e Pipe são compatíveis para protobuf encapsulado em recordIO.
Para inferência, o algoritmo de máquinas de fatoração é compatível com os formatos application/json
e x-recordio-protobuf
.
-
Para o problema de classificação binária, o algoritmo prevê uma pontuação e um rótulo. O rótulo é um número e pode ser
0
ou1
. A pontuação é um número que indica com que intensidade o algoritmo acredita que o rótulo deve ser1
. O algoritmo calcula primeiro a pontuação e, em seguida, deriva o rótulo do valor da pontuação. Se a pontuação for maior ou igual a 0,5, o rótulo é1
. -
Para o problema de regressão, apenas uma pontuação é retornada e é o valor previsto. Por exemplo, se Máquinas de fatoração forem usadas para prever uma avaliação de filme, a pontuação será o valor de avaliação previsto.
Para obter mais detalhes sobre os formatos de arquivo para inferência e treinamento, consulte Cadernos de amostra de Máquinas de fatoração.
EC2 Recomendação de instância para o algoritmo de máquinas de fatoração
O algoritmo Amazon SageMaker AI Factorization Machines é altamente escalável e pode ser treinado em instâncias distribuídas. Recomendamos que o treinamento e a inferência sejam feitos com instâncias de CPU para conjuntos de dados esparsos e densos. Em algumas circunstâncias, o treinamento com um ou mais GPUs dados densos pode oferecer algum benefício. O treinamento com GPUs está disponível somente em dados densos. Use instâncias de CPU para dados esparsos. O algoritmo de máquinas de fatoração oferece apoio às instâncias de P2, P3, G4dn e G5 para treinamento e inferência.
Cadernos de amostra de Máquinas de fatoração
Para um exemplo de caderno que usa o algoritmo SageMaker AI Factorization Machines para analisar as imagens de dígitos manuscritos de zero a nove no conjunto de dados MNIST, consulte Uma introdução