As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Algoritmo de Máquinas de fatoração
O algoritmo de máquinas de fatoração é um algoritmo de aprendizado supervisionado de uso geral que pode ser usado para tarefas de classificação e regressão. É uma extensão de um modelo linear projetado para capturar, com baixo custo, as interações entre os recursos presentes em conjuntos de dados esparsos altamente dimensionais. Por exemplo, em um sistema de previsão de cliques, o modelo de máquinas de fatoração pode capturar padrões de taxa de cliques observados quando anúncios de uma determinada categoria de anúncios são colocados em páginas de uma determinada categoria de páginas. As máquinas de fatoração são uma boa opção para tarefas que lidam com conjuntos de dados esparsos altamente dimensionais, como a previsão de cliques e a recomendação de itens.
nota
A SageMaker implementação do algoritmo Factorization Machines pela Amazon considera somente interações de pares (2ª ordem) entre os recursos.
Tópicos
- Interface de entrada/saída para o algoritmo de Máquinas de fatoração
- EC2Recomendação de instância para o algoritmo de máquinas de fatoração
- Blocos de anotações de amostra de Máquinas de fatoração
- Como funcionam as máquinas de fatoração
- Hiperparâmetros das máquinas de fatoração
- Ajustar um modelo de Máquinas de fatoração
- Formatos de resposta de máquinas de fatoração
Interface de entrada/saída para o algoritmo de Máquinas de fatoração
O algoritmo de máquinas de fatoração pode ser executado no modo de classificação binária ou no modo de regressão. Em cada modo, um conjunto de dados pode ser fornecido para o canal de teste com um conjunto de dados de treinamento. A pontuação depende do modo usado. No modo de regressão, o conjunto de dados de teste é pontuado usando Root Mean Square Error ()RMSE. No modo de classificação binária, o conjunto de dados de teste é pontuado com as métricas de entropia cruzada binária (perda de log), de precisão (no limite = 0,5) e de pontuação F1 (no limite = 0,5).
Para treinamento, o algoritmo de máquinas de fatoração atualmente é compatível apenas com o formato recordIO-protobuf
com tensores Float32
. Como seu caso de uso é predominantemente em dados esparsos, o formato CSV
não é uma bom opção. Treinamentos nos modo de Arquivo e Pipe são compatíveis para protobuf encapsulado em recordIO.
Para inferência, o algoritmo de máquinas de fatoração é compatível com os formatos application/json
e x-recordio-protobuf
.
-
Para o problema de classificação binária, o algoritmo prevê uma pontuação e um rótulo. O rótulo é um número e pode ser
0
ou1
. A pontuação é um número que indica com que intensidade o algoritmo acredita que o rótulo deve ser1
. O algoritmo calcula primeiro a pontuação e, em seguida, deriva o rótulo do valor da pontuação. Se a pontuação for maior ou igual a 0,5, o rótulo é1
. -
Para o problema de regressão, apenas uma pontuação é retornada e é o valor previsto. Por exemplo, se Máquinas de fatoração forem usadas para prever uma avaliação de filme, a pontuação será o valor de avaliação previsto.
Para obter mais detalhes sobre os formatos de arquivo para inferência e treinamento, consulte Blocos de anotações de amostra de Máquinas de fatoração.
EC2Recomendação de instância para o algoritmo de máquinas de fatoração
O algoritmo Amazon SageMaker Factorization Machines é altamente escalável e pode ser treinado em instâncias distribuídas. Recomendamos treinamento e inferência com CPU instâncias para conjuntos de dados esparsos e densos. Em algumas circunstâncias, o treinamento com um ou mais GPUs dados densos pode oferecer algum benefício. O treinamento com GPUs está disponível somente em dados densos. Use CPU instâncias para dados esparsos. O algoritmo de máquinas de fatoração oferece suporte às instâncias de P2, P3, G4dn e G5 para treinamento e inferência.
Blocos de anotações de amostra de Máquinas de fatoração
Para um exemplo de caderno que usa o algoritmo de máquinas de SageMaker fatoração para analisar as imagens de dígitos manuscritos de zero a nove no MNIST conjunto de dados, consulte Uma introdução