Algoritmos integrados do SageMaker para dados tabulares - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Algoritmos integrados do SageMaker para dados tabulares

O Amazon SageMaker fornece algoritmos integrados que são personalizados para a análise de dados tabulares. Os dados tabulares se referem a qualquer conjunto de dados organizado em tabelas que consistem em linhas (observações) e colunas (atributos). Os algoritmos integrados do SageMaker para dados tabulares podem ser usados para problemas de classificação ou regressão.

  • AutoGluon-Tabular: uma estrutura de AutoML de código aberto que é bem-sucedida ao agrupar modelos e empilhá-los em várias camadas.

  • CatBoost: uma implementação do algoritmo de árvores com aumento de gradiente que introduz o aumento ordenado e um algoritmo inovador para processar características categóricas.

  • Algoritmo de Máquinas de fatoração: é uma extensão de um modelo linear projetado para capturar, com baixo custo, as interações entre os atributos presentes em conjuntos de dados esparsos altamente dimensionais.

  • Algoritmo k-nearest neighbors (k-NN): um método não paramétrico que usa os pontos k rotulados mais próximos para atribuir um rótulo a um novo ponto de dados para classificação ou um valor de destino previsto a partir da média dos pontos k mais próximos para a regressão.

  • LightGBM: uma implementação do algoritmo de árvores com aumento de gradiente que adiciona duas novas técnicas para melhorar a eficiência e a escalabilidade: amostragem unilateral baseada em gradiente (GOSS) e empacotamento de atributos exclusivos (EFB).

  • Algoritmo de Aprendizagem linear: aprende uma função linear para regressão ou uma função de limite linear para classificação.

  • TabTransformer: uma arquitetura inovadora de modelagem de dados tabulares profundos construída em transformadores baseados em autoatenção.

  • Algoritmo XGBoost: uma implementação do algoritmo de árvores com aumento de gradiente que combina um conjunto de estimativas a partir de um conjunto de modelos mais simples e menos robustos.

Nome do algoritmo Nome do canal Modo de entrada do treinamento Tipo de arquivo Classe de instância Paralelizável
Autogluon-tabular treinamento e (opcionalmente) validação Arquivo CSV CPU ou GPU (somente instância única) Não
CatBoost treinamento e (opcionalmente) validação Arquivo CSV CPU (somente instância única) Não
Máquinas de fatoração treinamento e (opcionalmente) teste Arquivo ou Pipe recordIO-protobuf CPU (GPU para dados densos) Sim
k-nearest-neighbor (k-NN) treinamento e (opcionalmente) teste Arquivo ou Pipe recordIO-protobuf ou CSV CPU ou GPU (dispositivo de GPU única em uma ou mais instâncias) Sim
LightGBM treinamento e (opcionalmente) validação Arquivo CSV CPU (somente instância única) Não
Aprendizagem linear treinamento e (opcionalmente) validação, teste ou ambos Arquivo ou Pipe recordIO-protobuf ou CSV CPU ou GPU Sim
TabTransformer treinamento e (opcionalmente) validação Arquivo CSV CPU ou GPU (somente instância única) Não
XGBoost (0.90-1, 0.90-2, 1.0-1, 1.2-1, 1.2-21) treinamento e (opcionalmente) validação Arquivo ou Pipe CSV, LibSVM ou Parquet CPU (ou GPU para 1.2-1) Sim