As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Algoritmos integrados do SageMaker para dados tabulares
O Amazon SageMaker fornece algoritmos integrados que são personalizados para a análise de dados tabulares. Os dados tabulares se referem a qualquer conjunto de dados organizado em tabelas que consistem em linhas (observações) e colunas (atributos). Os algoritmos integrados do SageMaker para dados tabulares podem ser usados para problemas de classificação ou regressão.
-
AutoGluon-Tabular: uma estrutura de AutoML de código aberto que é bem-sucedida ao agrupar modelos e empilhá-los em várias camadas.
-
CatBoost: uma implementação do algoritmo de árvores com aumento de gradiente que introduz o aumento ordenado e um algoritmo inovador para processar características categóricas.
-
Algoritmo de Máquinas de fatoração: é uma extensão de um modelo linear projetado para capturar, com baixo custo, as interações entre os atributos presentes em conjuntos de dados esparsos altamente dimensionais.
-
Algoritmo k-nearest neighbors (k-NN): um método não paramétrico que usa os pontos k rotulados mais próximos para atribuir um rótulo a um novo ponto de dados para classificação ou um valor de destino previsto a partir da média dos pontos k mais próximos para a regressão.
-
LightGBM: uma implementação do algoritmo de árvores com aumento de gradiente que adiciona duas novas técnicas para melhorar a eficiência e a escalabilidade: amostragem unilateral baseada em gradiente (GOSS) e empacotamento de atributos exclusivos (EFB).
-
Algoritmo de Aprendizagem linear: aprende uma função linear para regressão ou uma função de limite linear para classificação.
-
TabTransformer: uma arquitetura inovadora de modelagem de dados tabulares profundos construída em transformadores baseados em autoatenção.
-
Algoritmo XGBoost: uma implementação do algoritmo de árvores com aumento de gradiente que combina um conjunto de estimativas a partir de um conjunto de modelos mais simples e menos robustos.
Nome do algoritmo | Nome do canal | Modo de entrada do treinamento | Tipo de arquivo | Classe de instância | Paralelizável |
---|---|---|---|---|---|
Autogluon-tabular | treinamento e (opcionalmente) validação | Arquivo | CSV | CPU ou GPU (somente instância única) | Não |
CatBoost | treinamento e (opcionalmente) validação | Arquivo | CSV | CPU (somente instância única) | Não |
Máquinas de fatoração | treinamento e (opcionalmente) teste | Arquivo ou Pipe | recordIO-protobuf | CPU (GPU para dados densos) | Sim |
k-nearest-neighbor (k-NN) | treinamento e (opcionalmente) teste | Arquivo ou Pipe | recordIO-protobuf ou CSV | CPU ou GPU (dispositivo de GPU única em uma ou mais instâncias) | Sim |
LightGBM | treinamento e (opcionalmente) validação | Arquivo | CSV | CPU (somente instância única) | Não |
Aprendizagem linear | treinamento e (opcionalmente) validação, teste ou ambos | Arquivo ou Pipe | recordIO-protobuf ou CSV | CPU ou GPU | Sim |
TabTransformer | treinamento e (opcionalmente) validação | Arquivo | CSV | CPU ou GPU (somente instância única) | Não |
XGBoost (0.90-1, 0.90-2, 1.0-1, 1.2-1, 1.2-21) | treinamento e (opcionalmente) validação | Arquivo ou Pipe | CSV, LibSVM ou Parquet | CPU (ou GPU para 1.2-1) | Sim |