Algorithmes SageMaker intégrés pour les données tabulaires - Amazon SageMaker

Algorithmes SageMaker intégrés pour les données tabulaires

Amazon SageMaker fournit des algorithmes intégrés adaptés à l'analyse de données tabulaires. Les algorithmes SageMaker intégrés pour les données tabulaires peuvent être utilisés pour des problèmes de classification ou de régression.

  • AutoGluon-Tabular : un cadre AutoML open source qui réussit en assemblant des modèles et en les empilant en plusieurs couches.

  • CatBoost : une implémentation de l'algorithme d'arborescences de gradients améliorés qui introduit l'amplification ordonnée et un algorithme innovant pour le traitement des fonctionnalités de catégories.

  • Algorithme des machines de factorisation : extension d'un modèle linéaire, conçue pour capturer, de façon économique, les interactions entre les fonctions dans des jeux de données fragmentés à haute dimension.

  • Algorithme k-NN (K-Nearest Neighbors, k plus proches voisins) : méthode non paramétrique qui utilise les k points étiquetés les plus proches pour attribuer une étiquette à un nouveau point de données pour la classification ou à une valeur cible prédite à partir de la moyenne des k points les plus proches pour la régression.

  • LightGBM : une implémentation de l'algorithme des arbres boostés par gradient qui ajoute deux nouvelles techniques pour améliorer l'efficacité et la capacité de mise à l'échelle : l'échantillonnage unilatéral basé sur le gradient (GOSS) et la création d'une offre groupée exclusive de fonctionnalités (EFB).

  • Algorithme d'apprentissage linéaire : apprend une fonction linéaire pour la régression ou une fonction de seuil linéaire pour la classification.

  • TabTransformer : une nouvelle architecture de modélisation de données tabulaires approfondies basée sur des transformateurs basés sur l'auto-attention.

  • Algorithme XGBoost : implémentation de l'algorithme d'arborescences de gradients améliorés qui combine un ensemble d'estimations d'un jeu de modèles plus simples et plus faibles.

Nom de l'algorithme Nom du canal Mode d'entrée de l'entraînement Type de fichier Classe d'instance Parallélisable
AutoGluon-Tabular entraînement et (éventuellement) validation Fichier CSV UC ou GPU (instance individuelle uniquement) Non
CatBoost entraînement et (éventuellement) validation Fichier CSV CPU (une seule instance uniquement) Non
Machines de factorisation train et (facultativement) test Fichier ou Tube recordIO-protobuf CPU (GPU pour les données denses) Oui
K-Nearest-Neighbors (k-NN) train et (facultativement) test Fichier ou Tube recordIO-protobuf ou CSV UC ou GPU (un seul appareil GPU sur une ou plusieurs instances) Oui
LightGBM entraînement et (éventuellement) validation Fichier CSV CPU (une seule instance uniquement) Non
Linear Learner train et (facultativement) validation, test, ou les deux Fichier ou Tube recordIO-protobuf ou CSV CPU ou GPU Oui
TabTransformer entraînement et (éventuellement) validation Fichier CSV UC ou GPU (instance individuelle uniquement) Non
XGBoost (0.90-1, 0.90-2, 1.0-1, 1.2-1, 1.2-21) train et (facultativement) validation Fichier ou Tube CSV, LibSVM ou Parquet Processeur (ou GPU pour 1.2-1) Oui