SageMaker Algorithmes intégrés pour les données tabulaires

Amazon SageMaker fournit des algorithmes intégrés adaptés à l'analyse des données tabulaires. Les données tabulaires désignent tous les jeux de données organisés dans des tables composées de lignes (observations) et de colonnes (fonctionnalités). Les SageMaker algorithmes intégrés pour les données tabulaires peuvent être utilisés pour des problèmes de classification ou de régression.

AutoGluon-Tabulaire : un cadre AutoML open source qui réussit en assemblant des modèles et en les empilant en plusieurs couches.
CatBoost : une implémentation de l'algorithme d'arborescences de gradients améliorés qui introduit l'amplification ordonnée et un algorithme innovant pour le traitement des fonctionnalités de catégories.
Algorithme des machines de factorisation : extension d'un modèle linéaire, conçue pour capturer, de façon économique, les interactions entre les fonctions dans des jeux de données fragmentés à haute dimension.
Algorithme k-NN (K-Nearest Neighbors, k plus proches voisins) : méthode non paramétrique qui utilise les k points étiquetés les plus proches pour attribuer une étiquette à un nouveau point de données pour la classification ou à une valeur cible prédite à partir de la moyenne des k points les plus proches pour la régression.
LightGBM : une implémentation de l'algorithme des arbres boostés par gradient qui ajoute deux nouvelles techniques pour améliorer l'efficacité et la capacité de mise à l'échelle : l'échantillonnage unilatéral basé sur le gradient (GOSS) et la création d'une offre groupée exclusive de fonctionnalités (EFB).
Algorithme d'apprentissage linéaire : apprend une fonction linéaire pour la régression ou une fonction de seuil linéaire pour la classification.
TabTransformer: une nouvelle architecture de modélisation des données tabulaires approfondies basée sur self-attention-based Transformers.
Utilisez l'algorithme XGBoost avec Amazon SageMaker : implémentation de l'algorithme d'arborescences de gradients améliorés qui combine un ensemble d'estimations d'un jeu de modèles plus simples et plus faibles.

Nom de l'algorithme	Nom du canal	Mode d'entrée de l'entraînement	Type de fichier	Classe d'instance	Parallélisable
AutoGluon-Tabulaire	entraînement et (éventuellement) validation	Fichier	CSV	UC ou GPU (instance individuelle uniquement)	Non
CatBoost	entraînement et (éventuellement) validation	Fichier	CSV	CPU (une seule instance uniquement)	Non
Machines de factorisation	train et (facultativement) test	Fichier ou Tube	recordIO-protobuf	CPU (GPU pour les données denses)	Oui
K-Nearest-Neighbors (k-NN)	train et (facultativement) test	Fichier ou Tube	recordIO-protobuf ou CSV	UC ou GPU (un seul appareil GPU sur une ou plusieurs instances)	Oui
LightGBM	entraînement et (éventuellement) validation	Fichier	CSV	CPU (une seule instance uniquement)	Non
Linear Learner	train et (facultativement) validation, test, ou les deux	Fichier ou Tube	recordIO-protobuf ou CSV	CPU ou GPU	Oui
TabTransformer	entraînement et (éventuellement) validation	Fichier	CSV	UC ou GPU (instance individuelle uniquement)	Non
XGBoost (0.90-1, 0.90-2, 1.0-1, 1.2-1, 1.2-21)	train et (facultativement) validation	Fichier ou Tube	CSV, LibSVM ou Parquet	Processeur (ou GPU pour 1.2-1)	Oui

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Journaux

AutoGluon-Algorithme tabulaire