Algorithmes SageMaker intégrés pour les données tabulaires
Amazon SageMaker fournit des algorithmes intégrés adaptés à l'analyse de données tabulaires. Les algorithmes SageMaker intégrés pour les données tabulaires peuvent être utilisés pour des problèmes de classification ou de régression.
-
AutoGluon-Tabular : un cadre AutoML open source qui réussit en assemblant des modèles et en les empilant en plusieurs couches.
-
CatBoost : une implémentation de l'algorithme d'arborescences de gradients améliorés qui introduit l'amplification ordonnée et un algorithme innovant pour le traitement des fonctionnalités de catégories.
-
Algorithme des machines de factorisation : extension d'un modèle linéaire, conçue pour capturer, de façon économique, les interactions entre les fonctions dans des jeux de données fragmentés à haute dimension.
-
Algorithme k-NN (K-Nearest Neighbors, k plus proches voisins) : méthode non paramétrique qui utilise les k points étiquetés les plus proches pour attribuer une étiquette à un nouveau point de données pour la classification ou à une valeur cible prédite à partir de la moyenne des k points les plus proches pour la régression.
-
LightGBM : une implémentation de l'algorithme des arbres boostés par gradient qui ajoute deux nouvelles techniques pour améliorer l'efficacité et la capacité de mise à l'échelle : l'échantillonnage unilatéral basé sur le gradient (GOSS) et la création d'une offre groupée exclusive de fonctionnalités (EFB).
-
Algorithme d'apprentissage linéaire : apprend une fonction linéaire pour la régression ou une fonction de seuil linéaire pour la classification.
-
TabTransformer : une nouvelle architecture de modélisation de données tabulaires approfondies basée sur des transformateurs basés sur l'auto-attention.
-
Algorithme XGBoost : implémentation de l'algorithme d'arborescences de gradients améliorés qui combine un ensemble d'estimations d'un jeu de modèles plus simples et plus faibles.
Nom de l'algorithme | Nom du canal | Mode d'entrée de l'entraînement | Type de fichier | Classe d'instance | Parallélisable |
---|---|---|---|---|---|
AutoGluon-Tabular | entraînement et (éventuellement) validation | Fichier | CSV | UC ou GPU (instance individuelle uniquement) | Non |
CatBoost | entraînement et (éventuellement) validation | Fichier | CSV | CPU (une seule instance uniquement) | Non |
Machines de factorisation | train et (facultativement) test | Fichier ou Tube | recordIO-protobuf | CPU (GPU pour les données denses) | Oui |
K-Nearest-Neighbors (k-NN) | train et (facultativement) test | Fichier ou Tube | recordIO-protobuf ou CSV | UC ou GPU (un seul appareil GPU sur une ou plusieurs instances) | Oui |
LightGBM | entraînement et (éventuellement) validation | Fichier | CSV | CPU (une seule instance uniquement) | Non |
Linear Learner | train et (facultativement) validation, test, ou les deux | Fichier ou Tube | recordIO-protobuf ou CSV | CPU ou GPU | Oui |
TabTransformer | entraînement et (éventuellement) validation | Fichier | CSV | UC ou GPU (instance individuelle uniquement) | Non |
XGBoost (0.90-1, 0.90-2, 1.0-1, 1.2-1, 1.2-21) | train et (facultativement) validation | Fichier ou Tube | CSV, LibSVM ou Parquet | Processeur (ou GPU pour 1.2-1) | Oui |