Informations communes aux algorithmes intégrés - Amazon SageMaker

Informations communes aux algorithmes intégrés

Le tableau suivant répertorie les paramètres de chacun des algorithmes fournis par Amazon SageMaker.

Nom de l'algorithme Nom du canal Mode d'entrée de l'entraînement Type de fichier Classe d'instance Parallélisable
AutoGluon-Tabular entraînement et (éventuellement) validation Fichier CSV UC ou GPU (instance individuelle uniquement) Non
BlazingText train Fichier ou Tube Fichier texte (une phrase par ligne avec des jetons séparés par des espaces) UC ou GPU (instance individuelle uniquement) Non
CatBoost entraînement et (éventuellement) validation Fichier CSV CPU (une seule instance uniquement) Non
DeepAR Forecasting train et (facultativement) test Fichier JSON Lines ou Parquet CPU ou GPU Oui
Machines de factorisation train et (facultativement) test Fichier ou Tube recordIO-protobuf CPU (GPU pour les données denses) Oui
Classification des images – MXNet train et validation, (facultativement) train_lst, validation_lst et model Fichier ou Tube recordIO ou fichiers d'image (.jpg ou .png) GPU Oui
Classification des images – TensorFlow entraînement et validation Fichier fichiers image (.jpg, .jpeg ou .png) CPU ou GPU Oui (uniquement sur plusieurs GPU sur une seule instance)
IP Insights train et (facultativement) validation Fichier CSV CPU ou GPU Oui
K-Means train et (facultativement) test Fichier ou Tube recordIO-protobuf ou CSV UC ou GPU (un seul appareil GPU sur une ou plusieurs instances) Non
K-Nearest-Neighbors (k-NN) train et (facultativement) test Fichier ou Tube recordIO-protobuf ou CSV UC ou GPU (un seul appareil GPU sur une ou plusieurs instances) Oui
LDA train et (facultativement) test Fichier ou Tube recordIO-protobuf ou CSV CPU (une seule instance uniquement) Non
LightGBM entraînement et (éventuellement) validation Fichier CSV CPU (une seule instance uniquement) Non
Linear Learner train et (facultativement) validation, test, ou les deux Fichier ou Tube recordIO-protobuf ou CSV CPU ou GPU Oui
Neural Topic Model (NTM) train et (facultativement) validation, test, ou les deux Fichier ou Tube recordIO-protobuf ou CSV CPU ou GPU Oui
Object2Vec train et (facultativement) validation, test, ou les deux Fichier JSON Lines UC ou GPU (instance individuelle uniquement) Non
Détection d'objets train et validation, (facultativement) train_annotation, validation_annotation et model Fichier ou Tube recordIO ou fichiers d'image (.jpg ou .png) GPU Oui
PCA train et (facultativement) test Fichier ou Tube recordIO-protobuf ou CSV CPU ou GPU Oui
Random Cut Forest train et (facultativement) test Fichier ou Tube recordIO-protobuf ou CSV CPU Oui
Semantic Segmentation train et validation, train_annotation, validation_annotation et (facultativement) label_map et model Fichier ou Tube Fichiers image GPU (une seule instance uniquement) Non
Modélisation Seq2Seq train, validation et vocab Fichier recordIO-protobuf GPU (une seule instance uniquement) Non
TabTransformer entraînement et (éventuellement) validation Fichier CSV UC ou GPU (instance individuelle uniquement) Non
XGBoost (0.90-1, 0.90-2, 1.0-1, 1.2-1, 1.2-21) train et (facultativement) validation Fichier ou Tube CSV, LibSVM ou Parquet Processeur (ou GPU pour 1.2-1) Oui

Les algorithmes qui sont parallélisables peuvent être déployés sur plusieurs instances de calcul pour l'entraînement distribué.

Les rubriques suivantes fournissent des informations sur les chemins de registre Docker, les formats de données, les types d'instance Amazon EC2 recommandés et les journaux CloudWatch Logs communs à tous les algorithmes intégrés fournis par Amazon SageMaker.