Algorithmes SageMaker intégrés non supervisés - Amazon SageMaker

Algorithmes SageMaker intégrés non supervisés

Amazon SageMaker fournit plusieurs algorithmes intégrés qui peuvent être utilisés pour une variété de tâches d'apprentissage non supervisé telles que la mise en cluster, la réduction des dimensions, la reconnaissance des modèles et la détection des anomalies.

  • IP Insights : apprend les modèles d'utilisation des adresses IPv4. Il est conçu pour capturer les associations entre les adresses IPv4 et diverses entités, telles que les noms d'utilisateur ou les numéros de compte.

  • Algorithme des k-moyennes (k-means) : tente de trouver des regroupements discrets au sein des données, au sein desquels les membres d'un groupe sont aussi semblables que possible les uns des autres et aussi différents que possible des membres des autres groupes.

  • Algorithme PCA (Principal Component Analysis, analyse en composantes principales) : réduit la dimensionnalité (nombre de fonctions) au sein d'un jeu de données en projetant des points de données sur les premiers composants principaux. L'objectif est de conserver autant d'informations ou de variations que possible. Pour les mathématiciens, les composants principaux sont les vecteurs propres de la matrice de covariance des données.

  • Algorithme RCF (Random Cut Forest) : détecte les points de données anormaux d'un jeu de données qui s'écartent de données autrement bien structurées ou calquées.

Nom de l'algorithme Nom du canal Mode d'entrée de l'entraînement Type de fichier Classe d'instance Parallélisable
IP Insights train et (facultativement) validation Fichier CSV CPU ou GPU Oui
K-Means train et (facultativement) test Fichier ou Tube recordIO-protobuf ou CSV UC ou GPU (un seul appareil GPU sur une ou plusieurs instances) Non
PCA train et (facultativement) test Fichier ou Tube recordIO-protobuf ou CSV GPU ou CPU Oui
Random Cut Forest train et (facultativement) test Fichier ou Tube recordIO-protobuf ou CSV CPU Oui