Hyperparamètres pour k-moyennes (k-means) - Amazon SageMaker

Hyperparamètres pour k-moyennes (k-means)

Dans la demande CreateTrainingJob, vous spécifiez l'algorithme d'entraînement que vous voulez utiliser. Vous pouvez aussi spécifier les hyperparamètres spécifiques à l'algorithme comme mappages chaîne/chaîne. Le tableau suivant répertorie les hyperparamètres pour l'algorithme d'entraînement des k-moyennes (k-means) fourni par Amazon SageMaker. Pour plus d'informations sur le fonctionnement du clustering à l'aide de l'algorithme des k-moyennes (k-means), consultez Fonctionnement du clustering des données à l'aide de l'algorithme de k-moyennes (k-means).

Nom du paramètre Description
feature_dim

Nombre de caractéristiques des données d'entrée.

Obligatoire

Valeurs valides : nombre entier positif

k

Nombre de clusters requis.

Obligatoire

Valeurs valides : nombre entier positif

epochs

Nombre de passages effectués sur les données d'entraînement.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : 1

eval_metrics

Liste JSON des types de métriques utilisés pour présenter un score pour le modèle. Les valeurs autorisées sont msd pour la distance quadratique moyenne (MSD, Means Square Distance) et ssd pour la somme des carrés des distances (SSD, Sum of Square Distance). Si les données de test sont fournies, le score est calculé pour chacune des métriques demandées.

Facultatif

Valeurs valides : [\"msd\"], [\"ssd\"] ou [\"msd\",\"ssd\"].

Valeur par défaut: [\"msd\"]

extra_center_factor

L'algorithme crée K centres = num_clusters * extra_center_factor lorsqu'il s'exécute et réduit le nombre de centres de K à k lors de la finalisation du modèle.

Facultatif

Valeurs valides : nombre entier positif ou auto.

Valeur par défaut: auto

half_life_time_size

Permet de déterminer le poids accordé à une observation lors du calcul d'une moyenne de cluster. Ce poids décroit de façon exponentielle au fur et à mesure que de plus en plus de points sont observés. Lorsqu'un point est observé pour la première fois, il se voit attribuer un poids 1 lors du calcul de la moyenne du cluster. La constante decay de la fonction exponentielle decay est choisie afin que son poids soit 1/2 après l'observation des points half_life_time_size. S'il est défini sur 0, il n'y a pas de diminution.

Facultatif

Valeurs valides : entier non négatif

Valeur par défaut : 0

init_method

Méthode par laquelle l'algorithme choisit les centres de cluster initiaux. L'approche standard des k-moyennes les choisit de façon aléatoire. Une autre méthode, k-moyennes++ (k-means++), sélectionne le premier centre de cluster de façon aléatoire. Ensuite, elle répartit la position des clusters initiaux restants en pondérant la sélection des centres avec une distribution de probabilité proportionnelle au carré de la distance des points de données restants des centres existants.

Facultatif

Valeurs valides : random ou kmeans++.

Valeur par défaut: random

local_lloyd_init_method

Méthode d'initialisation de la procédure espérance-maximisation (EM) de Lloyd utilisée pour créer le modèle final contenant k centres.

Facultatif

Valeurs valides : random ou kmeans++.

Valeur par défaut: kmeans++

local_lloyd_max_iter

Nombre maximal d'itérations de la procédure espérance-maximisation (EM) de Lloyd utilisée pour créer le modèle final contenant k centres.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : 300

local_lloyd_num_trials

Nombre de fois où la procédure espérance-maximisation (EM) avec la moindre perte est exécutée lors de la création du modèle final contenant k centres.

Facultatif

Valeurs valides : nombre entier positif ou auto.

Valeur par défaut: auto

local_lloyd_tol

Tolérance de modification dans la fonction perte pour un arrêt anticipé de la procédure espérance-maximisation (EM) de Lloyd utilisée lors de la création du modèle final contenant k centres.

Facultatif

Valeurs valides : Float. Plage [0, 1].

Valeur par défaut : 0.0001

mini_batch_size

Nombre d'observations par mini-lot pour l'itérateur de données.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : 5000