Régler un modèle de k-moyennes - Amazon SageMaker

Régler un modèle de k-moyennes

Le réglage de modèle automatique, ou réglage d'hyperparamètre, détecte la meilleure version d'un modèle en exécutant plusieurs tâches qui testent une plage d'hyperparamètres sur votre ensemble de données. Vous choisissez les hyperparamètres réglables, une plage de valeurs pour chacun d'eux et une métrique d'objectif. Vous choisissez la métrique d'objectif parmi les métriques que calcule l'algorithme. Le réglage de modèle automatique recherche parmi les hyperparamètres choisis la combinaison de valeurs qui produira un modèle permettant d'optimiser la métrique d'objectif.

L'algorithme des k-moyennes Amazon SageMaker est un algorithme non supervisé qui regroupe les données en clusters dont les membres sont aussi similaires que possible. Comme il est non supervisé, l'algorithme n'utilise pas de jeu de données de validation par rapport auquel les hyperparamètres puissent être optimisés. En revanche, il accepte bel et bien un jeu de données de test et émet les métriques qui dépendent du carré de la distance entre les points de données et les centroïdes de cluster définitifs au terme de chaque exécution de l'entraînement. Pour rechercher le modèle qui contient les clusters les plus serrés sur le jeu de données de test, vous pouvez utiliser une tâche de réglage des hyperparamètres. Les clusters optimisent la similarité de leurs membres.

Pour plus d'informations sur le réglage de modèle, consultez Réglage de modèle automatique avec SageMaker.

Métriques calculées par l'algorithme des k-moyennes

L'algorithme des k-moyennes calcule les métriques suivantes pendant l'entraînement. Lors du réglage d'un modèle, choisissez l'une de ces métriques comme métrique d'objectif.

Nom de la métrique Description Orientation de l'optimisation
test:msd

Distances quadratiques moyennes entre chaque enregistrement du jeu de test et le centre le plus proche du modèle.

Réduire

test:ssd

Somme des carrés des distances entre chaque enregistrement du jeu de test et le centre le plus proche du modèle.

Réduire

Hyper-paramètres des k-moyennes réglables

Réglez le modèle des k-moyennes Amazon SageMaker à l'aide des hyperparamètres suivants. Les hyperparamètres qui ont le plus fort impact sur les métriques d'objectif des k-moyennes sont : mini_batch_size, extra_center_factor et init_method. Le réglage de l'hyperparamètre epochs se traduit généralement par des améliorations mineures.

Nom du paramètre Type de paramètre Plages recommandées
epochs

IntegerParameterRanges

Valeur min. : 1, valeur max. : 10

extra_center_factor

IntegerParameterRanges

Valeur min. : 4, valeur max. : 10

init_method

CategoricalParameterRanges

['kmeans++', 'random']

mini_batch_size

IntegerParameterRanges

Valeur min. : 3000, valeur max. : 15000