Iperparametri k-means - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Iperparametri k-means

Nella richiesta CreateTrainingJob, specifichi l'algoritmo di addestramento che desideri utilizzare. Puoi anche specificare iperparametri specifici dell'algoritmo come mappe. string-to-string La tabella seguente elenca gli iperparametri per l'algoritmo di addestramento k-means fornito da Amazon. SageMaker Per ulteriori informazioni su come funzione k-means clustering, consulta Come funziona k-means clustering.

Nome parametro Descrizione
feature_dim

Il numero di caratteristiche nei dati di input.

Campo obbligatorio

Valori validi: numeri interi positivi

k

Il numero di cluster necessari.

Campo obbligatorio

Valori validi: numeri interi positivi

epochs

Il numero di pass sui dati di addestramento.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 1

eval_metrics

Un elenco JSON dei tipi di parametro utilizzati per restituire un punteggio per il modello. I valori consentiti sono msd per la deviazione quadratica media e ssd per la somma della distanza quadratica. Se vengono forniti dati di test, il punteggio viene restituito per ciascun parametro richiesto.

Opzionale

Valori validi: [\"msd\"] o [\"ssd\"] oppure [\"msd\",\"ssd\"].

Valore predefinito: [\"msd\"]

extra_center_factor

L'algoritmo crea K centers = num_clusters * extra_center_factor mentre viene eseguito e riduce il numero di centri da K a k durante la finalizzazione del modello.

Opzionale

Valori validi: un numero intero o auto.

Valore predefinito: auto

half_life_time_size

Viene utilizzato per determinare il peso specificato per un'osservazione quando si calcola la media di un cluster. Questo peso decade esponenzialmente quando più punti vengono osservati. Quando un punto viene osservato per la prima volta, viene assegnato un peso pari a 1 quando si calcola la media del cluster. La costante di decadimento per la funzione di decadimento esponenziale viene scelta in modo che dopo l'osservazione dei punti half_life_time_size il peso sia dimezzato. Se è impostato su 0, non vi è alcun decadimento.

Opzionale

Valori validi: numeri interi non negativi

Valore predefinito: 0

init_method

Metodo con cui l'algoritmo sceglie i centri di cluster iniziali. L'approccio k-means standard li sceglie casualmente. Un metodo alternativo k-means ++ sceglie casualmente il primo centro di cluster. Quindi distribuisce la posizione dei restanti cluster iniziali pesando la selezione dei centri con una distribuzione di probabilità che è proporzionale al quadrato della distanza dei restanti punti di dati dai centri esistenti.

Opzionale

Valori validi: random o kmeans++.

Valore predefinito: random

local_lloyd_init_method

Il metodo di inizializzazione per la procedura di massimizzazione dell'aspettativa (EM, Expectation Maximization) di Lloyd utilizzato per creare il modello finale contenente i centri k.

Opzionale

Valori validi: random o kmeans++.

Valore predefinito: kmeans++

local_lloyd_max_iter

Il numero massimo di iterazioni per la procedura di massimizzazione dell'aspettativa (EM, Expectation Maximization) di Lloyd utilizzato per creare il modello finale contenente centri k.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 300

local_lloyd_num_trials

Il numero di volte in cui viene eseguita la procedura di massimizzazione dell'aspettativa (EM) di Lloyd con la perdita minore quando si costruisce il modello finale contenente centri k.

Opzionale

Valori validi: un numero intero o auto.

Valore predefinito: auto

local_lloyd_tol

La tolleranza per il cambiamento di perdita per l'arresto precoce della procedura di massimizzazione dell'aspettativa (EM, Expectation Maximization) di Lloyd utilizzato per creare il modello finale contenente centri k.

Opzionale

Valori validi: Float. Intervallo in [0, 1].

Valore predefinito: 0.0001

mini_batch_size

Il numero di osservazioni per ogni mini batch per l'iterazione di dati.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 5000