CatBoost iperparametri - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

CatBoost iperparametri

La tabella seguente contiene il sottoinsieme di iperparametri richiesti o più comunemente utilizzati per l'algoritmo Amazon SageMaker CatBoost . Gli utenti impostano questi parametri per agevolare la stima dei parametri del modello dai dati. L' SageMaker CatBoost algoritmo è un'implementazione del pacchetto open source CatBoost.

Nota

Gli iperparametri predefiniti si basano su set di dati di esempio in CatBoost quaderni di esempio.

Per impostazione predefinita, l' SageMaker CatBoost algoritmo sceglie automaticamente una metrica di valutazione e una funzione di perdita in base al tipo di problema di classificazione. L' CatBoost algoritmo rileva il tipo di problema di classificazione in base al numero di etichette nei dati. Per i problemi di regressione, il parametro di valutazione e le funzioni di perdita sono entrambi un errore quadratico medio. Per problemi di classificazione binaria, il parametro di valutazione è AUC (Area Under the Curve) e la funzione di perdita è la perdita di log. Per i problemi di classificazione multiclasse, il parametro di valutazione e le funzioni di perdita sono un'entropia incrociata multiclasse. È possibile utilizzare l'iperparametro eval_metric per modificare il parametro di valutazione predefinito. Fai riferimento alla tabella seguente per ulteriori informazioni sugli iperparametri LightGBM, incluse descrizioni, valori validi e valori predefiniti.

Nome parametro Descrizione
iterations

Il numero massimo di alberi che possono essere costruiti.

Valori validi: numero intero, intervallo: numero intero positivo.

Valore predefinito: 500.

early_stopping_rounds

L'addestramento si interromperà se un parametro di un dato di convalida non migliora nell'ultimo round early_stopping_rounds. Se early_stopping_rounds è minore o uguale a zero, questo iperparametro viene ignorato.

Valori validi: numero intero.

Valore predefinito: 5.

eval_metric

Parametro di valutazione per i dati di convalida. Se eval_metric è impostato sul valore predefinito "auto", l'algoritmo sceglie automaticamente un parametro di valutazione in base al tipo di problema di classificazione:

  • "RMSE" per la regressione

  • "AUC" per la classificazione binaria

  • "MultiClass" per la classificazione multiclasse

Valori validi: stringa, consulta la CatBoost documentazione per i valori validi.

Valore predefinito: "auto".

learning_rate

La velocità con cui i pesi del modello vengono aggiornati dopo aver esaminato ogni batch di esempi di addestramento.

Valori validi: float, intervallo: (0.0, 1.0).

Valore predefinito: 0.009.

depth

Profondità dell'albero.

Valori validi: intero, intervallo: (1,16).

Valore predefinito: 6.

l2_leaf_reg

Coefficiente per il termine di regolarizzazione L2 della funzione di costo.

Valori validi: numero intero, intervallo: numero intero positivo.

Valore predefinito: 3.

random_strength

La quantità di randomizzazione da utilizzare per le suddivisioni del punteggio quando viene selezionata la struttura ad albero. Utilizza questo parametro per l’overfitting del modello.

Valori validi: float, intervallo: numero a virgola mobile positivo.

Valore predefinito: 1.0.

max_leaves

Il numero massimo di foglie nell’albero risultante. Può essere utilizzato solo con la policy di crescita "Lossguide".

Valori validi: intero, intervallo: [2, 64].

Valore predefinito: 31.

rsm

Metodo subspaziale casuale. La percentuale di funzionalità da utilizzare in ogni selezione suddivisa, quando le funzionalità vengono nuovamente selezionate casualmente.

Valori validi: float, intervallo: (0.0, 1.0).

Valore predefinito: 1.0.

sampling_frequency

Frequenza di campionamento di pesi e oggetti durante la costruzione di alberi.

Valori validi: stringa: ("PerTreeLevel" o "PerTree").

Valore predefinito: "PerTreeLevel".

min_data_in_leaf

Il numero minimo di campioni di addestramento in una foglia. CatBoost non cerca nuove divisioni nelle foglie con un numero di campioni inferiore al valore specificato. Può essere utilizzato solo con le policy di crescita "Lossguide" e "Depthwise".

Valori validi: intero, intervallo: (1 o ).

Valore predefinito: 1.

bagging_temperature

Definisce le impostazioni del bootstrap bayesiano. Utilizza il bootstrap bayesiano per assegnare pesi casuali agli oggetti. Se bagging_temperature è impostato su 1.0, i pesi vengono campionati da una distribuzione esponenziale. Se bagging_temperature è impostato su 0.0, tutti i pesi sono 1,0.

Valori validi: float, intervallo: float non negativi.

Valore predefinito: 1.0.

boosting_type

Lo schema di boosting. “Auto” significa che boosting_type viene selezionato in base al tipo di unità di elaborazione, al numero di oggetti nel set di dati di addestramento e alla modalità di apprendimento selezionata.

Valori validi: stringa, uno dei seguenti valori: ("Auto", "Ordered", "Plain").

Valore predefinito: "Auto".

scale_pos_weight

Il peso della classe positiva nella classificazione binaria. Il valore viene utilizzato come moltiplicatore per i pesi degli oggetti della classe positiva.

Valori validi: float, intervallo: float positivi.

Valore predefinito: 1.0.

max_bin

Il numero di suddivisioni per le funzionalità numeriche. "Auto" significa che max_bin viene selezionato in base al tipo di unità di elaborazione e ad altri parametri. Per i dettagli, consulta la CatBoost documentazione.

Valori validi: stringa: ("Auto" o stringa di numeri interi da "1" a "65535" compresi).

Valore predefinito: "Auto".

grow_policy

La policy di crescita degli alberi. Definisce come eseguire costruzioni di alberi greedy.

Valori validi: stringa, uno dei seguenti valori: ("SymmetricTree", "Depthwise" o "Lossguide").

Valore predefinito: "SymmetricTree".

random_seed

Il seed casuale usato per l’addestramento.

Valori validi: numeri interi, intervallo: numeri interi non negativi.

Valore predefinito: 1.0.

thread_count

Il numero di thread da utilizzare durante l'addestramento. Se thread_count è -1, il numero di thread è uguale al numero di core del processore. thread_count non può essere 0.

Valori validi: un numero intero: (-1 o un numero intero positivo).

Valore predefinito: -1.

verbose

La verbosità dei messaggi di stampa, con livelli più alti corrispondenti a dichiarazioni di stampa più dettagliate.

Valori validi: numero intero, intervallo: numero intero positivo.

Valore predefinito: 1.