CatBoost iperparametri

La tabella seguente contiene il sottoinsieme di iperparametri richiesti o più comunemente utilizzati per l'algoritmo Amazon SageMaker AI CatBoost . Gli utenti impostano questi parametri per agevolare la stima dei parametri del modello dai dati. L' CatBoost algoritmo SageMaker AI è un'implementazione del pacchetto open source CatBoost.

Nota

Gli iperparametri predefiniti si basano su set di dati di esempio in CatBoost quaderni di esempio.

Per impostazione predefinita, l' CatBoost algoritmo SageMaker AI sceglie automaticamente una metrica di valutazione e una funzione di perdita in base al tipo di problema di classificazione. L' CatBoost algoritmo rileva il tipo di problema di classificazione in base al numero di etichette nei dati. Per i problemi di regressione, il parametro di valutazione e le funzioni di perdita sono entrambi un errore quadratico medio. Per problemi di classificazione binaria, il parametro di valutazione è AUC (Area Under the Curve) e la funzione di perdita è la perdita di log. Per i problemi di classificazione multiclasse, il parametro di valutazione e le funzioni di perdita sono un'entropia incrociata multiclasse. È possibile utilizzare l'iperparametro eval_metric per modificare il parametro di valutazione predefinito. Fai riferimento alla tabella seguente per ulteriori informazioni sugli iperparametri LightGBM, incluse descrizioni, valori validi e valori predefiniti.

Nome parametro	Descrizione
`iterations`	Il numero massimo di alberi che possono essere costruiti. Valori validi: numero intero, intervallo: numero intero positivo. Valore predefinito: `500`.
`early_stopping_rounds`	L'addestramento si interromperà se un parametro di un dato di convalida non migliora nell'ultimo round `early_stopping_rounds`. Se `early_stopping_rounds` è minore o uguale a zero, questo iperparametro viene ignorato. Valori validi: numero intero. Valore predefinito: `5`.
`eval_metric`	Parametro di valutazione per i dati di convalida. Se `eval_metric` è impostato sul valore predefinito `"auto"`, l'algoritmo sceglie automaticamente un parametro di valutazione in base al tipo di problema di classificazione: `"RMSE"` per la regressione `"AUC"` per la classificazione binaria `"MultiClass"` per la classificazione multiclasse Valori validi: stringa, consulta la CatBoost documentazione per i valori validi. Valore predefinito: `"auto"`.
`learning_rate`	La velocità con cui i pesi del modello vengono aggiornati dopo aver esaminato ogni batch di esempi di addestramento. Valori validi: float, intervallo: (`0.0`, `1.0`). Valore predefinito: `0.009`.
`depth`	Profondità dell'albero. Valori validi: intero, intervallo: (`1`,`16`). Valore predefinito: `6`.
`l2_leaf_reg`	Coefficiente per il termine di regolarizzazione L2 della funzione di costo. Valori validi: numero intero, intervallo: numero intero positivo. Valore predefinito: `3`.
`random_strength`	La quantità di randomizzazione da utilizzare per le suddivisioni del punteggio quando viene selezionata la struttura ad albero. Utilizza questo parametro per l’overfitting del modello. Valori validi: float, intervallo: numero a virgola mobile positivo. Valore predefinito: `1.0`.
`max_leaves`	Il numero massimo di foglie nell’albero risultante. Può essere utilizzato solo con la policy di crescita `"Lossguide"`. Valori validi: intero, intervallo: [`2`, `64`]. Valore predefinito: `31`.
`rsm`	Metodo subspaziale casuale. La percentuale di funzionalità da utilizzare in ogni selezione suddivisa, quando le funzionalità vengono nuovamente selezionate casualmente. Valori validi: float, intervallo: (`0.0`, `1.0`). Valore predefinito: `1.0`.
`sampling_frequency`	Frequenza di campionamento di pesi e oggetti durante la costruzione di alberi. Valori validi: stringa: (`"PerTreeLevel"` o `"PerTree"`). Valore predefinito: `"PerTreeLevel"`.
`min_data_in_leaf`	Il numero minimo di campioni di addestramento in una foglia. CatBoost non cerca nuove spaccature nelle foglie con un numero di campioni inferiore al valore specificato. Può essere utilizzato solo con le policy di crescita `"Lossguide"` e `"Depthwise"`. Valori validi: intero, intervallo: (`1` o `∞`). Valore predefinito: `1`.
`bagging_temperature`	Definisce le impostazioni del bootstrap bayesiano. Utilizza il bootstrap bayesiano per assegnare pesi casuali agli oggetti. Se `bagging_temperature` è impostato su `1.0`, i pesi vengono campionati da una distribuzione esponenziale. Se `bagging_temperature` è impostato su `0.0`, tutti i pesi sono 1,0. Valori validi: float, intervallo: float non negativi. Valore predefinito: `1.0`.
`boosting_type`	Lo schema di boosting. “Auto” significa che `boosting_type` viene selezionato in base al tipo di unità di elaborazione, al numero di oggetti nel set di dati di addestramento e alla modalità di apprendimento selezionata. Valori validi: stringa, uno dei seguenti valori: (`"Auto"`, `"Ordered"`, `"Plain"`). Valore predefinito: `"Auto"`.
`scale_pos_weight`	Il peso della classe positiva nella classificazione binaria. Il valore viene utilizzato come moltiplicatore per i pesi degli oggetti della classe positiva. Valori validi: float, intervallo: float positivi. Valore predefinito: `1.0`.
`max_bin`	Il numero di suddivisioni per le funzionalità numeriche. `"Auto"` significa che `max_bin` viene selezionato in base al tipo di unità di elaborazione e ad altri parametri. Per i dettagli, consulta la CatBoost documentazione. Valori validi: stringa: (`"Auto"` o stringa di numeri interi da `"1"` a `"65535"` compresi). Valore predefinito: `"Auto"`.
`grow_policy`	La policy di crescita degli alberi. Definisce come eseguire costruzioni di alberi greedy. Valori validi: stringa, uno dei seguenti valori: (`"SymmetricTree"`, `"Depthwise"` o `"Lossguide"`). Valore predefinito: `"SymmetricTree"`.
`random_seed`	Il seed casuale usato per l’addestramento. Valori validi: numeri interi, intervallo: numeri interi non negativi. Valore predefinito: `1.0`.
`thread_count`	Il numero di thread da utilizzare durante l'addestramento. Se `thread_count` è `-1`, il numero di thread è uguale al numero di core del processore. `thread_count` non può essere `0`. Valori validi: un numero intero: (`-1` o un numero intero positivo). Valore predefinito: `-1`.
`verbose`	La verbosità dei messaggi di stampa, con livelli più alti corrispondenti a dichiarazioni di stampa più dettagliate. Valori validi: numero intero, intervallo: numero intero positivo. Valore predefinito: `1`.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Come funziona

Ottimizzazione del modello