CatBoost hyperparamètres - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

CatBoost hyperparamètres

Le tableau suivant contient le sous-ensemble des hyperparamètres requis ou les plus couramment utilisés pour l'algorithme Amazon SageMaker CatBoost . Les utilisateurs définissent ces paramètres pour faciliter l'estimation des paramètres du modèle à partir des données. L' SageMaker CatBoost algorithme est une implémentation du CatBoostpackage open source.

Note

Les hyperparamètres par défaut sont basés sur des exemples de jeux de données dans le CatBoost exemples de carnets.

Par défaut, l' SageMaker CatBoost algorithme choisit automatiquement une métrique d'évaluation et une fonction de perte en fonction du type de problème de classification. L' CatBoost algorithme détecte le type de problème de classification en fonction du nombre d'étiquettes présentes dans vos données. Pour les problèmes de régression, la métrique d'évaluation et les fonctions de perte correspondent toutes à la racine carrée de l'erreur quadratique moyenne. Pour les problèmes de classification binaire, la métrique d'évaluation est Area Under the Curve (AUC) et la fonction de perte est la perte logarithmique. Pour les problèmes de classification multi-classes, la métrique d'évaluation et les fonctions de perte correspondent à l'entropie croisée multi-classes. Vous pouvez utiliser l'hyperparamètre eval_metric pour modifier la métrique d'évaluation par défaut. Reportez-vous au tableau suivant pour plus d'informations sur les GBM hyperparamètres Light, notamment les descriptions, les valeurs valides et les valeurs par défaut.

Nom du paramètre Description
iterations

Nombre maximal d'arbres pouvant être créés.

Valeurs valides : nombre entier, plage : nombre entier positif.

Valeur par défaut : 500.

early_stopping_rounds

L'entraînement s'arrête si une métrique d'un point de données de validation ne s'améliore pas au cours du dernier cycle early_stopping_rounds. Si early_stopping_rounds est inférieur ou égal à zéro, cet hyperparamètre est ignoré.

Valeurs valides : entier

Valeur par défaut : 5.

eval_metric

Métrique d'évaluation des données de validation. Si eval_metric est défini sur la valeur "auto" par défaut, l'algorithme choisit automatiquement une métrique d'évaluation en fonction du type de problème de classification :

  • "RMSE" pour une régression

  • "AUC" pour une classification binaire

  • "MultiClass" pour une classification multiclasse

Valeurs valides : chaîne, reportez-vous à la CatBoost documentation pour les valeurs valides.

Valeur par défaut : "auto".

learning_rate

Taux auquel les pondérations du modèle sont mises à jour après que chaque lot d'exemples d'entraînement a été parcouru.

Valeurs valides : float, plage : (0.0, 1.0).

Valeur par défaut : 0.009.

depth

Profondeur de l'arbre.

Valeurs valides : entier, plage : (1, 16).

Valeur par défaut : 6.

l2_leaf_reg

Coefficient pour la condition de régularisation L2 de la fonction de coût.

Valeurs valides : nombre entier, plage : nombre entier positif.

Valeur par défaut : 3.

random_strength

Degré du caractère aléatoire à utiliser pour la notation des divisions quand la structure arborescente est sélectionnée. Utilisez ce paramètre pour éviter de surajuster le modèle.

Valeurs valides : float, plage : nombre à virgule flottante positive.

Valeur par défaut : 1.0.

max_leaves

Nombre maximal de feuilles dans l'arborescence obtenue. Peut être utilisé uniquement avec la politique de croissance "Lossguide".

Valeurs valides : entier, plage : [2, 64].

Valeur par défaut : 31.

rsm

Méthode subspatiale aléatoire. Le pourcentage de caractéristiques à utiliser à chaque sélection fractionnée, lorsque les caractéristiques sont à nouveau sélectionnées de manière aléatoire.

Valeurs valides : valeur à virgule flottante, plage : (0.0, 1.0].

Valeur par défaut : 1.0.

sampling_frequency

Fréquence d'échantillonnage des pondérations et des objets lors de la génération d'arborescences.

Valeurs valides : chaîne, valeur : ("PerTreeLevel" ou "PerTree").

Valeur par défaut : "PerTreeLevel".

min_data_in_leaf

Nombre minimal d'échantillons d'entraînement dans une feuille. CatBoost ne recherche pas de nouvelles divisions dans les feuilles dont le nombre d'échantillons est inférieur à la valeur spécifiée. Peut être utilisé uniquement avec les politiques de croissance "Lossguide" et "Depthwise".

Valeurs valides : entier, plage : (1 ou ).

Valeur par défaut : 1.

bagging_temperature

Définit les paramètres de l'amorçage bayésien. Utilisez l'amorçage bayésien pour attribuer des pondérations aléatoires aux objets. Si bagging_temperature a pour valeur 1.0, les pondérations sont échantillonnées à partir d'une distribution exponentielle. Si bagging_temperature a pour valeur 0.0, toutes les pondérations sont égales à 1,0.

Valeurs valides : valeur à virgule flottante, plage : valeur à virgule flottante non négative.

Valeur par défaut : 1.0.

boosting_type

Système de renforcement. « Auto » signifie que boosting_type est sélectionné en fonction du type d'unité de traitement, du nombre d'objets dans le jeu de données d'entraînement et du mode d'apprentissage sélectionné.

Valeurs valides : chaîne, l'une des valeurs suivantes : ("Auto", "Ordered", "Plain").

Valeur par défaut : "Auto".

scale_pos_weight

La pondération de la classe positive dans la classification binaire. La valeur est utilisée comme multiplicateur pour les pondérations des objets de classe positive.

Valeurs valides : valeur à virgule flottante, plage : valeur à virgule flottante positive.

Valeur par défaut : 1.0.

max_bin

Nombre de divisions pour les caractéristiques numériques. "Auto" signifie que max_bin est sélectionné en fonction du type d'unité de traitement et d'autres paramètres. Pour plus de détails, consultez la CatBoost documentation.

Valeurs valides : chaîne, valeur : ("Auto" ou chaîne d'entier de "1" à "65535", limites incluses).

Valeur par défaut : "Auto".

grow_policy

Politique de croissance d'arborescence. Définit comment réaliser une construction d'arborescence gloutonne.

Valeurs valides : chaîne, l'une des valeurs suivantes : ("SymmetricTree", "Depthwise" ou "Lossguide").

Valeur par défaut : "SymmetricTree".

random_seed

Valeur initiale aléatoire utilisée pour l'entraînement.

Valeurs valides : nombre, plage : nombre entier non négatif.

Valeur par défaut : 1.0.

thread_count

Nombre de threads à utiliser pendant l'entraînement. Si thread_count a pour valeur -1, le nombre de threads est égal au nombre de cœurs de processeur. thread_count ne peut pas avoir pour valeur 0.

Valeurs valides : entier, valeur : (-1 ou entier positif).

Valeur par défaut : -1.

verbose

Verbosité des messages d'impression, les niveaux supérieurs correspondant à des instructions d'impression plus détaillées.

Valeurs valides : nombre entier, plage : nombre entier positif.

Valeur par défaut : 1.