Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
CatBoost hyperparamètres
Le tableau suivant contient le sous-ensemble des hyperparamètres requis ou les plus couramment utilisés pour l'algorithme Amazon SageMaker CatBoost . Les utilisateurs définissent ces paramètres pour faciliter l'estimation des paramètres du modèle à partir des données. L' SageMaker CatBoost algorithme est une implémentation du CatBoost
Note
Les hyperparamètres par défaut sont basés sur des exemples de jeux de données dans le CatBoost exemples de carnets.
Par défaut, l' SageMaker CatBoost algorithme choisit automatiquement une métrique d'évaluation et une fonction de perte en fonction du type de problème de classification. L' CatBoost algorithme détecte le type de problème de classification en fonction du nombre d'étiquettes présentes dans vos données. Pour les problèmes de régression, la métrique d'évaluation et les fonctions de perte correspondent toutes à la racine carrée de l'erreur quadratique moyenne. Pour les problèmes de classification binaire, la métrique d'évaluation est Area Under the Curve (AUC) et la fonction de perte est la perte logarithmique. Pour les problèmes de classification multi-classes, la métrique d'évaluation et les fonctions de perte correspondent à l'entropie croisée multi-classes. Vous pouvez utiliser l'hyperparamètre eval_metric
pour modifier la métrique d'évaluation par défaut. Reportez-vous au tableau suivant pour plus d'informations sur les GBM hyperparamètres Light, notamment les descriptions, les valeurs valides et les valeurs par défaut.
Nom du paramètre | Description |
---|---|
iterations |
Nombre maximal d'arbres pouvant être créés. Valeurs valides : nombre entier, plage : nombre entier positif. Valeur par défaut : |
early_stopping_rounds |
L'entraînement s'arrête si une métrique d'un point de données de validation ne s'améliore pas au cours du dernier cycle Valeurs valides : entier Valeur par défaut : |
eval_metric |
Métrique d'évaluation des données de validation. Si
Valeurs valides : chaîne, reportez-vous à la CatBoost documentation Valeur par défaut : |
learning_rate |
Taux auquel les pondérations du modèle sont mises à jour après que chaque lot d'exemples d'entraînement a été parcouru. Valeurs valides : float, plage : ( Valeur par défaut : |
depth |
Profondeur de l'arbre. Valeurs valides : entier, plage : ( Valeur par défaut : |
l2_leaf_reg |
Coefficient pour la condition de régularisation L2 de la fonction de coût. Valeurs valides : nombre entier, plage : nombre entier positif. Valeur par défaut : |
random_strength |
Degré du caractère aléatoire à utiliser pour la notation des divisions quand la structure arborescente est sélectionnée. Utilisez ce paramètre pour éviter de surajuster le modèle. Valeurs valides : float, plage : nombre à virgule flottante positive. Valeur par défaut : |
max_leaves |
Nombre maximal de feuilles dans l'arborescence obtenue. Peut être utilisé uniquement avec la politique de croissance Valeurs valides : entier, plage : [ Valeur par défaut : |
rsm |
Méthode subspatiale aléatoire. Le pourcentage de caractéristiques à utiliser à chaque sélection fractionnée, lorsque les caractéristiques sont à nouveau sélectionnées de manière aléatoire. Valeurs valides : valeur à virgule flottante, plage : ( Valeur par défaut : |
sampling_frequency |
Fréquence d'échantillonnage des pondérations et des objets lors de la génération d'arborescences. Valeurs valides : chaîne, valeur : ( Valeur par défaut : |
min_data_in_leaf |
Nombre minimal d'échantillons d'entraînement dans une feuille. CatBoost ne recherche pas de nouvelles divisions dans les feuilles dont le nombre d'échantillons est inférieur à la valeur spécifiée. Peut être utilisé uniquement avec les politiques de croissance Valeurs valides : entier, plage : ( Valeur par défaut : |
bagging_temperature |
Définit les paramètres de l'amorçage bayésien. Utilisez l'amorçage bayésien pour attribuer des pondérations aléatoires aux objets. Si Valeurs valides : valeur à virgule flottante, plage : valeur à virgule flottante non négative. Valeur par défaut : |
boosting_type |
Système de renforcement. « Auto » signifie que Valeurs valides : chaîne, l'une des valeurs suivantes : ( Valeur par défaut : |
scale_pos_weight |
La pondération de la classe positive dans la classification binaire. La valeur est utilisée comme multiplicateur pour les pondérations des objets de classe positive. Valeurs valides : valeur à virgule flottante, plage : valeur à virgule flottante positive. Valeur par défaut : |
max_bin |
Nombre de divisions pour les caractéristiques numériques. Valeurs valides : chaîne, valeur : ( Valeur par défaut : |
grow_policy |
Politique de croissance d'arborescence. Définit comment réaliser une construction d'arborescence gloutonne. Valeurs valides : chaîne, l'une des valeurs suivantes : ( Valeur par défaut : |
random_seed |
Valeur initiale aléatoire utilisée pour l'entraînement. Valeurs valides : nombre, plage : nombre entier non négatif. Valeur par défaut : |
thread_count |
Nombre de threads à utiliser pendant l'entraînement. Si Valeurs valides : entier, valeur : ( Valeur par défaut : |
verbose |
Verbosité des messages d'impression, les niveaux supérieurs correspondant à des instructions d'impression plus détaillées. Valeurs valides : nombre entier, plage : nombre entier positif. Valeur par défaut : |