Régler un modèle XGBoost - Amazon SageMaker

Régler un modèle XGBoost

Le réglage de modèle automatique, ou réglage d'hyperparamètre, détecte la meilleure version d'un modèle en exécutant plusieurs tâches qui testent une plage d'hyperparamètres sur vos jeu de données d'entraînement et de valisation. Vous choisissez trois types d'hyperparamètres :

  • une fonction objective d'apprentissage à optimiser pendant l'entraînement du modèle ;

  • une métrique eval_metric à utiliser pour évaluer les performances du modèle lors de la validation ;

  • un ensemble d'hyperparamètres et une plage de valeurs à utiliser pour régler automatiquement le modèle.

Vous choisissez la métrique d'évaluation parmi un ensemble de métriques d'évaluation que l'algorithme calcule. Le réglage de modèle automatique recherche parmi les hyperparamètres choisis la combinaison de valeurs qui produira un modèle permettant d'optimiser la métrique d'évaluation.

Note

Le réglage de modèle automatique pour XGBoost 0.90 est disponible uniquement à partir des kits SDK Amazon SageMaker, et non pas de la console SageMaker.

Pour plus d'informations sur le réglage de modèle, consultez Réglage de modèle automatique avec SageMaker.

Métriques d'évaluation calculées par l'algorithme XGBoost

L'algorithme XGBoost calcule les métriques suivantes à utiliser pour la validation de modèle. Lors du réglage du modèle, choisissez l'une de ces métriques pour évaluer le modèle. Pour obtenir la liste complète des valeurs eval_metric valides, reportez-vous à XGBoost Learning Task Parameters.

Nom de la métrique Description Orientation de l'optimisation
validation:accuracy

Taux de classification, calculé sous la forme #(right)/#(all cases).

Agrandir

validation:auc

Aire sous une courbe (AUC, Area Under a Curve).

Agrandir

validation:error

Taux d'erreurs de classification binaire, calculé comme Nbre cas erronés/Nbre total de cas.

Réduire

validation:f1

Indicateur de précision de classification, calculé en tant que moyenne harmonique de la précision et du rappel.

Agrandir

validation:logloss

Probabilité de journalisation négative.

Réduire

validation:mae

Erreur absolue moyenne.

Réduire

validation:map

Précision moyenne.

Agrandir

validation:merror

Taux d'erreurs de classification multiclasse, calculé comme Nbre cas erronés/Nbre total de cas.

Réduire

validation:mlogloss

Probabilité de journalisation négative pour la classification multiclasse.

Réduire

validation:mse

Erreur quadratique moyenne.

Réduire

validation:ndcg

NDCG (Normalized Discounted Cumulative Gain).

Agrandir

validation:rmse

Racine carrée de l'erreur quadratique moyenne (RMSE)

Réduire

Hyperparamètres XGBoost réglables

Réglez le modèle XGBoost avec les hyperparamètres suivants. Les hyperparamètres ayant le plus d'impact sur l'optimisation des métriques d'évaluation deXGBoost sont : alpha, min_child_weight, subsample, eta et num_round.

Nom du paramètre Type de paramètre Plages recommandées
alpha

ContinuousParameterRanges

Valeur min. : 0, valeur max. : 1000

colsample_bylevel

ContinuousParameterRanges

Valeur min. : 0,1, valeur max. : 1

colsample_bynode

ContinuousParameterRanges

Valeur min. : 0,1, valeur max. : 1

colsample_bytree

ContinuousParameterRanges

Valeur min. : 0,5, valeur max. : 1

eta

ContinuousParameterRanges

Valeur min. : 0,1, valeur max. : 0,5

gamma

ContinuousParameterRanges

Valeur min. : 0, valeur max. : 5

lambda

ContinuousParameterRanges

Valeur min. : 0, valeur max. : 1000

max_delta_step

IntegerParameterRanges

[0, 10]

max_depth

IntegerParameterRanges

[0, 10]

min_child_weight

ContinuousParameterRanges

Valeur min. : 0, valeur max. : 120

num_round

IntegerParameterRanges

[1, 4000]

subsample

ContinuousParameterRanges

Valeur min. : 0,5, valeur max. : 1