XGBoost-Hyperparameter - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

XGBoost-Hyperparameter

Die folgende Tabelle enthält die Teilmenge der Hyperparameter, die für den Amazon- SageMaker XGBoost-Algorithmus erforderlich sind oder am häufigsten verwendet werden. Dies sind Parameter, die von Benutzern festgelegt werden, um die Schätzung der Modellparameter aus Daten zu erleichtern. Die obligatorischen Hyperparameter, die festgelegt werden müssen, sind zuerst aufgelistet (in alphabetischer Reihenfolge). Die optionalen Hyperparameter, die festgelegt werden können, sind als Nächstes aufgeführt (ebenfalls in alphabetischer Reihenfolge). Der SageMaker-XGBoost-Algorithmus ist eine Implementierung des Open-Source-DMLC-XGBoost-Pakets. Weitere Informationen zum vollständigen Satz von Hyperparametern, die für diese Version von XGBoost konfiguriert werden können, finden Sie unter XGBoost-Parameter.

Name des Parameters Beschreibung
num_class

Die Anzahl der Klassen.

Erforderlich, wenn objective auf multi:softmax oder multi:softprob festgelegt ist.

Gültige Werte: Ganzzahl.

num_round

Die Anzahl der Runden, die für die Ausführung der Schulung notwendig ist.

Erforderlich

Gültige Werte: Ganzzahl.

alpha

L1-Regularisierungsbedingung für Gewichtungen. Eine Erhöhung dieses Werts macht Modelle konservativer.

Optional

Gültige Werte: Gleitkommazahl.

Standardwert: 0

base_score

Die erste Prognosebewertung aller Instances, globale Verzerrung.

Optional

Gültige Werte: Gleitkommazahl.

Standardwert: 0.5

booster

Welcher Booster empfiehlt sich? Die Werte gbtree und dart verwenden baumbasierte Modelle, während gblinear eine lineare Funktion verwendet.

Optional

Gültige Werte: Zeichenfolge. Entweder "gbtree", "gblinear" oder "dart".

Standardwert: "gbtree"

colsample_bylevel

Teilstichprobenverhältnis von Spalten für jede Teilung auf jeder Ebene.

Optional

Gültige Werte: Gleitkommazahl. Bereich: [0,1].

Standardwert: 1

colsample_bynode

Teilstichprobenverhältnis der Spalten von jedem Knoten.

Optional

Gültige Werte: Gleitkommazahl. Bereich: [0,1].

Standardwert: 1

colsample_bytree

Teilstichprobenverhältnis von Spalten beim Erstellen jedes Baums.

Optional

Gültige Werte: Gleitkommazahl. Bereich: [0,1].

Standardwert: 1

csv_weights

Wenn dieses Flag aktiviert ist, differenziert XGBoost die Bedeutung von Instances für CSV-Eingaben, indem die zweite Spalte (die Spalte nach den Bezeichnungen) in Schulungsdaten als Instance-Gewichtungen herangezogen wird.

Optional

Gültige Werte: 0 oder 1

Standardwert: 0

deterministic_histogram

Wenn dieses Flag aktiviert ist, erstellt XGBoost deterministisch ein Histogramm auf der GPU. Wird nur verwendet, wenn tree_method auf gpu_hist festgelegt ist.

Eine vollständige Liste gültiger Eingabeparameter finden Sie unter XGBoost Parameters.

Optional

Gültige Werte: Zeichenfolge. Bereich: "true" oder "false".

Standardwert: "true"

early_stopping_rounds

Das Modell wird so lange geschult, bis die Validierungsbewertung keine Verbesserung mehr zeigt. Validierungsfehler müssen mindestens alle early_stopping_rounds verringert werden, um die Schulungen fortzusetzen. SageMaker-Hosting verwendet das beste Modell für die Inferenz.

Optional

Gültige Werte: Ganzzahl.

Standardwert: -

eta

Reduzierung der Schrittgröße in Updates, um Überanpassung zu verhindern. Nach jedem Boosting-Schritt können Sie direkt die Gewichtungen der neuen Merkmale erhalten. Der Parameter eta verkleinert die Merkmalsgewichtungen, sodass der Boosting-Prozess konservativer wird.

Optional

Gültige Werte: Gleitkommazahl. Bereich: [0,1].

Standardwert: 0.3

eval_metric

Evaluationsmetriken für die Datenvalidierung. Eine Standardmetrik wird je nach Ziel zugewiesen:

  • rmse: zur Regression

  • error: zur Klassifizierung

  • map: für die Rangfolge

Eine Liste gültiger Eingabeparameter finden Sie unter XGBoost-Parameter für die Lernaufgabe.

Optional

Gültige Werte: Zeichenfolge.

Standardwert: Standard gemäß Ziel.

gamma

Es ist eine minimale Verlustreduzierung erforderlich, um eine weitere Partition auf einem Blattknoten des Baums zu erstellen. Je größer, desto konservativer ist der Algorithmus.

Optional

Gültige Werte: Gleitkommazahl. Bereich: [0,∞).

Standardwert: 0

grow_policy

Steuert die Art und Weise, wie neue Knoten zur Struktur hinzugefügt werden. Wird derzeit nur unterstützt, wenn tree_method auf hist festgelegt ist.

Optional

Gültige Werte: Zeichenfolge. Entweder "depthwise" oder "lossguide".

Standardwert: "depthwise"

interaction_constraints

Geben Sie Gruppen von Variablen an, die interagieren dürfen.

Optional

Gültige Werte: Verschachtelte Liste von ganzen Zahlen. Jede Ganzzahl steht für ein Feature, und jede verschachtelte Liste enthält Features, die interagieren dürfen, z. B. [[1,2], [3,4,5]].

Standardwert: Keiner

lambda

L2-Regularisierungsbedingung für Gewichtungen. Eine Erhöhung dieses Werts macht Modelle konservativer.

Optional

Gültige Werte: Gleitkommazahl.

Standardwert: 1

lambda_bias

L2-Regularisierungsbedingung für Verzerrungen.

Optional

Gültige Werte: Gleitkommazahl. Bereich: [0.0, 1.0].

Standardwert: 0

max_bin

Maximale Anzahl diskreter Pakete zum Gruppieren kontinuierlicher Merkmale. Wird nur verwendet, wenn tree_method auf hist festgelegt ist.

Optional

Gültige Werte: Ganzzahl.

Standardwert: 256

max_delta_step

Maximaler Delta-Schritt für die Gewichtungsschätzung für jeden Baum. Wenn eine positive Ganzzahl verwendet wird, trägt dies zu einer konservativeren Aktualisierung bei. Die bevorzugte Option ist die Verwendung in logistischer Regression. Setzen Sie sie auf 1-10, um die Aktualisierung zu kontrollieren.

Optional

Gültige Werte: Ganzzahl. Bereich: [0,∞).

Standardwert: 0

max_depth

Maximale Tiefe eines Baums. Durch Erhöhen dieses Wertes wird das Modell komplexer und wahrscheinlich überangepasst. 0 gibt an, dass keine Begrenzung vorliegt. Ein Begrenzung ist erforderlich, wenn grow_policy=depth-wise.

Optional

Gültige Werte: Ganzzahl. Bereich: [0,∞)

Standardwert: 6

max_leaves

Maximale Anzahl der hinzuzufügenden Knoten. Ist nur relevant, wenn grow_policy auf lossguide festgelegt ist.

Optional

Gültige Werte: Ganzzahl.

Standardwert: 0

min_child_weight

Minimale Summe der Instance-Gewichtung (Hesse), die für eine untergeordnete Struktur erforderlich ist. Wenn der Partitionsschritt des Baums einen Blattknoten zum Ergebnis hat, dessen Instance-Gewicht-Summe kleiner als min_child_weight ist, verzichtet der Aufbauprozess auf eine weitere Partitionierung. In linearen Regressionsmodellen entspricht dies einer Mindestanzahl von erforderlichen Instances in den einzelnen Knoten. Je größer der Algorithmus, desto konservativer.

Optional

Gültige Werte: Gleitkommazahl. Bereich: [0,∞).

Standardwert: 1

monotone_constraints

Gibt Einschränkungen der Monotonie für jedes Feature an.

Optional

Gültige Werte: Tupel von ganzen Zahlen. Gültige Ganzzahlen: -1 (abnehmende Einschränkung), 0 (keine Einschränkung), 1 (zunehmende Einschränkung).

Beispiel: (0, 1): Keine Einschränkung für den ersten Prädiktor und eine zunehmende Einschränkung für den zweiten. (-1, 1): Abnehmende Einschränkung für den ersten Prädiktor und eine zunehmende Einschränkung für den zweiten.

Standardwert: (0, 0)

normalize_type

Typ eines Normalisierungsalgorithmus.

Optional

Gültige Werte: Entweder tree oder forest.

Standardwert: tree

nthread

Anzahl der parallelen Threads zum Ausführen von xgboost.

Optional

Gültige Werte: Ganzzahl.

Standardwert: Maximale Anzahl an Threads.

objective

Legt die Lernaufgabe und das entsprechende Lernziel fest. Beispiele: reg:logistic, multi:softmax, reg:squarederror. Eine vollständige Liste gültiger Eingabeparameter finden Sie unter XGBoost-Parameter für die Lernaufgabe.

Optional

Zulässige Werte: String

Standardwert: "reg:squarederror"

one_drop

Wenn diese Kennzeichen aktiviert ist, fällt während eines Abbruchs mindestens ein Baum aus.

Optional

Gültige Werte: 0 oder 1

Standardwert: 0

process_type

Typ des auszuführenden Boosting-Prozesses.

Optional

Gültige Werte: Zeichenfolge. Entweder "default" oder "update".

Standardwert: "default"

rate_drop

Die Ausfallrate, die einen Bruchteil eines vorherigen Baums angibt, der während eines Abbruchs ausfällt.

Optional

Gültige Werte: Gleitkommazahl. Bereich: [0.0, 1.0].

Standardwert: 0.0

refresh_leaf

Dies ist ein Parameter des Aktualisierungs-Plugins 'refresh'. Wenn Sie ihn auf true (1) festlegen, werden die Statistiken der Blätter und Knoten eines Baumes aktualisiert. Wenn Sie ihn auf false (0) festlegen, werden nur die Statistiken der Knoten aktualisiert.

Optional

Gültige Werte: 0/1

Standardwert: 1

sample_type

Typ eines Stichprobenalgorithmus.

Optional

Gültige Werte: Entweder uniform oder weighted.

Standardwert: uniform

scale_pos_weight

Kontrolliert die Balance zwischen positiven und negativen Gewichtungen. Er ist nützlich bei Klassen, die nicht im Gleichgewicht sind. Ein typischer Wert dafür: sum(negative cases) / sum(positive cases).

Optional

Gültige Werte: Gleitkommazahl..

Standardwert: 1

seed

Numerischer Startwert.

Optional

Gültige Werte: Ganzzahl

Standardwert: 0

single_precision_histogram

Wenn dieses Flag aktiviert ist, verwendet XGBoost anstelle von doppelter Präzision zur Erstellung von Histogrammen die einfache Präzision. Wird nur verwendet, wenn tree_method auf hist oder gpu_hist festgelegt ist.

Eine vollständige Liste gültiger Eingabeparameter finden Sie unter XGBoost Parameters.

Optional

Gültige Werte: Zeichenfolge. Bereich: "true" oder "false"

Standardwert: "false"

sketch_eps

Wird nur für einen approximativen Greedy-Algorithmus verwendet. Damit ergibt sich eine Paketanzahl von O(1/ sketch_eps). Im Vergleich zur direkten Auswahl der Paketanzahl besteht hier eine theoretische Garantie im Hinblick auf grafikbezogene Genauigkeit.

Optional

Gültige Werte: Float, Bereich: [0, 1].

Standardwert: 0.03

skip_drop

Wahrscheinlichkeit, mit der das Ausfallverfahren während einer Boosting-Iteration übersprungen wird.

Optional

Gültige Werte: Gleitkommazahl. Bereich: [0.0, 1.0].

Standardwert: 0.0

subsample

Teilstichprobenverhältnis der Schulungs-Instance. Auf 0,5 setzen, bedeutet, dass XGBoost die Hälfte der Daten-Instances nach dem Zufallsprinzip sammelt, um Bäume zu vergrößern. Dies verhindert eine Überanpassung.

Optional

Gültige Werte: Gleitkommazahl. Bereich: [0,1].

Standardwert: 1

tree_method

Der in XGBoost verwendete Baum-Konstruktionsalgorithmus.

Optional

Gültige Werte: One of auto, exact, approx, hist oder gpu_hist.

Standardwert: auto

tweedie_variance_power

Parameter, der die Varianz der Tweedie-Verteilung steuert.

Optional

Gültige Werte: Gleitkommazahl. Bereich: (1, 2)

Standardwert: 1.5

updater

Eine durch Komma getrennte Zeichenfolge, welche die Reihenfolge festlegt, in der die Baum-Updater ausgeführt werden. Dies ist eine modulare Methode, um Bäume zu erstellen und zu ändern.

Eine vollständige Liste gültiger Eingabeparameter finden Sie unter XGBoost Parameters.

Optional

Gültige Werte: durch Komma getrennte Zeichenfolge.

Standardwert: grow_colmaker, prune

use_dask_gpu_training

Stellen Sie use_dask_gpu_training auf "true" ein, wenn Sie verteilte GPU-Schulungen mit Dask ausführen möchten. Die GPU-Schulung von Dask wird nur für die Versionen 1.5-1 und höher unterstützt. Setzen Sie diesen Wert für Versionen vor 1.5-1 nicht auf "true". Weitere Informationen finden Sie unter Verteilte GPU-Schulung.

Optional

Gültige Werte: Zeichenfolge. Bereich: "true" oder "false"

Standardwert: "false"

verbosity

Ausführlichkeit beim Drucken von Nachrichten.

Gültige Werte: 0 (stumm), 1 (Warnung), 2 (Info), 3 (Debug).

Optional

Standardwert: 1