CatBoost Hyperparameter - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

CatBoost Hyperparameter

Die folgende Tabelle enthält die Teilmenge der Hyperparameter, die für den SageMaker CatBoost Amazon-Algorithmus erforderlich sind oder am häufigsten verwendet werden. Dies sind Parameter, die von Benutzern festgelegt werden, um die Schätzung der Modellparameter aus Daten zu erleichtern. Der SageMaker CatBoost Algorithmus ist eine Implementierung des CatBoostOpen-Source-Pakets.

Anmerkung

Die Standard-Hyperparameter basieren auf Beispieldatensätzen in der CatBoost Beispiel-Notizbücher.

Standardmäßig wählt der SageMaker CatBoost Algorithmus automatisch eine Bewertungsmetrik und eine Verlustfunktion aus, die auf der Art des Klassifizierungsproblems basieren. Der CatBoost Algorithmus erkennt die Art des Klassifizierungsproblems anhand der Anzahl der Labels in Ihren Daten. Bei Regressionsproblemen entsprechen die Bewertungsmetrik und die Verlustfunktionen beide dem quadratischen Mittelwert des Fehlers. Bei binären Klassifikationsproblemen lautet die Bewertungsmetrik Area Under the Curve (AUC) und die Verlustfunktion ist logarithmischer Verlust. Bei Mehrklassen-Klassifizierungsproblemen mit mehreren Klassen entsprechen die Bewertungsmetrik und die Verlustfunktionen der Kreuzentropie mehrerer Klassen. Sie können den eval_metric Hyperparameter verwenden, um die Standard-Bewertungsmetrik zu ändern. In der folgenden Tabelle finden Sie weitere Informationen zu LightGBM-Hyperparametern, einschließlich Beschreibungen, gültiger Werte und Standardwerte.

Name des Parameters Beschreibung
iterations

Die maximale Anzahl von Bäumen, die gebaut werden können.

Gültige Werte: Ganzzahl, Bereich: Positive Ganzzahl.

Standardwert: 500.

early_stopping_rounds

Das Training wird beendet, wenn sich eine Metrik eines Validierungsdatenpunkts in der letzten early_stopping_rounds Runde nicht verbessert hat. Wenn early_stopping_rounds kleiner als oder gleich Null ist, wird dieser Hyperparameter ignoriert.

Gültige Werte: Ganzzahl.

Standardwert: 5.

eval_metric

Evaluationsmetriken für die Datenvalidierung. Wenn eval_metric auf den Standardwert "auto" gesetzt ist, wählt der Algorithmus automatisch eine Bewertungsmetrik aus, die auf der Art des Klassifizierungsproblems basiert:

  • "RMSE" für Regression

  • "AUC" für binäre Klassifikation

  • "MultiClass" für Mehrklassen-Klassifizierung

Gültige Werte: Zeichenfolge. Gültige Werte finden Sie in der CatBoost Dokumentation.

Standardwert: "auto".

learning_rate

Die Geschwindigkeit, mit der die Modellgewichte aktualisiert werden, nachdem die einzelnen Trainingssbeispiele durchgearbeitet wurden.

Gültige Werte: Float, Bereich: (0.0, 1.0).

Standardwert: 0.009.

depth

Tiefe des Baumes.

Gültige Werte: Ganzzahl, Bereich: (1, 16).

Standardwert: 6.

l2_leaf_reg

Koeffizient für den L2-Regularisierungsterm der Kostenfunktion.

Gültige Werte: Ganzzahl, Bereich: Positive Ganzzahl.

Standardwert: 3.

random_strength

Das Maß an Zufälligkeit, das für die Bewertung von Splits verwendet werden soll, wenn die Baumstruktur ausgewählt ist. Verwenden Sie diesen Parameter, um eine Überanpassung des Modells zu vermeiden.

Gültige Werte: Float, Bereich: Positive Gleitkommazahl.

Standardwert: 1.0.

max_leaves

Die maximale Anzahl von Blättern im resultierenden Baum. Kann nur zusammen mit der "Lossguide" Wachstumspolitik verwendet werden.

Gültige Werte: Ganzzahl, Bereich: [2, 64].

Standardwert: 31.

rsm

Zufällige Subraummethode. Der Prozentsatz der Features, die bei jeder geteilten Auswahl verwendet werden sollen, wenn Features erneut nach dem Zufallsprinzip ausgewählt werden.

Gültige Werte: Float, Bereich: (0.0, 1.0].

Standardwert: 1.0.

sampling_frequency

Häufigkeit der Stichprobenerhebung von Gewichten und Objekten beim Bauen von Bäumen.

Gültige Werte: String, entweder: ("PerTreeLevel" oder "PerTree").

Standardwert: "PerTreeLevel".

min_data_in_leaf

Die Mindestanzahl von Trainingsproben in einem Blatt. CatBoost sucht nicht nach neuen Spalten in Blättern mit einer Stichprobenzahl, die unter dem angegebenen Wert liegt. Kann nur zusammen mit den "Lossguide" und "Depthwise" wachsenden Richtlinien verwendet werden.

Gültige Werte: Ganzzahl, Bereich: (1 oder ).

Standardwert: 1.

bagging_temperature

Definiert die Einstellungen des Bayes-Bootstrapping. Verwenden Sie den Bayes-Bootstrap, um Objekten zufällige Gewichtungen zuzuweisen. Wenn bagging_temperature auf 1.0 festgelegt ist, werden die Gewichtungen anhand einer Exponentialverteilung ausgewählt. Wenn bagging_temperature auf 0.0 festgelegt ist, dann haben alle Gewichtungen den Wert 1,0.

Gültige Werte: Float, Bereich: Nicht-negativer Float.

Standardwert: 1.0.

boosting_type

Das Boosting-Programm. „Automatisch“ bedeutet, dass boosting_type auf der Grundlage des Typs der Verarbeitungseinheit, der Anzahl der Objekte im Trainingsdatensatz und des ausgewählten Learn-Modus ausgewählt wird.

Gültige Werte: String, einer der folgenden Werte: ("Auto", "Ordered", "Plain").

Standardwert: "Auto".

scale_pos_weight

Die Gewichtung der positiven Klasse in der binären Klassifikation. Der Wert wird als Multiplikator für die Gewichte von Objekten der positiven Klasse verwendet.

Gültige Werte: Float, Bereich: Positiver Float.

Standardwert: 1.0.

max_bin

Die Anzahl von Aufteilungen für numerische Features. "Auto" bedeutet, dass max_bin auf der Grundlage des Typs der Verarbeitungseinheit und anderer Parameter ausgewählt wird. Einzelheiten finden Sie in der CatBoost Dokumentation.

Gültige Werte: String, entweder: ("Auto" oder String einer Ganzzahl von "1" bis "65535" einschließlich).

Standardwert: "Auto".

grow_policy

Die Politik des Baumwachstums. Definiert, wie man gierige Bäume baut.

Gültige Werte: String, einer der folgenden Werte: ("SymmetricTree", "Depthwise", oder "Lossguide").

Standardwert: "SymmetricTree".

random_seed

Der zufällige Startwert, der für das Training benutzt wird.

Gültige Werte: Ganzzahl, Bereich: Nicht-negative Ganzzahl.

Standardwert: 1.0.

thread_count

Die Anzahl von Threads, die während des Trainings verwendet werden sollen. Wenn thread_count gleich -1 ist, entspricht die Anzahl der Threads der Anzahl der Prozessorkerne. thread_count kann nicht 0 sein.

Gültige Werte: Ganzzahl, entweder: (-1 oder positive Ganzzahl).

Standardwert: -1.

verbose

Die Ausführlichkeit von Drucknachrichten, wobei höhere Stufen detaillierteren Druckanweisungen entsprechen.

Gültige Werte: Ganzzahl, Bereich: Positive Ganzzahl.

Standardwert: 1.