CatBoost Hyperparameter

Die folgende Tabelle enthält die Teilmenge der Hyperparameter, die für den SageMaker CatBoost Amazon-Algorithmus erforderlich sind oder am häufigsten verwendet werden. Dies sind Parameter, die von Benutzern festgelegt werden, um die Schätzung der Modellparameter aus Daten zu erleichtern. Der SageMaker CatBoost Algorithmus ist eine Implementierung des CatBoostOpen-Source-Pakets.

Anmerkung

Die Standard-Hyperparameter basieren auf Beispieldatensätzen in der CatBoost Beispiel-Notizbücher.

Standardmäßig wählt der SageMaker CatBoost Algorithmus automatisch eine Bewertungsmetrik und eine Verlustfunktion aus, die auf der Art des Klassifizierungsproblems basieren. Der CatBoost Algorithmus erkennt die Art des Klassifizierungsproblems anhand der Anzahl der Labels in Ihren Daten. Bei Regressionsproblemen entsprechen die Bewertungsmetrik und die Verlustfunktionen beide dem quadratischen Mittelwert des Fehlers. Bei binären Klassifikationsproblemen lautet die Bewertungsmetrik Area Under the Curve (AUC) und die Verlustfunktion ist logarithmischer Verlust. Bei Mehrklassen-Klassifizierungsproblemen mit mehreren Klassen entsprechen die Bewertungsmetrik und die Verlustfunktionen der Kreuzentropie mehrerer Klassen. Sie können den eval_metric Hyperparameter verwenden, um die Standard-Bewertungsmetrik zu ändern. In der folgenden Tabelle finden Sie weitere Informationen zu LightGBM-Hyperparametern, einschließlich Beschreibungen, gültiger Werte und Standardwerte.

Name des Parameters	Beschreibung
`iterations`	Die maximale Anzahl von Bäumen, die gebaut werden können. Gültige Werte: Ganzzahl, Bereich: Positive Ganzzahl. Standardwert: `500`.
`early_stopping_rounds`	Das Training wird beendet, wenn sich eine Metrik eines Validierungsdatenpunkts in der letzten `early_stopping_rounds` Runde nicht verbessert hat. Wenn `early_stopping_rounds` kleiner als oder gleich Null ist, wird dieser Hyperparameter ignoriert. Gültige Werte: Ganzzahl. Standardwert: `5`.
`eval_metric`	Evaluationsmetriken für die Datenvalidierung. Wenn `eval_metric` auf den Standardwert `"auto"` gesetzt ist, wählt der Algorithmus automatisch eine Bewertungsmetrik aus, die auf der Art des Klassifizierungsproblems basiert: `"RMSE"` für Regression `"AUC"` für binäre Klassifikation `"MultiClass"` für Mehrklassen-Klassifizierung Gültige Werte: Zeichenfolge. Gültige Werte finden Sie in der CatBoost Dokumentation. Standardwert: `"auto"`.
`learning_rate`	Die Geschwindigkeit, mit der die Modellgewichte aktualisiert werden, nachdem die einzelnen Trainingssbeispiele durchgearbeitet wurden. Gültige Werte: Float, Bereich: (`0.0`, `1.0`). Standardwert: `0.009`.
`depth`	Tiefe des Baumes. Gültige Werte: Ganzzahl, Bereich: (`1`, `16`). Standardwert: `6`.
`l2_leaf_reg`	Koeffizient für den L2-Regularisierungsterm der Kostenfunktion. Gültige Werte: Ganzzahl, Bereich: Positive Ganzzahl. Standardwert: `3`.
`random_strength`	Das Maß an Zufälligkeit, das für die Bewertung von Splits verwendet werden soll, wenn die Baumstruktur ausgewählt ist. Verwenden Sie diesen Parameter, um eine Überanpassung des Modells zu vermeiden. Gültige Werte: Float, Bereich: Positive Gleitkommazahl. Standardwert: `1.0`.
`max_leaves`	Die maximale Anzahl von Blättern im resultierenden Baum. Kann nur zusammen mit der `"Lossguide"` Wachstumspolitik verwendet werden. Gültige Werte: Ganzzahl, Bereich: [`2`, `64`]. Standardwert: `31`.
`rsm`	Zufällige Subraummethode. Der Prozentsatz der Features, die bei jeder geteilten Auswahl verwendet werden sollen, wenn Features erneut nach dem Zufallsprinzip ausgewählt werden. Gültige Werte: Float, Bereich: (`0.0`, `1.0`]. Standardwert: `1.0`.
`sampling_frequency`	Häufigkeit der Stichprobenerhebung von Gewichten und Objekten beim Bauen von Bäumen. Gültige Werte: String, entweder: (`"PerTreeLevel"` oder `"PerTree"`). Standardwert: `"PerTreeLevel"`.
`min_data_in_leaf`	Die Mindestanzahl von Trainingsproben in einem Blatt. CatBoost sucht nicht nach neuen Spalten in Blättern mit einer Stichprobenzahl, die unter dem angegebenen Wert liegt. Kann nur zusammen mit den `"Lossguide"` und `"Depthwise"` wachsenden Richtlinien verwendet werden. Gültige Werte: Ganzzahl, Bereich: (`1` oder `∞`). Standardwert: `1`.
`bagging_temperature`	Definiert die Einstellungen des Bayes-Bootstrapping. Verwenden Sie den Bayes-Bootstrap, um Objekten zufällige Gewichtungen zuzuweisen. Wenn `bagging_temperature` auf `1.0` festgelegt ist, werden die Gewichtungen anhand einer Exponentialverteilung ausgewählt. Wenn `bagging_temperature` auf `0.0` festgelegt ist, dann haben alle Gewichtungen den Wert 1,0. Gültige Werte: Float, Bereich: Nicht-negativer Float. Standardwert: `1.0`.
`boosting_type`	Das Boosting-Programm. „Automatisch“ bedeutet, dass `boosting_type` auf der Grundlage des Typs der Verarbeitungseinheit, der Anzahl der Objekte im Trainingsdatensatz und des ausgewählten Learn-Modus ausgewählt wird. Gültige Werte: String, einer der folgenden Werte: (`"Auto"`, `"Ordered"`, `"Plain"`). Standardwert: `"Auto"`.
`scale_pos_weight`	Die Gewichtung der positiven Klasse in der binären Klassifikation. Der Wert wird als Multiplikator für die Gewichte von Objekten der positiven Klasse verwendet. Gültige Werte: Float, Bereich: Positiver Float. Standardwert: `1.0`.
`max_bin`	Die Anzahl von Aufteilungen für numerische Features. `"Auto"` bedeutet, dass `max_bin` auf der Grundlage des Typs der Verarbeitungseinheit und anderer Parameter ausgewählt wird. Einzelheiten finden Sie in der CatBoost Dokumentation. Gültige Werte: String, entweder: (`"Auto"` oder String einer Ganzzahl von `"1"` bis `"65535"` einschließlich). Standardwert: `"Auto"`.
`grow_policy`	Die Politik des Baumwachstums. Definiert, wie man gierige Bäume baut. Gültige Werte: String, einer der folgenden Werte: (`"SymmetricTree"`, `"Depthwise"`, oder `"Lossguide"`). Standardwert: `"SymmetricTree"`.
`random_seed`	Der zufällige Startwert, der für das Training benutzt wird. Gültige Werte: Ganzzahl, Bereich: Nicht-negative Ganzzahl. Standardwert: `1.0`.
`thread_count`	Die Anzahl von Threads, die während des Trainings verwendet werden sollen. Wenn `thread_count` gleich `-1` ist, entspricht die Anzahl der Threads der Anzahl der Prozessorkerne. `thread_count` kann nicht `0` sein. Gültige Werte: Ganzzahl, entweder: (`-1` oder positive Ganzzahl). Standardwert: `-1`.
`verbose`	Die Ausführlichkeit von Drucknachrichten, wobei höhere Stufen detaillierteren Druckanweisungen entsprechen. Gültige Werte: Ganzzahl, Bereich: Positive Ganzzahl. Standardwert: `1`.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

So funktioniert’s

Modell-Abstimmung