CatBoost ハイパーパラメータ

次の表に、Amazon SageMaker CatBoost アルゴリズムに必要または最も一般的に使用されるハイパーパラメータのサブセットを示します。ユーザーは、データからモデルパラメータを推定しやすくするために、これらのパラメータを設定します。 SageMaker CatBoost アルゴリズムは、オープンソースCatBoostパッケージの実装です。

注記

デフォルトのハイパーパラメータは、CatBoost サンプルノートブックのサンプルデータセットに基づいています。

デフォルトでは、 SageMaker CatBoost アルゴリズムは分類問題のタイプに基づいて評価メトリクスと損失関数を自動的に選択します。 CatBoost アルゴリズムは、データ内のラベルの数に基づいて分類問題のタイプを検出します。回帰問題の場合、評価メトリクスと損失関数はどちらも二乗平均平方根誤差です。二項分類の問題の場合、評価メトリクスは曲線下面積 (AUC) で、損失関数はログ損失です。多クラス分類問題の場合、評価メトリクスと損失関数はマルチクラスの交差エントロピーになります。eval_metric ハイパーパラメータを使用して、デフォルトの評価メトリクスを変更できます。説明、有効な値、デフォルト値など、LightGBM ハイパーパラメータの詳細については、次の表を参照してください。

Parameter Name	説明
`iterations`	構築できるツリーの最大数。有効な値: 整数、範囲: 正の整数。デフォルト値: `500`。
`early_stopping_rounds`	ある検証データポイントの 1 つのメトリクスが最後の `early_stopping_rounds` ラウンドで改善されない場合、トレーニングは停止します。`early_stopping_rounds` が 0 以下の場合、このハイパーパラメータは無視されます。有効な値: 整数。デフォルト値: `5`。
`eval_metric`	検証データの評価メトリクス。`eval_metric` がデフォルトの `"auto"` 値に設定されている場合、アルゴリズムは分類問題のタイプに基づいて自動的に評価メトリクスを選択します。リグレッションの場合は、`"RMSE"` 二項分類の場合は、`"AUC"` 多クラス分類の場合は、`"MultiClass"` 有効な値: 文字列。有効な値についてはCatBoost ドキュメントを参照してください。デフォルト値: `"auto"`。
`learning_rate`	トレーニング例の各バッチを完了した後に、モデルの重みが更新されるレート。有効な値: 浮動小数点、範囲: (`0.0`, `1.0`)。デフォルト値: `0.009`。
`depth`	ツリーの深さです。有効な値: 整数、範囲: (`1`,`16`)。デフォルト値: `6`。
`l2_leaf_reg`	コスト関数の L2 正則化項の係数。有効な値: 整数、範囲: 正の整数。デフォルト値: `3`。
`random_strength`	ツリー構造を選択したときに、スコアリングの分割に使用するランダム性の量。このパラメータを使用すると、モデルがオーバーフィットするのを防ぐことができます。有効な値: 浮動小数点、範囲: 正の浮動小数点数。デフォルト値: `1.0`。
`max_leaves`	生成されるツリーのリーフの最大数。`"Lossguide"` 成長ポリシーでのみ使用できます。有効な値: 整数、範囲: (`2`,`64`)。デフォルト値: `31`。
`rsm`	ランダム部分空間法。特徴量をランダムに選択し直す場合に、分割選択ごとに使用する特徴量の割合。有効な値: 浮動小数点、範囲: (`0.0`, `1.0`)。デフォルト値: `1.0`。
`sampling_frequency`	ツリーを構築する際にウェイトやオブジェクトをサンプリングする頻度。有効な値: 文字列、(`"PerTreeLevel"` または `"PerTree"`) のいずれか。デフォルト値: `"PerTreeLevel"`。
`min_data_in_leaf`	リーフ内のトレーニングサンプルの最小数。 CatBoost は、サンプル数が指定された値より小さいリーフ内の新しい分割を検索しません。`"Lossguide"` および `"Depthwise"` 成長ポリシーでのみ使用できます。有効な値: 整数、範囲: (`1` または `∞`)。デフォルト値: `1`。
`bagging_temperature`	ベイズブートストラップの設定を定義します。ベイズブートストラップを使用して、オブジェクトにランダムなウェイトを割り当てます。`bagging_temperature` が `1.0` に設定されている場合、重みは指数分布からサンプリングされます。`bagging_temperature` を `0.0` に設定すると、すべての重みは 1.0 になります。有効な値: 浮動小数点、範囲: 負以外の浮動小数点数。デフォルト値: `1.0`。
`boosting_type`	ブースティングスキーム。「自動」とは、`boosting_type` が処理ユニットの種類、トレーニングデータセット内のオブジェクト数、選択した学習モードに基づいて選択されることを意味します。有効な値: 文字列、(`"Auto"`, `"Ordered"`, `"Plain"`) のいずれかです。デフォルト値: `"Auto"`。
`scale_pos_weight`	二項分類における正のクラスのウェイト。この値は、正のクラスのオブジェクトのウェイトの乗数として使用されます。有効な値: 浮動小数点、範囲: 正の浮動小数。デフォルト値: `1.0`。
`max_bin`	数値機能の分割数です。`"Auto"` は `max_bin` が処理ユニットのタイプやその他のパラメータに基づいて選択されることを意味します。詳細については、 CatBoost ドキュメントを参照してください。有効な値: 文字列、(`"Auto"` または `"1"` から `"65535"` までの整数の文字列) のいずれか。デフォルト値: `"Auto"`。
`grow_policy`	ツリー成長ポリシー。貪欲なツリー構造の実行方法を定義します。有効な値: 文字列、(`"SymmetricTree"`、`"Depthwise"` または `"Lossguide"`) のいずれか。デフォルト値: `"SymmetricTree"`。
`random_seed`	トレーニングに使用するランダムシード。有効な値: 整数、範囲: 負以外の整数。デフォルト値: `1.0`。
`thread_count`	トレーニング中に使用するスレッド数。`thread_count` が `-1` の場合、スレッド数はプロセッサコアの数と等しくなります。`0` を `thread_count` にすることはできません。有効な値: 整数、(`-1` または正の整数) のいずれか。デフォルト値: `-1`。
`verbose`	印刷メッセージの冗長性です。レベルが高いほど、印刷ステートメントはより詳細になります。有効な値: 整数、範囲: 正の整数。デフォルト値: `1`。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

仕組み

モデルの調整