CatBoost ハイパーパラメータ - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

CatBoost ハイパーパラメータ

次の表に、Amazon SageMaker CatBoost アルゴリズムに必要または最も一般的に使用されるハイパーパラメータのサブセットを示します。ユーザーは、データからモデルパラメータを推定しやすくするために、これらのパラメータを設定します。 SageMaker CatBoost アルゴリズムは、オープンソースCatBoostパッケージの実装です。

注記

デフォルトのハイパーパラメータは、CatBoost サンプルノートブック のサンプルデータセットに基づいています。

デフォルトでは、 SageMaker CatBoost アルゴリズムは分類問題のタイプに基づいて評価メトリクスと損失関数を自動的に選択します。 CatBoost アルゴリズムは、データ内のラベルの数に基づいて分類問題のタイプを検出します。回帰問題の場合、評価メトリクスと損失関数はどちらも二乗平均平方根誤差です。二項分類の問題の場合、評価メトリクスは曲線下面積 (AUC) で、損失関数はログ損失です。多クラス分類問題の場合、評価メトリクスと損失関数はマルチクラスの交差エントロピーになります。eval_metric ハイパーパラメータを使用して、デフォルトの評価メトリクスを変更できます。説明、有効な値、デフォルト値など、LightGBM ハイパーパラメータの詳細については、次の表を参照してください。

Parameter Name 説明
iterations

構築できるツリーの最大数。

有効な値: 整数、範囲: 正の整数。

デフォルト値: 500

early_stopping_rounds

ある検証データポイントの 1 つのメトリクスが最後の early_stopping_rounds ラウンドで改善されない場合、トレーニングは停止します。early_stopping_rounds が 0 以下の場合、このハイパーパラメータは無視されます。

有効な値: 整数。

デフォルト値: 5

eval_metric

検証データの評価メトリクス。eval_metric がデフォルトの "auto" 値に設定されている場合、アルゴリズムは分類問題のタイプに基づいて自動的に評価メトリクスを選択します。

  • リグレッションの場合は、"RMSE"

  • 二項分類の場合は、"AUC"

  • 多クラス分類の場合は、"MultiClass"

有効な値: 文字列。有効な値についてはCatBoost ドキュメントを参照してください。

デフォルト値: "auto"

learning_rate

トレーニング例の各バッチを完了した後に、モデルの重みが更新されるレート。

有効な値: 浮動小数点、範囲: (0.0, 1.0)。

デフォルト値: 0.009

depth

ツリーの深さです。

有効な値: 整数、範囲: (1,16)。

デフォルト値: 6

l2_leaf_reg

コスト関数の L2 正則化項の係数。

有効な値: 整数、範囲: 正の整数。

デフォルト値: 3

random_strength

ツリー構造を選択したときに、スコアリングの分割に使用するランダム性の量。このパラメータを使用すると、モデルがオーバーフィットするのを防ぐことができます。

有効な値: 浮動小数点、範囲: 正の浮動小数点数。

デフォルト値: 1.0

max_leaves

生成されるツリーのリーフの最大数。"Lossguide" 成長ポリシーでのみ使用できます。

有効な値: 整数、範囲: (2,64)。

デフォルト値: 31

rsm

ランダム部分空間法。特徴量をランダムに選択し直す場合に、分割選択ごとに使用する特徴量の割合。

有効な値: 浮動小数点、範囲: (0.0, 1.0)。

デフォルト値: 1.0

sampling_frequency

ツリーを構築する際にウェイトやオブジェクトをサンプリングする頻度。

有効な値: 文字列、("PerTreeLevel" または "PerTree") のいずれか。

デフォルト値: "PerTreeLevel"

min_data_in_leaf

リーフ内のトレーニングサンプルの最小数。 CatBoost は、サンプル数が指定された値より小さいリーフ内の新しい分割を検索しません。"Lossguide" および "Depthwise" 成長ポリシーでのみ使用できます。

有効な値: 整数、範囲: (1 または )。

デフォルト値: 1

bagging_temperature

ベイズブートストラップの設定を定義します。ベイズブートストラップを使用して、オブジェクトにランダムなウェイトを割り当てます。bagging_temperature1.0 に設定されている場合、重みは指数分布からサンプリングされます。bagging_temperature0.0 に設定すると、すべての重みは 1.0 になります。

有効な値: 浮動小数点、範囲: 負以外の浮動小数点数。

デフォルト値: 1.0

boosting_type

ブースティングスキーム。「自動」とは、boosting_type が処理ユニットの種類、トレーニングデータセット内のオブジェクト数、選択した学習モードに基づいて選択されることを意味します。

有効な値: 文字列、("Auto", "Ordered", "Plain") のいずれかです。

デフォルト値: "Auto"

scale_pos_weight

二項分類における正のクラスのウェイト。この値は、正のクラスのオブジェクトのウェイトの乗数として使用されます。

有効な値: 浮動小数点、範囲: 正の浮動小数。

デフォルト値: 1.0

max_bin

数値機能の分割数です。"Auto"max_bin が処理ユニットのタイプやその他のパラメータに基づいて選択されることを意味します。詳細については、 CatBoost ドキュメントを参照してください。

有効な値: 文字列、("Auto" または "1" から "65535" までの整数の文字列) のいずれか。

デフォルト値: "Auto"

grow_policy

ツリー成長ポリシー。貪欲なツリー構造の実行方法を定義します。

有効な値: 文字列、("SymmetricTree""Depthwise" または "Lossguide") のいずれか。

デフォルト値: "SymmetricTree"

random_seed

トレーニングに使用するランダムシード。

有効な値: 整数、範囲: 負以外の整数。

デフォルト値: 1.0

thread_count

トレーニング中に使用するスレッド数。thread_count-1 の場合、スレッド数はプロセッサコアの数と等しくなります。0thread_count にすることはできません。

有効な値: 整数、(-1 または正の整数) のいずれか。

デフォルト値: -1

verbose

印刷メッセージの冗長性です。レベルが高いほど、印刷ステートメントはより詳細になります。

有効な値: 整数、範囲: 正の整数。

デフォルト値: 1