トレーニングモードとアルゴリズムのサポート - アマゾン SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

トレーニングモードとアルゴリズムのサポート

Amazon SageMaker Autopilot は、機械学習の問題に対処するために、品質と目標のメトリクスをレポートして、必要に応じて交差検証を自動的に使用します。

トレーニングモード

SageMaker オートパイロットは、データセットのサイズに基づいてトレーニング方法を自動的に選択することも、手動で選択することもできます。選択肢は次のとおりです。

  • アンサンブリングAutoGluonAutopilotはライブラリを使用して複数の基本モデルをトレーニングします。データセットに最適な組み合わせを見つけるために、アンサンブルモードではモデルとメタパラメーターの設定を変えて 10 回の試行を実行します。次に、オートパイロットはスタッキングアンサンブル法を使用してこれらのモデルを組み合わせて、最適な予測モデルを作成します。オートパイロットがアンサンブルモードでサポートするアルゴリズムのリストについては、以下のアルゴリズムサポートセクションを参照してください

  • ハイパーパラメーター最適化 (HPO) — オートパイロットは、データセットでトレーニングジョブを実行しているときに、ベイズ最適化またはマルチフィデリティ最適化を使用してハイパーパラメーターを調整することにより、モデルの最適なバージョンを見つけます。HPO モードは、データセットに最も関連性の高いアルゴリズムを選択し、モデルの調整に最適な範囲のハイパーパラメーターを選択します。モデルを調整するために、HPO モードでは最大 100 回の試行 (デフォルト) を実行して、選択した範囲内で最適なハイパーパラメーター設定を見つけます。データセットのサイズが 100 MB 未満の場合、オートパイロットはベイズ最適化を使用します。データセットが 100 MB を超える場合、オートパイロットはマルチフィデリティ最適化を選択します。

    マルチフィデリティ最適化では、メトリックはトレーニングコンテナから継続的に出力されます。選択した客観的指標に対して成績が悪い試験は、早期に中止されます。成績の良い治験には、より多くのリソースが割り当てられます。

    AutopilotがHPOモードでサポートするアルゴリズムのリストについては、以下のアルゴリズムサポートセクションを参照してください

  • 自動 — オートパイロットは、データセットのサイズに基づいて、アンサンブルモードまたは HPO モードのいずれかを自動的に選択します。データセットが 100 MB を超える場合、オートパイロットは HPO を選択します。それ以外の場合は、アンサンブルモードを選択します。以下の場合、オートパイロットはデータセットのサイズを読み取れないことがあります。

    • AutoML ジョブでVirtual Private Cloud (VPC) モードを有効にしても、データセットを含む S3 バケットは VPC からのアクセスのみを許可します。

    • データセットの入力 S3DataType は a ですManifestFile

    • 入力 S3Uri には 1000 を超えるアイテムが含まれています。

    オートパイロットがデータセットサイズを読み取れない場合、デフォルトで HPO モードが選択されます。

注記

ランタイムとパフォーマンスを最適化するには、100 MB 未満のデータセットにはアンサンブルトレーニングモードを使用してください。

アルゴリズムのサポート

HPO モードでは、オートパイロットは次のタイプの機械学習アルゴリズムをサポートします。

  • 線形学習者 — 分類または回帰の問題の解決に使用できる教師あり学習アルゴリズム。

  • XGBoom — より単純で弱いモデルのセットから得られた推定のアンサンブルを組み合わせることで、ターゲット変数の正確な予測を試みる、教師あり学習アルゴリズム。

  • 深層学習アルゴリズム — 多層パーセプトロン (MLP) とフィードフォワード人工ニューラルネットワーク。このアルゴリズムは、直線的に分離できないデータを処理できます。

注記

機械学習の問題に使用するアルゴリズムを指定する必要はありません。Autopilot は、トレーニングのために適切なアルゴリズムを自動的に選択します。

アンサンブルモードでは、オートパイロットは次のタイプの機械学習アルゴリズムをサポートします。

  • LightGBM —グラデーションブースティングを備えたツリーベースのアルゴリズムを使用する最適化されたフレームワーク。このアルゴリズムでは、深さではなく幅が広がる木を使用し、速度を重視して高度に最適化されています。

  • CatBoost—グラデーションブースティングを備えたツリーベースのアルゴリズムを使用するフレームワーク。カテゴリ変数の処理に最適化されています。

  • XGBoost — 幅を広げるのではなく深さを増すグラデーションブースティング機能を備えたツリーベースのアルゴリズムを使用するフレームワーク。

  • ランダムフォレスト — データのランダムなサブサンプルに複数のデシジョンツリーを置換して使用するツリーベースのアルゴリズム。ツリーは、各レベルで最適なノードに分割されます。各ツリーの決定が平均化されるため、過適合を防ぎ、予測精度が向上します。

  • Extra Trees — データセット全体で複数のデシジョンツリーを使用するツリーベースのアルゴリズム。木は各レベルでランダムに分割されます。各ツリーの判定は平均化され、オーバーフィットを防ぎ、予測精度が向上します。ツリーを追加すると、ランダムフォレストアルゴリズムと比較してある程度ランダム化されます。

  • 線形モデル — 線形方程式を使用して、観測データ内の 2 つの変数間の関係をモデル化するフレームワーク。

  • ニューラルネットワークトーチ — Pytorch を使用して実装されたニューラルネットワークモデル。

  • ニューラルネットワーク fast.ai — fast.ai を使用して実装されたニューラルネットワークモデル。