表形式データの組み込み SageMaker アルゴリズム - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

表形式データの組み込み SageMaker アルゴリズム

Amazon SageMaker には、表形式のデータの分析に合わせた組み込みアルゴリズムが用意されています。表形式データとは、行 (観測値) と列 (特徴量) で構成される表にまとめられたデータセットを指します。表形式データの組み込み SageMaker アルゴリズムは、分類または回帰の問題に使用できます。

  • AutoGluon-タブラー — モデルをアンサンブルして複数のレイヤーに積み重ねることで成功するオープンソースの AutoML フレームワーク。

  • CatBoost - 順序付けされたブースティングとカテゴリ別機能を処理するための革新的なアルゴリズムを導入する勾配ブーストツリーアルゴリズムの実装。

  • 因数分解機アルゴリズム - 高次元スパースデータセット内の特徴間の相互作用を経済的にキャプチャするように設計された線形モデルの拡張。

  • K 最近傍 (k-NN) アルゴリズム - K 個の最も近いラベル付きポイントを使用して分類用の新しいデータポイントにラベルを割り当てるか、回帰用の K 近接ポイントの平均から予測ターゲット値を割り当てるノンパラメトリック手法。

  • ライトGBM — 効率とスケーラビリティを向上させるための 2 つの新しい技法を追加した勾配ブーストツリーアルゴリズムの実装: Gradient-based One-Side Sampling (GOSS) と Exclusive Feature Bundling (EFB)。

  • 線形学習アルゴリズム - 回帰の線形関数または分類の線形しきい値関数を学習します。

  • TabTransformer— Transformer 上に self-attention-based構築された新しいディープ表形式データモデリングアーキテクチャ。

  • XGBoost Amazon でのアルゴリズム SageMaker - より単純で弱いモデルのセットから推定のアンサンブルを組み合わせる勾配ブーストツリーアルゴリズムの実装。

アルゴリズム名 チャンネル名 トレーニング入力モード ファイルタイプ インスタンスクラス 並列処理可能
AutoGluon- タブラー トレーニングおよび (オプションで) 検証 File CSV CPU または GPU (単一インスタンスのみ) いいえ
CatBoost トレーニングおよび (オプションで) 検証 File CSV CPU (単一インスタンスのみ) いいえ
因数分解機 トレーニングおよび (オプションで) テスト ファイルまたはパイプ recordIO-protobuf CPU (高密度データ用の GPU) はい
K 近傍 (k-NN) トレーニングおよび (オプションで) テスト ファイルまたはパイプ recordIO-protobuf または CSV CPU または GPU (1 つ以上のインスタンス上の単一の GPU デバイス) はい
LightGBM トレーニング、および (オプションで) 検証 File CSV CPU (単一インスタンスのみ) いいえ
線形学習 トレーニングおよび (オプションで) 検証、テスト、またはその両方 ファイルまたはパイプ recordIO-protobuf または CSV CPU または GPU はい
TabTransformer トレーニングおよび (オプションで) 検証 File CSV CPU または GPU (単一インスタンスのみ) いいえ
XGBoost (0.90-1、0.90-2、1.0-1、1.2-1、1.2-21) トレーニング、および (オプションで) 検証 ファイルまたはパイプ CSV、libsVM、または Parquet CPU (または 1.2-1 の場合 GPU) はい