翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon SageMaker は、データサイエンティストや機械学習の実践者が機械学習モデルのトレーニングとデプロイを迅速に開始できるようにする一連の組み込みアルゴリズム、トレーニング済みモデルおよび構築済みソリューションテンプレートを提供しています。SageMaker を初めて使う方にとって、特定のユースケースに適したアルゴリズムを選択するのは難しい作業です。次の表に、サンプル問題またはユースケースから開始し、その問題タイプに有効な SageMaker によって提供される適切な組み込みアルゴリズムを見つける方法を示すクイックチートシートを示します。学習パラダイム (教師ありと教師なし) と重要なデータドメイン (テキストとイメージ) によって構成される追加のガイダンスについては、表の次のセクションを参照してください。
表: 組み込みアルゴリズムへのユースケースのマッピング
問題とユースケース例 | 学習パラダイムまたはドメイン | 問題タイプ | データ入力形式 | 組み込みアルゴリズム |
---|---|---|---|---|
SageMaker JumpStart が提供するトレーニング済みモデルと構築済みソリューションテンプレートで対処できる 15 種類の問題のうち、いくつかの例を次に示します。 質問への回答: 指定された質問に対する回答を出力するチャットボット。 テキスト分析: 金融などの業界ドメイン固有のモデルからのテキストを分析します。 |
トレーニング済みのモデルと構築済みのソリューションテンプレート |
イメージ分類 表形式分類 表形式回帰 テキスト分類 オブジェクト検出 テキスト埋め込み 質問への回答 センテンスペア分類 画像埋め込み 固有表現認識 インスタンスセグメンテーション テキスト生成 テキスト要約 セマンティックセグメンテーション 機械翻訳 |
画像、テキスト、表形式 | Mobilenet、YOLO、Faster R-CNN、BERT、LightGBM、CatBoost などの人気モデル 利用可能なトレーニング済みモデルのリストについては、「JumpStart Models」を参照してください。 利用可能な構築済みソリューションテンプレートのリストについては、「JumpStart Solutions」を参照してください。 |
項目がカテゴリに属しているかどうかを予測する: メールスパムフィルター |
二項/複数クラス分類 |
表形式 |
AutoGluon-Tabular, CatBoost, 因数分解機アルゴリズム, K 最近傍 (k-NN) アルゴリズム, LightGBM, 線形学習アルゴリズム, TabTransformer, Amazon SageMaker AI を使用した XGBoost アルゴリズム |
|
数値/連続値を予測する: 家の価値を推定 |
リグレッション |
表形式 |
AutoGluon-Tabular, CatBoost, 因数分解機アルゴリズム, K 最近傍 (k-NN) アルゴリズム, LightGBM, 線形学習アルゴリズム, TabTransformer, Amazon SageMaker AI を使用した XGBoost アルゴリズム |
|
行動の履歴データに基づいて将来の行動を予測する: 以前の売上データに基づいて新製品の売上を予測 |
時系列予測 |
表形式 | ||
高次元オブジェクトのデータ埋め込みを改善する: 重複するサポートチケットを特定するか、チケット内のテキストの類似性に基づいて正しいルーティングを検出 |
埋め込み: 高次元のオブジェクトを低次元空間に変換します。 | 表形式 | Object2Vec アルゴリズム | |
ラベル/ターゲット変数と関係が弱い列をデータセットからドロップする: 走行距離の予測時の車の色 |
教師なし学習 |
特徴量エンジニアリング: 次元縮退 |
表形式 | |
アプリケーションの異常動作を検出する: IoT センサーが異常な読み取り値を送信することを特定 |
異常検出 |
表形式 | ||
疑わしいユーザーからアプリケーションを保護する: サービスにアクセスする IP アドレスが不正なアクターによるものかどうかを検出 |
IP 異常検出 |
表形式 | ||
類似するオブジェクト/データをグループ化する: トランザクション履歴から高、中、低支出の顧客を検出 |
クラスタリングまたはグループ化 |
表形式 | ||
一連のドキュメントをトピックに整理する (事前に確認できない): ドキュメントで使用されている用語に基づいてドキュメントを医療カテゴリに属するものとしてタグ付け |
トピックのモデリング |
[テキスト] | ||
コーパス内のドキュメントに事前定義されたカテゴリを割り当てる: ライブラリ内の書籍を学問分野別に分類 |
テキスト分類 |
[テキスト] | ||
ある言語から別の言語にテキストを変換する: スペイン語から英語 |
機械翻訳 アルゴリズム |
[テキスト] | ||
長いテキストコーパスを要約する: 研究論文の要約 |
テキストの要約 |
[テキスト] | ||
オーディオファイルをテキストに変換する: コールセンターの会話を書き起こしてさらに分析 |
音声をテキストに |
[テキスト] | ||
イメージのコンテンツに基づいてイメージにラベル/タグを付ける: イメージ内のアダルトコンテンツに関するアラート |
画像処理 |
イメージおよびマルチラベル分類 |
イメージ | |
転移学習を使用して画像内の何かを分類します。 |
イメージ分類 | イメージ | ||
イメージ内の人や物体を検出する: 警察が行方不明の人物について大きなフォトギャラリーをレビュー |
オブジェクトの検出と分類 |
イメージ | ||
画像のすべてのピクセルにカテゴリを個別にタグ付けする: 自動運転車が道中で物体を識別する準備を整える |
コンピュータビジョン |
イメージ |
SageMaker AI が提供するすべての組み込みアルゴリズムに共通する以下の項目に関する重要な情報については、「」を参照してください組み込みアルゴリズムのパラメータ。
-
Docker レジストリパス
-
データ形式
-
推奨される Amazon EC2 インスタンスタイプ
-
CloudWatch ログ
以下のセクションでは、Amazon SageMaker AI の組み込みアルゴリズムを、それらが属する教師あり学習パラダイムと教師なし学習パラダイムでグループ化するための追加のガイダンスを提供します。これらの学習パラダイムとそれに関連する問題タイプの詳細については、「アルゴリズムのタイプ」を参照してください。また、テキスト分析と画像処理という 2 つの重要な機械学習ドメインに対処するために使用できる SageMaker AI 組み込みアルゴリズムに関するセクションも用意されています。
事前トレーニング済みモデルとソリューションテンプレート
SageMaker JumpStart は、一般的な問題タイプに対応した幅広いトレーニング済みモデル、構築済みソリューションテンプレート、およびサンプルを提供しています。これらは SageMaker SDK と Studio Classic を使用します。SageMaker JumpStart が提供するこれらのモデル、ソリューション、サンプルノートブックの詳細については、「SageMaker JumpStart の事前トレーニング済みモデル」を参照してください。
教師あり学習
Amazon SageMaker AI には、分類または回帰の問題に使用できるいくつかの組み込みの汎用アルゴリズムが用意されています。
-
AutoGluon-Tabular — モデルをアンサンブルして複数のレイヤーに積み重ねることで成功するオープンソースの AutoML フレームワーク。
-
CatBoost - 順序付けされたブースティングとカテゴリ別機能を処理するための革新的なアルゴリズムを導入する勾配ブーストツリーアルゴリズムの実装。
-
因数分解機アルゴリズム - 高次元スパースデータセット内の特徴間の相互作用を経済的にキャプチャするように設計された線形モデルの拡張。
-
K 最近傍 (k-NN) アルゴリズム — K 個の最も近いラベル付きポイントを使用して値を割り当てるノンパラメトリック手法。分類の場合は、新しいデータポイントに対するラベルとなり、リグレッションの場合は、K 個の最も近いポイントの平均から予測されるターゲット値となります。
-
LightGBM — 効率とスケーラビリティを向上させるための 2 つの新しい技法を追加した勾配ブーストツリーアルゴリズムの実装。2 つの新しい技法は、Gradient-based One-Side Sampling (GOSS) と Exclusive Feature Bundling (EFB) です。
-
線形学習アルゴリズム - 回帰の線形関数または分類の線形しきい値関数を学習します。
-
TabTransformer — セルフアテンションベースの Transformers で構築された、新しい深層表形式データモデル化アーキテクチャ。
-
Amazon SageMaker AI を使用した XGBoost アルゴリズム - より単純で弱いモデルのセットから推定のアンサンブルを組み合わせる勾配ブーストツリーアルゴリズムの実装。
Amazon SageMaker AI には、特徴量エンジニアリングや時系列データからの予測中に、より特殊なタスクに使用されるいくつかの組み込みの教師あり学習アルゴリズムも用意されています。
-
Object2Vec アルゴリズム — 特徴量エンジニアリングに使用される新しい高度にカスタマイズ可能な汎用アルゴリズム。高次元オブジェクトの低次元高密度埋め込みを学習して、下流モデルのトレーニング効率を向上する特徴を生成できます。教師ありアルゴリズムではあるものの、データ内の自然なクラスタリングから関係ラベルを単純に取得できるシナリオが多数あります。トレーニングのためにラベル付きデータが必要ですが、人間による明示的な注釈なしの学習が可能です。
-
SageMaker AI DeepAR 予測アルゴリズムを使用する - 予測アルゴリズムは、再帰型ニューラルネットワーク (RNN) を使用してスカラー (1 次元) 時系列を予測する教師あり学習アルゴリズム。
教師なし学習
Amazon SageMaker AI には、さまざまな教師なし学習タスクに使用できる組み込みアルゴリズムがいくつか用意されています。これらのタスクには、クラスタリング、次元削減、パターン認識、異常検出などが含まれます。
-
主成分分析法 (PCA) アルゴリズム - データポイントを最初のいくつかの主成分に射影することにより、データセット内の次元 (特徴の数) を縮退させます。目的は、できるだけ多くの情報やバリエーションを保持することです。数学者の場合、主成分はデータの共分散行列の固有ベクトルです。
-
K-Means アルゴリズム — データ内にある離散グループを検出します。同一グループのメンバーができるだけ類似し、かつ他のグループのメンバーとできるだけ異なるものを特定します。
-
IP Insights - IPv4 アドレスの使用パターンを学習します。このアルゴリズムは、IPv4 アドレスと、ユーザー ID やアカウント番号などの各種エンティティとの間の関連付けをキャプチャするように設計されています。
-
ランダムカットフォレスト (RCF) アルゴリズム - その他の高度に構造化またはパターン化されたデータとは異なるデータセット内の異常なデータポイントを検出します。
テキスト分析
SageMaker AI は、テキストドキュメントの分析に合わせたアルゴリズムを提供します。対象となるのは、自然言語処理、文書の分類または要約、トピックのモデリングまたは分類、言語の文字起こしまたは翻訳で使用されるテキストです。
-
BlazingText アルゴリズム - 大規模なデータセットに簡単に拡張できる Word2vec とテキスト分類アルゴリズムの高度に最適化された実装。これは、多くの下流の自然言語処理 (NLP) タスクに役立ちます。
-
Sequence to Sequence アルゴリズム - 一般的にニューラル機械翻訳に使用される教師ありアルゴリズム。
-
潜在的ディリクレ配分 (LDA) アルゴリズム - 一連のドキュメントのトピックを決定するのに適しているアルゴリズム。これは 教師なしアルゴリズムです。つまり、トレーニング時に回答を含むサンプルデータを使用しないということです。
-
ニューラルトピックモデル (NTM) アルゴリズム - ニューラルネットワークアプローチを使用して一連のドキュメントのトピックを決定する別の教師なし手法。
-
テキスト分類 - TensorFlow — テキスト分類用のトレーニング済みモデルを使用して転移学習をサポートする教師ありアルゴリズム。
画像処理
SageMaker AI は、画像分類、オブジェクト検出、コンピュータビジョンに使用される画像処理アルゴリズムも提供します。
-
画像分類 - MXNet - 回答を含むサンプルデータを使用します (教師ありアルゴリズムと呼ばれる)。 このアルゴリズムを使用してイメージを分類します。
-
画像分類 - TensorFlow — トレーニング済 TensorFlow Hub モデルを使用して、特定のタスクに合わせて微調整します (教師ありアルゴリズムと呼ばれる)。 このアルゴリズムを使用してイメージを分類します。
-
セマンティックセグメンテーションアルゴリズム - コンピュータビジョンアプリケーション開発のためのピクセルレベルのきめ細かいアプローチを提供します。
-
オブジェクト検出 - MXNet — 1 つの深層ニューラルネットワークを使用して、イメージ内のオブジェクトを検出および分類します。このアルゴリズムは、入力としてイメージを取得し、イメージシーン内のオブジェクトのすべてのインスタンスを識別する、教師あり学習アルゴリズムです。
-
オブジェクト検出 - TensorFlow — 画像内の境界ボックスとオブジェクトラベルを検出します。これは教師あり学習アルゴリズムで、利用可能なトレーニング済み TensorFlow モデルによる転移学習をサポートします。