Amazon を使用する SageMaker ビルトインアルゴリズムまたは事前トレーニング済みモデル - アマゾン SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon を使用する SageMaker ビルトインアルゴリズムまたは事前トレーニング済みモデル

アマゾン SageMaker は、データサイエンティストや機械学習の実践者が機械学習モデルのトレーニングとデプロイを迅速に開始できるようにする組み込みアルゴリズム、事前トレーニング済みモデル、事前に構築されたソリューションテンプレートを提供しています。初めての方へ SageMakerでは、特定のユースケースに適したアルゴリズムを選択するのは難しい作業です。次の表に、サンプル問題またはユースケースから開始し、によって提供される適切な組み込みアルゴリズムを見つける方法を示すクイックチートシートを示します。 SageMaker それはその問題タイプに有効です。学習パラダイム (教師ありと教師なし) と重要なデータドメイン (テキストとイメージ) によって構成される追加のガイダンスについては、表の次のセクションを参照してください。

表: 組み込みアルゴリズムへのユースケースのマッピング
問題とユースケース例 学習パラダイムまたはドメイン 問題タイプ データ入力形式 組み込みアルゴリズム

ここでは、事前にトレーニングされたモデルと、によって提供される事前構築されたソリューションテンプレートによって対処できる 15 種類の問題のうち、いくつかの例を示します。 SageMaker JumpStart:

質問応答:特定の質問に対する回答を出力するチャットボット。

テキスト分析:金融などの業界ドメインに固有のモデルからのテキストを分析します。

事前にトレーニングされたモデルと構築済みのソリューションテンプレート

イメージ分類

表形式分類

表形式回帰

テキスト分類

オブジェクトの検出

テキスト埋め込み

質問に対する回答

センテンスペア分類

イメージ埋め込み

固有表現認識

インスタンスセグメンテーション

テキスト生成

テキスト要約

セマンティックセグメンテーション

機械翻訳

画像、テキスト、表形式

モバイルネット、ヨロ、より高速なR-CNN、BERT、LightGBMなどの人気モデル CatBoost

利用可能な事前トレーニング済みモデルのリストについては、JumpStart モデル

使用可能な組み込みソリューションテンプレートのリストについては、「」を参照してください。JumpStart ソリューション

項目がカテゴリに属しているかどうかを予測する: メールスパムフィルター

教師あり学習

二項/複数クラス分類

表形式

AutoGluon-表形式分類, CatBoost, 因数分解機アルゴリズム, K 最近傍 (k-NN) アルゴリズム, lightGBM, 線形学習アルゴリズム, TabTransformer, XGBoost アルゴリズム

数値/連続値を予測する: 家の価値を推定

回帰

表形式

AutoGluon-表形式分類, CatBoost, 因数分解機アルゴリズム, K 最近傍 (k-NN) アルゴリズム, lightGBM, 線形学習アルゴリズム, TabTransformer, XGBoost アルゴリズム

行動の履歴データに基づいて将来の行動を予測する: 以前の売上データに基づいて新製品の売上を予測

時系列予測

表形式

DeepAR 予測アルゴリズム

高次元オブジェクトのデータ埋め込みを改善する: 重複するサポートチケットを特定するか、チケット内のテキストの類似性に基づいて正しいルーティングを検出

埋め込み: 高次元のオブジェクトを低次元空間に変換します。 表形式 Object2Vec アルゴリズム

ラベル/ターゲット変数と関係が弱い列をデータセットからドロップする: 走行距離の予測時の車の色

教師なし学習

特徴量エンジニアリング: 次元縮退

表形式

主成分分析法 (PCA) アルゴリズム

アプリケーションの異常動作を検出する: IoT センサーが異常な読み取り値を送信することを特定

異常検出

表形式

ランダムカットフォレスト (RCF) アルゴリズム

疑わしいユーザーからアプリケーションを保護する: サービスにアクセスする IP アドレスが不正なアクターによるものかどうかを検出

IP 異常検出

表形式

IP Insights

類似するオブジェクト/データをグループ化する: トランザクション履歴から高、中、低支出の顧客を検出

クラスタリングまたはグループ化

表形式

K-Means アルゴリズム

一連のドキュメントをトピックに整理する (事前に確認できない): ドキュメントで使用されている用語に基づいてドキュメントを医療カテゴリに属するものとしてタグ付け

トピックのモデリング

[Text] (テキスト)

潜在的ディリクレ配分 (LDA) アルゴリズム, ニューラルトピックモデル (NTM) アルゴリズム

コーパス内のドキュメントに事前定義されたカテゴリを割り当てる: ライブラリ内の書籍を学問分野別に分類

テキスト分析

テキスト分類

[Text] (テキスト)

BlazingText アルゴリズム

ある言語から別の言語にテキストを変換する: スペイン語 → 英語

機械翻訳

アルゴリズム
[Text] (テキスト)

Sequence to Sequence アルゴリズム

長いテキストコーパスを要約する: 研究論文の要約

テキストの要約

[Text] (テキスト)

Sequence to Sequence アルゴリズム

オーディオファイルをテキストに変換する: コールセンターの会話を書き起こしてさらに分析

Speech-to-text

[Text] (テキスト)

Sequence to Sequence アルゴリズム

イメージのコンテンツに基づいてイメージにラベル/タグを付ける: イメージ内のアダルトコンテンツに関するアラート

Image Processing

イメージおよびマルチラベル分類

[Image] (イメージ)

イメージ分類アルゴリズム

イメージ内の人や物体を検出する: 警察が行方不明の人物について大きなフォトギャラリーをレビュー

オブジェクトの検出と分類

[Image] (イメージ)

オブジェクト検出アルゴリズム

画像のすべてのピクセルにカテゴリを個別にタグ付けする: 自動運転車が道中で物体を識別する準備を整える

コンピュータビジョン

[Image] (イメージ)

セマンティックセグメンテーションアルゴリズム

Docker レジストリパス、データ形式、推奨される Amazon EC2 インスタンスタイプ、 CloudWatch が提供するすべての組み込みアルゴリズムに共通するログ SageMaker「」を参照してください。組み込みアルゴリズムに関する共通情報

以下のセクションでは、Amazon に関する追加のガイダンスを示します。 SageMaker 属している教師あり学習パラダイムと教師なし学習パラダイム別にグループ化された、組み込みアルゴリズムです。これらの学習パラダイムとそれに関連する問題タイプの詳細については、「アルゴリズムの選択」を参照してください。セクションは、 SageMaker テキスト解析と画像処理という 2 つの重要な機械学習ドメインに対処するために使用できる、組み込みアルゴリズムが用意されています。

事前トレーニング済みのモデルとソリューションテンプレート

SageMaker JumpStart は、事前トレーニング済みのモデル、構築済みのソリューションテンプレート、および一般的な問題タイプの例を幅広く提供します。 SageMaker SDK だけでなく Studio も同様です。これらのモデル、ソリューション、およびによって提供されるサンプルノートブックの詳細については SageMaker JumpStart「」を参照してください。SageMaker JumpStart

教師あり学習

アマゾン SageMaker には、分類問題または回帰問題に使用できる組み込みの汎用アルゴリズムがいくつか用意されています。

  • AutoGluon-表形式分類—モデルをアンサンブルして複数のレイヤーに積み重ねることで成功するオープンソースの AutoML フレームワーク。

  • CatBoost-順序ブーストツリーアルゴリズムの実装。

  • 因数分解機アルゴリズム - 高次元スパースデータセット内の特徴間の相互作用を経済的にキャプチャするように設計された線形モデルの拡張。

  • K 最近傍 (k-NN) アルゴリズム - K 個の最も近いラベル付きポイントを使用して分類用の新しいデータポイントにラベルを割り当てるか、回帰用の K 近接ポイントの平均から予測ターゲット値を割り当てるノンパラメトリック手法。

  • lightGBM-効率とスケーラビリティを向上させるために 2 つの新しい技術を追加する勾配ブーストツリーアルゴリズムの実装。勾配ベースの片側サンプリング (GOSS) と排他的特徴バンドル (EFB)。

  • 線形学習アルゴリズム - 回帰の線形関数または分類の線形しきい値関数を学習します。

  • TabTransformer—上に構築された新しいディープテーブルデータモデリングアーキテクチャ self-attention-basedトランスフォーマー。

  • XGBoost アルゴリズム-より単純で弱いモデルのセットから推定のアンサンブルを組み合わせる勾配ブーストツリーアルゴリズムの実装。

アマゾン SageMaker には、時系列データからの特徴量エンジニアリングおよび予測時により特殊なタスクに使用される組み込み教師あり学習アルゴリズムもいくつか用意されています。

  • Object2Vec アルゴリズム — 特徴量エンジニアリングに使用される新しい高度にカスタマイズ可能な汎用アルゴリズム。高次元オブジェクトの低次元高密度埋め込みを学習して、下流モデルのトレーニング効率を向上する特徴を生成できます。トレーニングにラベル付きデータが必要なため教師ありアルゴリズムですが、明示的な人間による注釈なしで、データ内の自然なクラスタリングから関係ラベルを単純に取得できるシナリオが多数あります。

  • DeepAR 予測アルゴリズム - 予測アルゴリズムは、再帰型ニューラルネットワーク (RNN) を使用してスカラー (1 次元) 時系列を予測する教師あり学習アルゴリズム。

教師なし学習

アマゾン SageMaker には、クラスタリング、次元削減、パターン認識、異常検出など、さまざまな教師なし学習タスクに使用できる組み込みアルゴリズムがいくつか用意されています。

  • 主成分分析法 (PCA) アルゴリズム - データポイントを最初のいくつかの主成分に射影することにより、データセット内の次元 (特徴の数) を縮退させます。目的は、できるだけ多くの情報やバリエーションを保持することです。数学者の場合、主成分はデータの共分散行列の固有ベクトルです。

  • K-Means アルゴリズム - 1 つのグループのメンバーができるだけ互いに類似し、他のグループのメンバーとできるだけ異なる離散グループをデータ内に見つけます。

  • IP Insights - IPv4 アドレスの使用パターンを学習します。このアルゴリズムは、IPv4 アドレスと、ユーザー ID やアカウント番号などの各種エンティティとの間の関連付けをキャプチャするように設計されています。

  • ランダムカットフォレスト (RCF) アルゴリズム - その他の高度に構造化またはパターン化されたデータとは異なるデータセット内の異常なデータポイントを検出します。

テキスト分析

SageMaker は、自然言語処理、文書の分類または要約、トピックのモデリングまたは分類、言語の文字起こしまたは翻訳で使用されるテキスト文書の分析用に調整されたアルゴリズムを提供します。

  • BlazingText アルゴリズム - 大規模なデータセットに簡単に拡張できる Word2vec とテキスト分類アルゴリズムの高度に最適化された実装。これは、多くの下流の自然言語処理 (NLP) タスクに役立ちます。

  • Sequence to Sequence アルゴリズム - 一般的にニューラル機械翻訳に使用される教師ありアルゴリズム。

  • 潜在的ディリクレ配分 (LDA) アルゴリズム - 一連のドキュメントのトピックを決定するのに適しているアルゴリズム。これは 教師なしアルゴリズムです。つまり、トレーニング時に回答を含むサンプルデータを使用しないということです。

  • ニューラルトピックモデル (NTM) アルゴリズム - ニューラルネットワークアプローチを使用して一連のドキュメントのトピックを決定する別の教師なし手法。

Image Processing

SageMaker は、イメージ分類、オブジェクト検出、コンピュータビジョンに使用される画像処理アルゴリズムも提供しています。

  • イメージ分類アルゴリズム - 回答を含むサンプルデータを使用します (教師ありアルゴリズムと呼ばれる)。 このアルゴリズムを使用してイメージを分類します。

  • セマンティックセグメンテーションアルゴリズム - コンピュータビジョンアプリケーション開発のためのピクセルレベルのきめ細かいアプローチを提供します。

  • オブジェクト検出アルゴリズム — 1 つの深層ニューラルネットワークを使用して、イメージ内のオブジェクトを検出および分類します。このアルゴリズムは、入力としてイメージを取得し、イメージシーン内のオブジェクトのすべてのインスタンスを識別する、教師あり学習アルゴリズムです。