Amazon SageMaker 組み込みアルゴリズムまたは事前トレーニング済みモデルを使用する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon SageMaker 組み込みアルゴリズムまたは事前トレーニング済みモデルを使用する

Amazon SageMaker は、データサイエンティストや機械学習の実践者が機械学習モデルのトレーニングとデプロイを迅速に開始できるように、組み込みアルゴリズム、事前トレーニング済みのモデル、事前構築済みのソリューションテンプレートのスイートを提供します。を初めて使用する場合 SageMaker、特定のユースケースに適したアルゴリズムを選択することは難しい作業です。次の表は、問題の例やユースケースから始めて、その問題タイプに SageMaker 有効な が提供する適切な組み込みアルゴリズムを見つける方法を示すクイックチートシートです。学習パラダイム (教師ありと教師なし) と重要なデータドメイン (テキストとイメージ) によって構成される追加のガイダンスについては、表の次のセクションを参照してください。

表: 組み込みアルゴリズムへのユースケースのマッピング
問題とユースケース例 学習パラダイムまたはドメイン 問題タイプ データ入力形式 組み込みアルゴリズム

によって提供される事前トレーニング済みモデルと事前構築済みソリューションテンプレートで対処できる 15 個の問題タイプのうち、いくつかの例を以下に示します SageMaker JumpStart。

質問への回答: 指定された質問に対する回答を出力するチャットボット。

テキスト分析: 金融などの業界ドメイン固有のモデルからのテキストを分析します。

トレーニング済みのモデルと構築済みのソリューションテンプレート

イメージ分類

表形式分類

表形式回帰

テキスト分類

オブジェクトの検出

テキスト埋め込み

質問への回答

センテンスペア分類

画像埋め込み

固有表現認識

インスタンスセグメンテーション

テキスト生成

テキスト要約

セマンティックセグメンテーション

機械翻訳

画像、テキスト、表形式

Mobilenet、YOLO、高速 R-CNN、BERT、lightGBMなどの人気モデル CatBoost

使用可能な事前トレーニング済みモデルのリストについては、JumpStart 「モデル」を参照してください。

使用可能な構築済みソリューションテンプレートのリストについては、「 JumpStart ソリューション」を参照してください。

項目がカテゴリに属しているかどうかを予測する: メールスパムフィルター

教師あり学習

二項/複数クラス分類

表形式

AutoGluon- タブラー, CatBoost, 因数分解機アルゴリズム, K 最近傍 (k-NN) アルゴリズム, LightGBM, 線形学習アルゴリズム, TabTransformer, XGBoost アルゴリズム

数値/連続値を予測する: 家の価値を推定

リグレッション

表形式

AutoGluon- タブラー, CatBoost, 因数分解機アルゴリズム, K 最近傍 (k-NN) アルゴリズム, LightGBM, 線形学習アルゴリズム, TabTransformer, XGBoost アルゴリズム

行動の履歴データに基づいて将来の行動を予測する: 以前の売上データに基づいて新製品の売上を予測

時系列予測

表形式

DeepAR 予測アルゴリズム

高次元オブジェクトのデータ埋め込みを改善する: 重複するサポートチケットを特定するか、チケット内のテキストの類似性に基づいて正しいルーティングを検出

埋め込み: 高次元のオブジェクトを低次元空間に変換します。 表形式 Object2Vec アルゴリズム

ラベル/ターゲット変数と関係が弱い列をデータセットからドロップする: 走行距離の予測時の車の色

教師なし学習

特徴量エンジニアリング: 次元縮退

表形式

主成分分析法 (PCA) アルゴリズム

アプリケーションの異常動作を検出する: IoT センサーが異常な読み取り値を送信することを特定

異常検出

表形式

ランダムカットフォレスト (RCF) アルゴリズム

疑わしいユーザーからアプリケーションを保護する: サービスにアクセスする IP アドレスが不正なアクターによるものかどうかを検出

IP 異常検出

表形式

IP Insights

類似するオブジェクト/データをグループ化する: トランザクション履歴から高、中、低支出の顧客を検出

クラスタリングまたはグループ化

表形式

K-Means アルゴリズム

一連のドキュメントをトピックに整理する (事前に確認できない): ドキュメントで使用されている用語に基づいてドキュメントを医療カテゴリに属するものとしてタグ付け

トピックのモデリング

テキスト

潜在的ディリクレ配分 (LDA) アルゴリズム, ニューラルトピックモデル (NTM) アルゴリズム

コーパス内のドキュメントに事前定義されたカテゴリを割り当てる: ライブラリ内の書籍を学問分野別に分類

テキスト分析

テキスト分類

テキスト

BlazingText アルゴリズム, テキスト分類 - TensorFlow

ある言語から別の言語にテキストを変換する: スペイン語から英語

機械翻訳

アルゴリズム
テキスト

Sequence to Sequence アルゴリズム

長いテキストコーパスを要約する: 研究論文の要約

テキストの要約

テキスト

Sequence to Sequence アルゴリズム

オーディオファイルをテキストに変換する: コールセンターの会話を書き起こしてさらに分析

Speech-to-text

テキスト

Sequence to Sequence アルゴリズム

イメージのコンテンツに基づいてイメージにラベル/タグを付ける: イメージ内のアダルトコンテンツに関するアラート

Image Processing

イメージおよびマルチラベル分類

イメージ

画像分類 - MXNet

転移学習を使用して画像内の何かを分類します。

画像分類 イメージ

イメージ分類 - TensorFlow

イメージ内の人や物体を検出する: 警察が行方不明の人物について大きなフォトギャラリーをレビュー

オブジェクトの検出と分類

イメージ

オブジェクト検出 - MXNet, オブジェクト検出 - TensorFlow

画像のすべてのピクセルにカテゴリを個別にタグ付けする: 自動運転車が道中で物体を識別する準備を整える

コンピュータビジョン

イメージ

セマンティックセグメンテーションアルゴリズム

Docker レジストリパス、データ形式、推奨される Amazon EC2 インスタンスタイプ、および が提供するすべての組み込みアルゴリズムに共通する CloudWatch ログに関する重要な情報については SageMaker、「」を参照してください組み込みアルゴリズムに関する共通情報

以下のセクションでは、Amazon SageMaker 組み込みアルゴリズムが属する教師あり学習パラダイムと教師なし学習パラダイムによってグループ化された追加のガイダンスを提供します。これらの学習パラダイムとそれに関連する問題タイプの詳細については、「アルゴリズムの選択」を参照してください。また、テキスト分析と画像処理という 2 SageMaker つの重要な機械学習ドメインに対処するために使用できる組み込みアルゴリズムのセクションも提供されています。

トレーニング済みモデルとソリューションテンプレート

SageMaker JumpStart は、 SageMaker SDK と Studio Classic を使用する一般的な問題タイプの幅広い事前トレーニング済みモデル、事前構築済みのソリューションテンプレート、および例を提供します。が提供するモデル、ソリューション、サンプルノートブックの詳細については、 SageMaker JumpStart「」を参照してくださいSageMaker JumpStart

教師あり学習

Amazon SageMaker には、分類または回帰の問題に使用できる組み込みの汎用アルゴリズムがいくつか用意されています。

  • AutoGluon- タブラー — モデルをアンサンブルして複数のレイヤーに積み重ねることで成功するオープンソースの AutoML フレームワーク。

  • CatBoost - 順序付けされたブースティングとカテゴリ別機能を処理するための革新的なアルゴリズムを導入する勾配ブーストツリーアルゴリズムの実装。

  • 因数分解機アルゴリズム - 高次元スパースデータセット内の特徴間の相互作用を経済的にキャプチャするように設計された線形モデルの拡張。

  • K 最近傍 (k-NN) アルゴリズム - K 個の最も近いラベル付きポイントを使用して分類用の新しいデータポイントにラベルを割り当てるか、回帰用の K 近接ポイントの平均から予測ターゲット値を割り当てるノンパラメトリック手法。

  • LightGBM — 効率とスケーラビリティを向上させるための 2 つの新しい技法を追加した勾配ブーストツリーアルゴリズムの実装: Gradient-based One-Side Sampling (GOSS) と Exclusive Feature Bundling (EFB)。

  • 線形学習アルゴリズム - 回帰の線形関数または分類の線形しきい値関数を学習します。

  • TabTransformer— Transformer 上に self-attention-based構築された新しいディープ表形式データモデリングアーキテクチャ。

  • XGBoost アルゴリズム - より単純で弱いモデルのセットから推定のアンサンブルを組み合わせる勾配ブーストツリーアルゴリズムの実装。

Amazon には、特徴量エンジニアリングや時系列データからの予測中に、より特殊なタスクに使用される組み込みの教師あり学習アルゴリズム SageMaker もいくつか用意されています。

  • Object2Vec アルゴリズム — 特徴量エンジニアリングに使用される新しい高度にカスタマイズ可能な汎用アルゴリズム。高次元オブジェクトの低次元高密度埋め込みを学習して、下流モデルのトレーニング効率を向上する特徴を生成できます。トレーニングにラベル付きデータが必要なため教師ありアルゴリズムですが、明示的な人間による注釈なしで、データ内の自然なクラスタリングから関係ラベルを単純に取得できるシナリオが多数あります。

  • DeepAR 予測アルゴリズム - 予測アルゴリズムは、再帰型ニューラルネットワーク (RNN) を使用してスカラー (1 次元) 時系列を予測する教師あり学習アルゴリズム。

教師なし学習

Amazon SageMaker には、クラスタリング、次元削減、パターン認識、異常検出など、さまざまな教師なし学習タスクに使用できる組み込みアルゴリズムがいくつか用意されています。

  • 主成分分析法 (PCA) アルゴリズム - データポイントを最初のいくつかの主成分に射影することにより、データセット内の次元 (特徴の数) を縮退させます。目的は、できるだけ多くの情報やバリエーションを保持することです。数学者の場合、主成分はデータの共分散行列の固有ベクトルです。

  • K-Means アルゴリズム - 1 つのグループのメンバーができるだけ互いに類似し、他のグループのメンバーとできるだけ異なる離散グループをデータ内に見つけます。

  • IP Insights - IPv4 アドレスの使用パターンを学習します。このアルゴリズムは、IPv4 アドレスと、ユーザー ID やアカウント番号などの各種エンティティとの間の関連付けをキャプチャするように設計されています。

  • ランダムカットフォレスト (RCF) アルゴリズム - その他の高度に構造化またはパターン化されたデータとは異なるデータセット内の異常なデータポイントを検出します。

テキスト分析

SageMaker は、自然言語処理、ドキュメントの分類または要約、トピックのモデリングまたは分類、言語の文字起こしまたは翻訳で使用されるテキストドキュメントの分析に合わせて調整されたアルゴリズムを提供します。

  • BlazingText アルゴリズム - 大規模なデータセットに簡単に拡張できる Word2vec とテキスト分類アルゴリズムの高度に最適化された実装。これは、多くの下流の自然言語処理 (NLP) タスクに役立ちます。

  • Sequence to Sequence アルゴリズム - 一般的にニューラル機械翻訳に使用される教師ありアルゴリズム。

  • 潜在的ディリクレ配分 (LDA) アルゴリズム - 一連のドキュメントのトピックを決定するのに適しているアルゴリズム。これは 教師なしアルゴリズムです。つまり、トレーニング時に回答を含むサンプルデータを使用しないということです。

  • ニューラルトピックモデル (NTM) アルゴリズム - ニューラルネットワークアプローチを使用して一連のドキュメントのトピックを決定する別の教師なし手法。

  • テキスト分類 - TensorFlow — テキスト分類用のトレーニング済みモデルを使用して転移学習をサポートする教師ありアルゴリズム。

Image Processing

SageMaker は、画像分類、オブジェクト検出、コンピュータビジョンに使用される画像処理アルゴリズムも提供します。

  • 画像分類 - MXNet - 回答を含むサンプルデータを使用します (教師ありアルゴリズムと呼ばれる)。 このアルゴリズムを使用してイメージを分類します。

  • イメージ分類 - TensorFlow— 事前トレーニング済みの TensorFlow Hub モデルを使用して、特定のタスク (教師ありアルゴリズム と呼ばれる) を微調整します。 このアルゴリズムを使用してイメージを分類します。

  • セマンティックセグメンテーションアルゴリズム - コンピュータビジョンアプリケーション開発のためのピクセルレベルのきめ細かいアプローチを提供します。

  • オブジェクト検出 - MXNet — 1 つの深層ニューラルネットワークを使用して、イメージ内のオブジェクトを検出および分類します。このアルゴリズムは、入力としてイメージを取得し、イメージシーン内のオブジェクトのすべてのインスタンスを識別する、教師あり学習アルゴリズムです。

  • オブジェクト検出 - TensorFlow — 画像内の境界ボックスとオブジェクトラベルを検出します。これは、利用可能な事前トレーニング済み TensorFlow モデルによる転送学習をサポートする教師あり学習アルゴリズムです。