Use Amazon SageMaker Built-in Algorithms - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Use Amazon SageMaker Built-in Algorithms

Amazon SageMaker provides a suite of built-in algorithms to help data scientists and machine learning practitioners get started on training and deploying machine learning models quickly. For someone that is new to SageMaker, choosing the right algorithm for your particular use case can be a challenging task. The following table provides a quick cheat sheet that shows how you can start with an example problem or use case and find an appropriate built-in algorithm offered by SageMaker that is valid for that problem type. Additional guidance organized by learning paradigms (supervised and unsupervised) and important data domains (text and images) is provided in the sections following the table.

Table: Mapping use cases to built-in algorithms
Example problems and use cases Learning paradigm or domain Problem types Data input format Built-in algorithms

Predict if an item belongs to a category: an email spam filter

教師付き学習

Binary/multi-class classification

Tabular

因数分解機アルゴリズム, K 最近傍 (k-NN) アルゴリズム, 線形学習アルゴリズム, XGBoost アルゴリズム

Predict a numeric/continuous value: estimate the value of a house

回帰

Tabular

因数分解機アルゴリズム, K 最近傍 (k-NN) アルゴリズム, 線形学習アルゴリズム, XGBoost アルゴリズム

Based on historical data for a behavior, predict future behavior: predict sales on a new product based on previous sales data.

Time-series forecasting

Tabular

DeepAR 予測アルゴリズム

Improve the data embeddings of the high-dimensional objects: identify duplicate support tickets or find the correct routing based on similarity of text in the tickets

Embeddings: convert high-dimensional objects into low-dimensional space. Tabular Object2Vec アルゴリズム

Drop those columns from a dataset that have a weak relation with the label/target variable: the color of a car when predicting its mileage.

教師なし学習

Feature engineering: dimensionality reduction

Tabular

主成分分析法 (PCA) アルゴリズム

Detect abnormal behavior in application: spot when an IoT sensor is sending abnormal readings

異常検出

Tabular

ランダムカットフォレスト (RCF) アルゴリズム

Protect your application from suspicious users: detect if an IP address accessing a service might be from a bad actor

IP anomaly detection

Tabular

IP Insights

Group similar objects/data together: find high-, medium-, and low-spending customers from their transaction histories

クラスタリングまたはグループ化

表形式

K-Means アルゴリズム

文書のセットをトピックに整理する(事前に知られていない):文書で使用されている用語に基づいて、文書に医療カテゴリに属するものとしてタグを付けます。

トピックモデリング

テキスト

潜在的ディリクレ配分 (LDA) アルゴリズム, ニューラルトピックモデル (NTM) アルゴリズム

コーパス内の文書に定義済みのカテゴリを割り当てる:図書館内の書籍を学問分野に分類する

テキスト分析

テキスト分類

テキスト

BlazingText アルゴリズム

1 つの言語から別の言語にテキストを変換します。スペイン語から英語

機械翻訳

アルゴリズム
テキスト

Sequence to Sequence アルゴリズム

長文コーパスを要約する:研究論文の要約

テキスト集約

テキスト

Sequence to Sequence アルゴリズム

音声ファイルをテキストに変換:コールセンターの会話を転写してさらに分析する

音声読み上げ機能

テキスト

Sequence to Sequence アルゴリズム

画像の内容に基づいて画像にラベルを付ける/タグ付けする:画像内のアダルトコンテンツに関するアラート

Image Processing

画像とマルチラベルの分類

イメージ

イメージ分類アルゴリズム

画像内の人物やオブジェクトを検出する:警察は行方不明者の大きなフォトギャラリーを見直す

対象物の検出および分類

イメージ

オブジェクト検出アルゴリズム

画像のすべてのピクセルにカテゴリを個別にタグ付けする:自動運転車はその方法でオブジェクトを識別する準備をする

コンピュータビジョン

イメージ

セマンティックセグメンテーションアルゴリズム

Docker のレジストリパス、データ形式、推奨される Amazon EC2 インスタンスタイプ、および SageMaker が提供するすべての組み込みアルゴリズムに共通する CloudWatch ログに関する重要な情報については、組み込みアルゴリズムに関する共通情報

以下のセクションでは、Amazon SageMaker 組み込みアルゴリズムについて、それらが属する教師あり学習パラダイムおよび教師なし学習パラダイム別にグループ化された追加のガイダンスを示します。これらの学習パラダイムと、それに関連する問題のタイプについては、アルゴリズムの選択。また、テキスト解析と画像処理という 2 つの重要な機械学習領域に対応できる SageMaker 組み込みアルゴリズムについてもセクションが提供されています。

教師付き学習

Amazon SageMaker には、分類問題または回帰問題に使用できる組み込みの汎用アルゴリズムがいくつか用意されています。

  • 線形学習アルゴリズム-回帰のための線形関数、または分類のための線形閾値関数を学習します。

  • 因数分解機アルゴリズムこれは、高次元スパースデータセット内の特徴間の相互作用を経済的にキャプチャするように設計された線形モデルの拡張です。

  • XGBoost アルゴリズムより単純で弱いモデルのセットから推定のアンサンブルを組み合わせた、グラデーションブーストツリーアルゴリズムの実装。

  • K 最近傍 (k-NN) アルゴリズム-分類用の新しいデータポイントにラベルを割り当てたり、回帰用の k 個の最近接ポイントの平均から予測された目標値を割り当てるノンパラメトリック手法です。

Amazon SageMaker には、フィーチャエンジニアリングと時系列データからの予測中に、より特殊なタスクに使用されるいくつかの組み込みの監視付き学習アルゴリズムも用意されています。

  • Object2Vec アルゴリズム-フィーチャエンジニアリングに使用される、高度にカスタマイズ可能な新しい多目的アルゴリズム。このアルゴリズムは、高次元オブジェクトの低次元高密度埋め込みを学習し、下流モデルのトレーニング効率を向上させる特徴を作成します。これは教師付きアルゴリズムですが、トレーニングのためにラベル付きデータが必要なため、リレーションシップラベルはデータの自然なクラスタリングから純粋に取得でき、明示的な人間の注釈はありません。

  • DeepAR 予測アルゴリズム再帰型ニューラルネットワーク (RNN) を使用してスカラー (1 次元) 時系列を予測するための、教師あり学習アルゴリズムです。

教師なし学習

Amazon SageMaker には、クラスタリング、ディメンション削減、パターン認識、異常検出など、教師なし学習のさまざまなタスクに使用できる組み込みアルゴリズムがいくつか用意されています。

  • 主成分分析法 (PCA) アルゴリズム-最初のいくつかの主成分にデータポイントを投影することによって、データセット内の次元 (特徴の数) を縮退させます。目的は、できるだけ多くの情報や変動を保持することです。数学者の場合、主成分はデータの共分散行列の固有ベクトルです。

  • K-Means アルゴリズム-1 つのグループのメンバーができるだけ類似し、他のグループのメンバーとできるだけ異なる離散グループをデータ内に検出します。

  • IP Insights— IPv4 アドレスの使用パターンを学習します。このアルゴリズムは、IPv4 アドレスと、ユーザー ID やアカウント番号などの各種エンティティとの間の関連付けをキャプチャするように設計されています。

  • ランダムカットフォレスト (RCF) アルゴリズム-その他の高度に構造化された、またはパターン化されたデータと異なるデータセット内の異常なデータポイントを検出します。

テキスト分析

SageMaker は、自然言語処理、文書の分類または要約、トピックのモデリングまたは分類、言語の転記または翻訳に使用されるテキスト文書の分析に合わせたアルゴリズムを提供します。

  • BlazingText アルゴリズムWord2vec とテキスト分類アルゴリズムの高度に最適化された実装で、大規模なデータセットに簡単に拡張できます。これは、多くのダウンストリームの自然言語処理 (NLP) タスクに便利です。

  • Sequence to Sequence アルゴリズム— 一般的にニューラル機械翻訳に使用される教師ありアルゴリズムです。

  • 潜在的ディリクレ配分 (LDA) アルゴリズム— 一連のドキュメントのトピックを決定するのに適したアルゴリズムです。これは 教師なしアルゴリズムです。つまり、トレーニング時に回答を含むサンプルデータを使用しないということです。

  • ニューラルトピックモデル (NTM) アルゴリズム-一連のドキュメントのトピックを決定する、別の教師なし手法。ニューラルネットワークアプローチを採用しています。

Image Processing

SageMaker はまた、画像の分類、物体検出、およびコンピュータビジョンに使用される画像処理アルゴリズムを提供します。

  • イメージ分類アルゴリズム— 回答を含むサンプルデータを使用します (監視アルゴリズム). このアルゴリズムを使用してイメージを分類します。

  • セマンティックセグメンテーションアルゴリズム— コンピュータビジョンアプリケーション開発のためのピクセルレベルのきめ細かいアプローチを提供します。

  • オブジェクト検出アルゴリズム— 単一の深層ニューラルネットワークを使用して、イメージ内のオブジェクトを検出および分類します。このアルゴリズムは、入力としてイメージを取得し、イメージシーン内のオブジェクトのすべてのインスタンスを識別する、教師あり学習アルゴリズムです。