Amazon SageMaker 組み込みアルゴリズムを使用する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon SageMaker 組み込みアルゴリズムを使用する

Amazon SageMaker には、データサイエンティストや機械学習の実践者が、機械学習モデルのトレーニングとデプロイを迅速に開始できるように、組み込みのアルゴリズムスイートが用意されています。SageMaker を初めて使う人にとっては、特定のユースケースに適したアルゴリズムを選択するのは難しい作業です。次の表は、問題の例やユースケースから始めて、その問題の種類に有効な SageMaker が提供する適切な組み込みアルゴリズムを見つける方法を示す簡単なチートシートです。学習パラダイム(教師ありと教師なし)と重要なデータドメイン(テキストと画像)によって編成された追加のガイダンスは、表の後のセクションで提供されています。

表: 組み込みアルゴリズムにマッピングする
問題とユースケースの例 学習パラダイムまたはドメイン 問題のタイプ データ入力形式 組み込みアルゴリズム

アイテムがカテゴリに属しているかどうかを予測する:メールスパムフィルター

教師あり学習

バイナリ/マルチクラス分類

表形式形式

因数分解機アルゴリズム, K 最近傍 (k-NN) アルゴリズム, 線形学習アルゴリズム, XGBoost アルゴリズム

数値/連続値を予測する:家の価値を見積もる

回帰

表形式形式

因数分解機アルゴリズム, K 最近傍 (k-NN) アルゴリズム, 線形学習アルゴリズム, XGBoost アルゴリズム

行動の履歴データに基づいて、将来の行動を予測する:以前の販売データに基づいて新製品の売上を予測する。

時系列予測

表形式形式

DeepAR 予測アルゴリズム

ラベル/ターゲット変数と弱い関係(走行距離を予測するときの車の色)を持つデータセットから列を削除します。

教師なし学習

フィーチャーエンジニアリング:次元低減

表形式形式

主成分分析法 (PCA) アルゴリズム

アプリケーションの異常な動作を検出:IoTセンサーが異常な測定値を送信しているタイミングを特定

異常検出

表形式形式

ランダムカットフォレスト (RCF) アルゴリズム

不審なユーザーからアプリケーションを保護する:サービスにアクセスする IP アドレスが不正な行為によるものであるかどうかを検出する

IP 異常検出

表形式形式

IP Insights

高次元オブジェクトのデータ埋め込みを改善します。重複するサポートチケットを特定するか、チケット内のテキストの類似性に基づいて正しいルーティングを見つけます

埋め込み:高次元オブジェクトを低次元に変換する スペース。

表形式

Object2Vec アルゴリズム

類似のオブジェクト/データをまとめてグループ化:トランザクション履歴から高消費/中消費/低消費の顧客を見つける

クラスタリングまたはグループ化

表形式

K-Means アルゴリズム

文書のセットをトピックに整理する(事前に知られていない):文書で使用されている用語に基づいて、文書に医療カテゴリに属するものとしてタグを付けます。

トピックモデリング

Text

潜在的ディリクレ配分 (LDA) アルゴリズム, ニューラルトピックモデル (NTM) アルゴリズム

コーパス内の文書に定義済みのカテゴリを割り当てる:図書館内の書籍を学問分野に分類する

テキスト分析

テキスト分類

Text

BlazingText アルゴリズム

ある言語から別の言語にテキストを変換します。スペイン語から英語

機械翻訳

アルゴリズム
Text

Sequence to Sequence アルゴリズム

長文コーパスを要約する:研究論文の要約

テキスト集約

Text

Sequence to Sequence アルゴリズム

音声ファイルをテキストに変換:コールセンターの会話を転写してさらに分析する

テキスト読み書き機能

Text

Sequence to Sequence アルゴリズム

画像の内容に基づいて画像にラベルを付ける/タグ付けする:画像内のアダルトコンテンツに関するアラート

Image Processing

画像とマルチラベルの分類

イメージ

イメージ分類アルゴリズム

画像内の人物やオブジェクトを検出する:警察は行方不明者の大きなフォトギャラリーを見直す

オブジェクトの検出と分類

イメージ

オブジェクト検出アルゴリズム

画像のすべてのピクセルにカテゴリを個別にタグ付けする:自動運転車はその方法でオブジェクトを識別する準備をする

コンピュータビジョン

イメージ

セマンティックセグメンテーションアルゴリズム

Docker のレジストリパス、データ形式、推奨される Amazon EC2 インスタンスタイプ、および SageMaker が提供するすべての組み込みアルゴリズムに共通する CloudWatch ログに関する重要な情報については、組み込みアルゴリズムに関する共通情報

以下のセクションでは、Amazon SageMaker 組み込みアルゴリズムについて、それらが属する教師あり学習パラダイムおよび教師なし学習パラダイム別にグループ化された追加のガイダンスを示します。これらの学習パラダイムと、それに関連する問題のタイプについては、アルゴリズムの選択。また、テキスト解析と画像処理という 2 つの重要な機械学習領域に対応できる SageMaker 組み込みアルゴリズムについてもセクションが提供されています。

教師あり学習

Amazon SageMaker には、分類問題または回帰問題に使用できる組み込みの汎用アルゴリズムがいくつか用意されています。

  • 線形学習アルゴリズム-回帰のための線形関数または分類のための線形閾値関数を学習します。

  • 因数分解機アルゴリズム-高次元スパースデータセット内の特徴間の相互作用を経済的にキャプチャするように設計された線形モデルの拡張です。

  • XGBoost アルゴリズム— より単純で弱いモデルのセットから推定のアンサンブルを組み合わせた、勾配ブースティングツリーアルゴリズムの実装。

  • K 最近傍 (k-NN) アルゴリズム-分類用の新しいデータポイントにラベルを割り当てたり、回帰用の k 個の最近接ポイントの平均から予測された目標値を割り当てるノンパラメトリック手法です。

Amazon SageMaker には、フィーチャエンジニアリングと時系列データからの予測中に、より特殊なタスクに使用されるいくつかの組み込みの監視付き学習アルゴリズムも用意されています。

  • Object2Vec アルゴリズム-フィーチャエンジニアリングに使用される、高度にカスタマイズ可能な新しい多目的アルゴリズム。このアルゴリズムは、高次元オブジェクトの低次元高密度埋め込みを学習して、下流モデルのトレーニング効率を向上させる特徴を生成できます。これは教師付きアルゴリズムですが、トレーニングのためにラベル付きデータが必要なため、リレーションシップラベルはデータの自然なクラスタリングから純粋に取得でき、明示的な人間の注釈はありません。

  • DeepAR 予測アルゴリズム-再帰型ニューラルネットワーク (RNN) を使用してスカラー (1 次元) 時系列を予測するための、教師あり学習アルゴリズムです。

教師なし学習

Amazon SageMaker には、クラスタリング、ディメンション削減、パターン認識、異常検出など、教師なし学習のさまざまなタスクに使用できる組み込みアルゴリズムがいくつか用意されています。

  • 主成分分析法 (PCA) アルゴリズム-最初のいくつかの主成分にデータポイントを投影することによって、データセット内の次元 (特徴の数) を縮退させます。目的は、できるだけ多くの情報や変動を保持することです。数学者の場合、主成分はデータの共分散行列の固有ベクトルです。

  • K-Means アルゴリズム-1 つのグループのメンバーができるだけ類似し、他のグループのメンバーとできるだけ異なる離散グループをデータ内に検出します。

  • IP Insights— IPv4 アドレスの使用パターンを学習します。このアルゴリズムは、IPv4 アドレスと、ユーザー ID やアカウント番号などの各種エンティティとの間の関連付けをキャプチャするように設計されています。

  • ランダムカットフォレスト (RCF) アルゴリズム-その他の高度に構造化された、またはパターン化されたデータとは異なるデータセット内の異常なデータポイントを検出します。

テキスト分析

SageMaker は、自然言語処理、文書の分類または要約、トピックのモデリングまたは分類、言語の転記または翻訳に使用されるテキスト文書の分析に合わせたアルゴリズムを提供します。

  • BlazingText アルゴリズム— Word2vec とテキスト分類アルゴリズムの高度に最適化された実装で、大規模なデータセットに簡単に拡張できます。多くのダウンストリーム自然言語処理 (NLP) タスクに役立ちます。

  • Sequence to Sequence アルゴリズム— 一般的にニューラル機械翻訳に使用される教師ありアルゴリズムです。

  • 潜在的ディリクレ配分 (LDA) アルゴリズム— 一連のドキュメントのトピックを決定するのに適したアルゴリズム これは 教師なしアルゴリズムです。つまり、トレーニング時に回答を含むサンプルデータを使用しないということです。

  • ニューラルトピックモデル (NTM) アルゴリズム-一連のドキュメントのトピックを決定する、別の教師なし手法。ニューラルネットワークアプローチを採用しています。

Image Processing

SageMaker はまた、画像の分類、物体検出、およびコンピュータビジョンに使用される画像処理アルゴリズムを提供します。

  • イメージ分類アルゴリズム— 回答を含むサンプルデータを使用します (監視アルゴリズム). このアルゴリズムを使用してイメージを分類します。

  • セマンティックセグメンテーションアルゴリズム— コンピュータビジョンアプリケーション開発のためのピクセルレベルのきめ細かいアプローチを提供します。

  • オブジェクト検出アルゴリズム— 単一の深層ニューラルネットワークを使用して、イメージ内のオブジェクトを検出および分類します。このアルゴリズムは、入力としてイメージを取得し、イメージシーン内のオブジェクトのすべてのインスタンスを識別する、教師あり学習アルゴリズムです。