Amazon SageMaker 組み込みアルゴリズムを使用する - Amazon SageMaker

「翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。」

Amazon SageMaker 組み込みアルゴリズムを使用する

Amazon SageMaker は、データサイエンティストと Machine Learning の実践者が Machine Learning モデルのトレーニングとデプロイをすばやく開始できるように、一連の組み込みアルゴリズムを提供します。を初めて使用する方にとって、特定のユースケースに適したアルゴリズムを選択することは、困難なタスクになる場合があります。SageMaker次の表は、問題例またはユースケースから始めて、その問題タイプに有効な、SageMaker によって提供される適切な組み込みアルゴリズムを見つける方法を示す簡単なチートシートを示しています。パラダイム (教師あり/未教師あり) と重要なデータドメイン (テキストおよび画像) 別に分類された追加のガイダンスが、表の後のセクションに記載されています。

表: 組み込みアルゴリズムへのユースケースのマッピング
問題とユースケースの例 パラダイムまたはドメインの学習 問題のタイプ データ入力形式 組み込みアルゴリズム

項目がカテゴリに属するかどうかを予測: E メールのスパムフィルタ

教師あり学習

バイナリ/複数クラス分類

表形式

因数分解機アルゴリズム, K 最近傍 (k-NN) アルゴリズム, 線形学習アルゴリズム, XGBoost アルゴリズム

数値/連続値を予測する: 家の値を予測する

回帰

表形式

因数分解機アルゴリズム, K 最近傍 (k-NN) アルゴリズム, 線形学習アルゴリズム, XGBoost アルゴリズム

動作の履歴データに基づいて、今後の動作を予測します。つまり、以前の販売データに基づいて、新製品の販売を予測します。

時系列予測

表形式

予測DeepARアルゴリズム

ラベル/ターゲット変数との弱い関係があるデータセットからそれらの列を削除します。これらは、自動車の量を予測する際の車の色です。

教師なし学習

機能エンジニアリング: 次元削減

表形式

主成分分析法 (PCA) アルゴリズム

アプリケーションでの異常な動作の検出: IoT センサーが異常な読み取り値を送信しているときに検出する

異常検出

表形式

ランダムカットフォレスト (RCF) アルゴリズム

不審なユーザーからアプリケーションを保護する: サービスにアクセスする IP アドレスが不正なアクターからのものである可能性があるかどうかを検出する

IP 異常検出

表形式

IP Insights

高次元オブジェクトのデータ埋め込みを改善します。重複したサポートチケットを識別したり、チケット内のテキストの類似度に基づいて正しいルーティングを見つけたりします。

埋め込み: 高次元オブジェクトを低次元に変換 スペース。

表形式

Object2Vec アルゴリズム

類似したオブジェクト/データをグループ化する: 高、中、低お客様のトランザクション履歴から費用の少ないお客様を見つける

クラスタリングまたはグループ分け

表形式

K-Means アルゴリズム

一連のドキュメントをトピックに整理します (未確認)。ドキュメントで使用されている用語に基づいて、医療カテゴリに属するものとしてドキュメントにタグ付けします。

トピックのモデリング

テキスト

潜在的ディリクレ配分 (LDA) アルゴリズム, ニューラルトピックモデル (NTM) アルゴリズム

コーパスのドキュメントに事前定義されたカテゴリを割り当てる: ライブラリ内の書籍を教育機関向け統制に分類する

テキスト分析

テキスト分類

テキスト

BlazingText アルゴリズム

ある言語から別の言語にテキストを変換します: スペイン語から英語

マシン翻訳

アルゴリズム
テキスト

Sequence to Sequence アルゴリズム

長いテキストコーパスの概要: 研究ペーパーの抽象化

テキストの要約

テキスト

Sequence to Sequence アルゴリズム

音声ファイルをテキストに変換する: 詳細な分析のためにコールセンターの会話を書き起こす

音声書き起こし機能

テキスト

Sequence to Sequence アルゴリズム

イメージのコンテンツに基づいてイメージをラベル付け/タグ付けする: イメージ内のアダルトコンテンツに関するアラート

Image Processing

イメージとマルチラベルの分類

イメージ

イメージ分類アルゴリズム

イメージ内の人物とオブジェクトを検出: ポリシーで欠落している人物の大きな写真ギャラリーを確認する

オブジェクトの検出と分類

イメージ

オブジェクト検出アルゴリズム

カテゴリを使用して、イメージのすべてのピクセルに個別にタグを付けます。自己運転車は、オブジェクトを識別する方法を準備します

コンピュータビジョン

イメージ

セマンティックセグメンテーションアルゴリズム

によって提供されるすべての組み込みアルゴリズムに共通する、Docker レジストリパス、データ形式、推奨される Amazon EC2 インスタンスタイプ、および CloudWatch ログに関する重要な情報については、「SageMaker」を参照してください。組み込みアルゴリズムに関する一般的な情報

以下のセクションでは、Amazon SageMaker の組み込みアルゴリズムが、それらが属している教師あり学習パラダイムと教師なし学習パラダイムによってグループ化された追加ガイダンスを提供します。これらの学習パラダイムおよび関連する問題タイプの説明については、「アルゴリズムの選択」を参照してください。2 つの重要なSageMaker機械学習 Machine Learning 組み込みアルゴリズム向けにセクションも用意されています。

教師あり学習

Amazon SageMaker には、分類や回帰の問題に使用できる組み込みの汎用アルゴリズムがいくつか用意されています。

  • 線形学習アルゴリズム —回帰の線形関数または分類の線形しきい値関数を学習します。

  • 因数分解機アルゴリズム高次元スパースデータセット内の特徴間の相互作用を経済的にキャプチャするように設計された線形モデルの拡張機能。—

  • XGBoost アルゴリズム は、より単純で弱いモデルのセットから推定のアンサンブルを組み合わせる、勾配ブーストツリーアルゴリズムを実装します。—

  • K 最近傍 (k-NN) アルゴリズム — 分類のために新しいデータポイントにラベルを割り当てるため、または回帰のために k 近傍ポイントの平均から予測されたターゲット値を割り当てるために、k に最も近いラベル付きポイントを使用するノンパラメトリック手法。

Amazon SageMaker には、いくつかの教師あり学習アルゴリズムが組み込まれています。これらのアルゴリズムは、特徴のエンジニアリング中および時系列データからの予測中に、より特殊なタスクに使用されます。

  • Object2Vec アルゴリズム 機能エンジニアリングに使用される、新しく高度にカスタマイズ可能な多目的アルゴリズム。—これは、高次元オブジェクトの低次元高密度埋め込みを学習して、ダウンストリームモデルのトレーニング効率を向上させる機能を生成できます。これは教師ありアルゴリズムですが、トレーニングにラベル付きデータが必要であるため、明示的な人間の注釈なしで、データの自然なクラスタリングからのみ関係ラベルを取得できるシナリオは多数あります。

  • 予測DeepARアルゴリズム再帰型ニューラルネットワーク (RNN) を使用してスカラー (1 次元) 時系列を予測するための、教師あり学習アルゴリズムです。—

教師なし学習

Amazon SageMaker には、クラスタリング、次元削減、パターン認識、異常検出など、管理されないさまざまな学習タスクに使用できる複数の組み込みアルゴリズムが用意されています。

  • 主成分分析法 (PCA) アルゴリズム は、データポイントを最初のいくつかの主成分に射影することで、データセット内の次元 (特徴の数) を減らします。—目的は、できるだけ多くの情報やバリエーションを保持することです。数学者の場合、主成分はデータの共分散行列 (covariance column) の除数です。

  • K-Means アルゴリズム はデータ内の個別のグループを検索します。これは、グループのメンバーができるだけ類似し、他のグループのメンバーとできるだけ異なるものです。—

  • IP Insights アドレスの使用パターンについて説明します。—IPv4アドレスと、ユーザー IPv4 やアカウント番号などのさまざまなエンティティとの間の関連付けをキャプチャするように設計されています。IDs

  • ランダムカットフォレスト (RCF) アルゴリズム は、データセット内の異常なデータポイントを検出し、その他の高度に構造化された、またはパターン化されたデータから逸脱します。—

テキスト分析

SageMaker は、自然言語処理、ドキュメント分類または要約、トピックモデリングまたは分類、言語文字起こしまたは翻訳で使用されるテキストドキュメントの分析に合わせて調整されたアルゴリズムを提供します。

  • BlazingText アルゴリズム 大きなデータセットに簡単にスケーリングできる Word2vec とテキスト分類アルゴリズムの高度に最適化された実装。—これは、多くのダウンストリーム自然言語処理 (NLP) タスクに役立ちます。

  • Sequence to Sequence アルゴリズムニューラル機械翻訳に一般的に使用される教師ありアルゴリズム。—

  • 潜在的ディリクレ配分 (LDA) アルゴリズム ドキュメントセット内のトピックを決定するのに適したアルゴリズムです。—これは、教師なしアルゴリズムです。つまり、トレーニング中に回答を含むサンプルデータを使用しないということです。

  • ニューラルトピックモデル (NTM) アルゴリズムニューラルネットワークアプローチを使用して、一連のドキュメントのトピックを決定する、別の教師なし手法。—

Image Processing

SageMaker は、イメージ分類、オブジェクト検出、およびコンピュータビジョンに使用されるイメージ処理アルゴリズムも提供します。

  • イメージ分類アルゴリズム 回答を含むサンプルデータを使用します (—教師ありアルゴリズムと呼ばれる)。 このアルゴリズムを使用してイメージを分類します。

  • セマンティックセグメンテーションアルゴリズム は、コンピュータビジョンアプリケーションを開発するための、ピクセルレベルのきめ細かいアプローチを提供します。—

  • オブジェクト検出アルゴリズムは、単一の深層ニューラルネットワークを使用してイメージ内のオブジェクトを検出および分類します。—このアルゴリズムは、入力としてイメージを取得し、イメージシーン内のオブジェクトのすべてのインスタンスを識別する、教師あり学習アルゴリズムです。