翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
推論のためのモデルをデプロイする
モデルを構築し、トレーニングしたら、以下の 2 つのいずれかの方法でそれらのモデルをデプロイして、予測を取得することができます。
-
モデルから予測を取得する永続的なエンドポイントを設定するには、Amazon SageMaker ホスティングサービスを使用します。 SageMaker ホスティングサービスにモデルをデプロイする方法の例については、「」を参照してくださいエンドポイントを作成してモデルをデプロイする。
または、必要に応じて、次の動画チュートリアルをご覧ください。
-
データセット全体の予測を取得するには、 SageMaker バッチ変換を使用します。 SageMaker バッチ変換でモデルをデプロイする方法の概要については、「」を参照してくださいバッチ変換の使用。
バッチ変換でモデルをデプロイする方法の例については、「(オプション) バッチ変換を使用して予測を行う」を参照してください。
または、必要に応じて、次の動画チュートリアルをご覧ください。
前提条件
これらのトピックは、1 つ以上の機械学習モデルを構築およびトレーニングし、それらのモデルをデプロイする準備ができていることを前提としています。 SageMaker これらの前提条件タスクを実行するのが初めてで、まだ完了していない場合は、Amazon の使用を開始する SageMakerチュートリアルのステップを実行してください。 SageMaker データサイエンスプロセスの管理とモデルデプロイの処理方法のサンプルに習熟することができます。モデルトレーニングの詳細については、「モデルのトレーニング」を参照してください。
何をしたいですか?
SageMaker は、機械学習モデルを導入する際にリソースを管理し、推論性能を最適化する機能を提供します。推論パイプラインの使用、Neo、Elastic Inference、およびモデルの自動スケーリングを使用したモデルのコンパイルとデプロイのガイダンスについては、次のトピックを参照してください。
-
データ処理およびリアルタイム予測の管理や、パイプラインでのバッチ変換処理を行う方法については、ホストモデルと前処理ロジックを1つのエンドポイントの背後にあるシリアル推論パイプラインとして を参照してください。
-
inf1 インスタンスにモデルをデプロイする場合は、「Neoを使用してモデルパフォーマンスを最適化」を参照してください。
-
Apache MXNet、ONNX PyTorch、XGBoost TensorFlow の各モデルを一度トレーニングして、ARM、インテル、Nvidia プロセッサーにデプロイできるように最適化する方法については、を参照してくださいNeoを使用してモデルパフォーマンスを最適化。
-
データセット全体をすばやく前処理するか、永続的なエンドポイントが不要な場合に大規模なデータセットのトレーニング済みモデルから推論を取得するには、バッチ変換の使用 を参照してください。
-
エンドポイントに、GPU SageMaker インスタンスを使用してホストされたモデルとしてデプロイされている深層学習モデルからスループットを高速化し、リアルタイム推論を得るためのレイテンシーを短縮する方法については、「」を参照してください使用アイテム SageMaker Elastic Inference (EI) 。
-
ワークロードの変動に応じて、プロビジョニングされたインスタンスの数を動的に調整するには、Amazon SageMaker モデルをオートスケーリングする を参照してください。
-
共有サービングコンテナを使用して複数のモデルをホストできるエンドポイントを作成するには、「1つのエンドポイントの背後にある1つのコンテナで複数のモデルをホスト」を参照してください。
-
複数のモデルを本番環境でテストするには、「プロダクションバリエーション」を参照してください。
モデルのデプロイの管理
モニタリング、トラブルシューティング、ベストプラクティスを含むモデルデプロイの管理に関するガイダンス、および推論ホスティングインスタンスに関連付けられたストレージに関する情報については、以下を参照してください。
-
モデルのデプロイのモニタリングに使用できるツールについては、モニターアマゾン SageMaker を参照してください。
-
モデルをデプロイする際のトラブルシューティングについては、Amazon SageMaker モデルデプロイのトラブルシューティング を参照してください。
-
デプロイのベストプラクティスについては、「ベストプラクティス」を参照してください。
-
異なるサイズのホスティングインスタンス用に提供されるストレージボリュームのサイズについては、「ホストインスタンスのストレージボリューム」を参照してください。
独自の推論コードのデプロイ
独自の推論コードの実行方法に関する高度なガイダンスが必要な開発者向け:
-
独自の推論コードホスティングサービスを実行するには、ホスティングサービスでの独自の推論コードの使用 を参照してください。
-
バッチ変換で独自の推論コードを実行するには、バッチ変換での独自の推論コードの使用 を参照してください。