翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
推論のためのモデルをデプロイする
Amazon を使用すると SageMaker、トレーニング済みの機械学習モデルから予測または推論 を取得できます。 は、ML インフラストラクチャとモデルデプロイの幅広いオプション SageMaker を提供し、ML 推論のすべてのニーズを満たすのに役立ちます。 SageMaker Inference を使用すると、モデルデプロイのスケーリング、本番稼働時のモデルをより効果的に管理し、運用上の負担を軽減できます。 SageMaker は、低レイテンシー推論を実現するためのリアルタイムエンドポイント、フルマネージドインフラストラクチャと自動スケーリング用のサーバーレスエンドポイント、リクエストのバッチ用の非同期エンドポイントなど、さまざまな推論オプションを提供します。ユースケースに適した推論オプションを活用することで、効率的でモデルデプロイと推論を確保できます。
機能の選択
で ML モデルをデプロイするには、いくつかのユースケースがあります SageMaker。このセクションでは、これらのユースケースと、ユースケースごとに推奨される SageMaker 機能について説明します。
ユースケース
以下は、 で ML モデルをデプロイするための主なユースケースです SageMaker。
-
ユースケース 1: 機械学習モデルをローコード環境またはノーコード環境にデプロイします。初心者や を初めて使用する場合は SageMaker、複雑な設定を必要とせずに、Amazon SageMaker Studio インターフェイス SageMaker JumpStart を介して Amazon を使用して事前トレーニング済みのモデルをデプロイできます。
-
ユースケース 2: コードを使用して、柔軟性と制御性に優れた機械学習モデルをデプロイします。経験豊富な ML プラクティショナーは、Python の
ModelBuilder
クラスを使用して、アプリケーションニーズに合わせてカスタマイズされた設定で独自のモデルを SageMakerデプロイできます。これによりSDK、インスタンスタイプ、ネットワーク分離、リソース割り当てなど、さまざまな設定をきめ細かく制御できます。 -
ユースケース 3: 機械学習モデルを大規模にデプロイします。本番環境でモデルを大規模に管理したい上級ユーザーや組織には、 AWS SDK for Python (Boto3) および を、必要な Infrastructure as Code (IaC ) および CI/CD ツール AWS CloudFormation とともに使用して、リソースをプロビジョニングし、リソース管理を自動化します。
推奨機能
次の表は、各ユースケースに対応する SageMaker 機能の主な考慮事項とトレードオフを示しています。
ユースケース 1 | ユースケース 2 | ユースケース 3 | |
---|---|---|---|
SageMaker 機能 | JumpStart Studio で を使用して、基礎モデルのデプロイを高速化します。 | ModelBuilder SageMaker Python から を使用してモデルをSDKデプロイします。 | を使用してモデルを大規模にデプロイおよび管理します AWS CloudFormation。 |
説明 | Studio UI を使用して、事前にトレーニングされたモデルをカタログから事前設定された推論エンドポイントにデプロイします。このオプションは、市民データサイエンティストや、複雑な設定を行わずにモデルをデプロイしたいユーザーに最適です。 | Amazon SageMaker Python の ModelBuilder クラスSDKを使用して、独自のモデルをデプロイし、デプロイ設定を設定します。このオプションは、経験豊富なデータサイエンティストや、独自のモデルをデプロイし、きめ細かな制御を必要とするすべてのユーザーに最適です。 |
AWS CloudFormation および Infrastructure as Code (IaC ) を使用して、モデルをデプロイおよび管理するためのプログラムによる制御と自動化を行います SageMaker。このオプションは、一貫性のある反復可能なデプロイを必要とする上級ユーザーに最適です。 |
最適化対象 | 一般的なオープンソースモデルの迅速かつ効率的なデプロイ | 独自のモデルのデプロイ | 本番環境でのモデルの継続的な管理 |
考慮事項 | コンテナ設定と特定のアプリケーションのニーズに対するカスタマイズの欠如 | UI なし。Python コードの開発と保守に慣れている必要があります | インフラストラクチャ管理と組織リソースが必要で、 AWS SDK for Python (Boto3) または AWS CloudFormation テンプレートに精通している必要があります。 |
推奨環境 | SageMaker ドメイン | 認証情報とSDKインストールされた Python で AWS 設定された SageMaker Python 開発環境、または SageMaker IDE SageMaker JupyterLab | AWS CLI、ローカル開発環境、Infrastructure as Code (IaC ) および CI/CD ツール |
追加のオプション
SageMaker では、推論のユースケースにさまざまなオプションが用意されているため、デプロイの技術的幅と深さを選択できます。
-
エンドポイントへのモデルのデプロイ。モデルをデプロイするときは、次のオプションを検討してください。
リアルタイム推論。 リアルタイム推論は、インタラクティブで低レイテンシーの要件がある推論ワークロードに最適です。
Amazon SageMaker Serverless Inference を使用したモデルのデプロイ。 Serverless Inference を使用して、基盤となるインフラストラクチャを設定または管理せずにモデルをデプロイします。このオプションは、トラフィックスパート間にアイドル期間があり、コールドスタートを許容できるワークロードに最適です。
非同期推論。 は受信リクエストをキューに入れ、非同期的に処理します。このオプションは、ペイロードサイズが大きい (最大 1GB)、処理時間が長い (1 toAsynchronous 時間の推定)、ほぼリアルタイムのレイテンシー要件のリクエストに最適です。
-
コストの最適化。推論コストを最適化するには、次のオプションを検討してください。
-
SageMaker Neo によるモデルパフォーマンスの最適化。 SageMaker Neo を使用して、機械学習モデルをより優れたパフォーマンスと効率で最適化して実行し、モデルを自動的に最適化して AWS Inferentia チップなどの環境で実行することで、コンピューティングコストを最小限に抑えることができます。
-
Amazon SageMaker モデルの自動スケーリング。 自動スケーリングを使用して、受信トラフィックパターンに基づいてエンドポイントのコンピューティングリソースを動的に調整します。これにより、特定の時間に使用しているリソースに対してのみ料金を支払うことで、コストを最適化できます。
-