推論のためのモデルをデプロイする - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

推論のためのモデルをデプロイする

Amazon を使用すると SageMaker、トレーニング済みの機械学習モデルから予測または推論 を取得できます。 は、ML 推論のすべてのニーズを満たすために、幅広い ML インフラストラクチャとモデルデプロイオプション SageMaker を提供します。 SageMaker Inference を使用すると、モデルのデプロイをスケーリングし、本番環境でモデルをより効果的に管理し、運用上の負担を軽減できます。 は、低レイテンシー推論を得るためのリアルタイムエンドポイント、フルマネージドインフラストラクチャと自動スケーリングのためのサーバーレスエンドポイント、リクエストのバッチのための非同期エンドポイントなど、さまざまな推論オプション SageMaker を提供します。ユースケースに適した推論オプションを活用することで、効率的でモデルのデプロイと推論を確保できます。

機能の選択

で ML モデルをデプロイするには、いくつかのユースケースがあります SageMaker。このセクションでは、これらのユースケースと、各ユースケースで推奨される SageMaker 機能について説明します。

ユースケース

以下は、 で ML モデルをデプロイするための主なユースケースです SageMaker。

  • ユースケース 1: 機械学習モデルをローコード環境またはノーコード環境にデプロイします。初心者や を初めて使用する場合は SageMaker、複雑な設定を必要とせずに、Amazon SageMaker Studio インターフェイス SageMaker JumpStart を介して Amazon を使用して事前トレーニング済みのモデルをデプロイできます。

  • ユースケース 2: コードを使用して、機械学習モデルをより柔軟に制御しながらデプロイします。経験豊富な ML 実務者は、Python の ModelBuilder SageMaker クラスを使用して、アプリケーションのニーズに合わせてカスタマイズされた設定で独自のモデルをデプロイできます。これによりSDK、インスタンスタイプ、ネットワーク分離、リソース割り当てなどのさまざまな設定をきめ細かく制御できます。

  • ユースケース 3: 機械学習モデルを大規模にデプロイする。本番環境でモデルを大規模に管理したい上級ユーザーや組織の場合は、 AWS SDK for Python (Boto3) また、 AWS CloudFormation を、必要な Infrastructure as Code (IaC ) および CI/CD ツールとともに使用して、リソースをプロビジョニングし、リソース管理を自動化します。

次の表に、各ユースケースに対応する SageMaker 機能の主な考慮事項とトレードオフを示します。

ユースケース 1 ユースケース 2 ユースケース 3
SageMaker 機能 JumpStart Studio で を使用して、基礎モデルのデプロイを高速化します。 ModelBuilder SageMaker Python から を使用してモデルをSDKデプロイします。 を使用してモデルを大規模にデプロイして管理する AWS CloudFormation.
説明 Studio UI を使用して、事前にトレーニングされたモデルをカタログから事前設定された推論エンドポイントにデプロイします。このオプションは、市民データサイエンティストや、複雑な設定を行わずにモデルをデプロイしたい人に最適です。 Amazon SageMaker Python の ModelBuilder クラスSDKを使用して、独自のモデルをデプロイし、デプロイ設定を構成します。このオプションは、経験豊富なデータサイエンティストや、独自のモデルを使用してデプロイし、きめ細かな制御を必要とするユーザーに最適です。 使用アイテム AWS CloudFormation モデルをデプロイおよび管理 SageMakerするためのプログラムによる制御と自動化のための Infrastructure as Code (IaC) と 。このオプションは、一貫性のある反復可能なデプロイを必要とする上級ユーザーに最適です。
に最適化 一般的なオープンソースモデルの迅速かつ効率的なデプロイ 独自のモデルのデプロイ 本番環境でのモデルの継続的な管理
考慮事項 コンテナ設定と特定のアプリケーションのニーズをカスタマイズできない UI なし。Python コードの開発と保守に慣れている必要がある インフラストラクチャ管理と組織リソースが必要で、 AWS SDK for Python (Boto3) または と AWS CloudFormation テンプレート。
推奨環境 SageMaker ドメイン で設定された Python 開発環境 AWS 認証情報とSDKインストールされた SageMaker Python、または SageMaker IDEなどの SageMaker JupyterLab - AWS CLI、ローカル開発環境、Infrastructure as Code (IaC ) および CI/CD ツール

追加のオプション

SageMaker では、推論のユースケースにさまざまなオプションが用意されているため、デプロイの技術的な幅と深さを選択できます。

  • エンドポイントへのモデルのデプロイ。モデルをデプロイするときは、次のオプションを検討してください。

    • リアルタイム推論。 リアルタイム推論は、インタラクティブで低レイテンシーの要件がある推論ワークロードに最適です。

    • Amazon SageMaker Serverless Inference を使用したモデルのデプロイ。 Serverless Inference を使用すると、基盤となるインフラストラクチャを設定または管理することなく、モデルをデプロイできます。このオプションは、トラフィックスパート間にアイドル期間があり、コールドスタートを許容できるワークロードに最適です。

    • 非同期推論。 は受信リクエストをキューに入れ、非同期的に処理します。このオプションは、大きなペイロードサイズ (最大 1GB長い処理時間 (最大推論 1 toAsynchronous 時間)、ほぼリアルタイムのレイテンシー要件のリクエストに最適です。

  • コスト最適化。推論コストを最適化するには、次のオプションを検討してください。

    • Neo を使用してモデルのパフォーマンスを最適化する。 SageMaker Neo を使用して、機械学習モデルをパフォーマンスと効率を向上させて最適化して実行し、 などの環境で実行するようにモデルを自動的に最適化することで、コンピューティングコストを最小限に抑えることができます。 AWS Inferentia チップ。

    • Amazon SageMaker モデルを自動的にスケーリングする。 自動スケーリングを使用して、受信トラフィックパターンに基づいてエンドポイントのコンピューティングリソースを動的に調整します。これにより、特定の時間に使用しているリソースに対してのみ料金を支払うことでコストを最適化できます。