翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
サーバーレス推論
アマゾン SageMaker サーバーレス推論は、ML モデルのデプロイとスケーリングを容易にする専用の推論オプションです。サーバーレス推論は、トラフィックのスパート間にアイドル期間があり、コールドスタートを許容できるワークロードに最適です。サーバーレスエンドポイントは、コンピューティングリソースを自動的に起動し、トラフィックに応じてスケールインおよびスケールアウトできるため、インスタンスタイプを選択したり、スケーリングポリシーを管理したりする必要がなくなります。これにより、サーバーを選択し管理する画一的な負荷の大きい作業から解放されます。サーバーレス推論は AWS Lambda と統合され、高可用性、組み込みの耐障害性、オートスケーリングを提供します。
と pay-per-use モデルでは、サーバーレス推論は、頻度の低いまたは予測不可能なトラフィックパターンがある場合、費用対効果の高いオプションです。リクエストがない間、サーバーレス推論はエンドポイントを 0 にスケールダウンし、コストを最小限に抑えます。サーバーレス推論の料金の詳細については、「」を参照してください。アマゾン SageMaker 料金
Serverless Inference を MLOps Pipeline と統合して ML ワークフローを効率化できます。また、サーバーレスエンドポイントを使用して、に登録されたモデルをホストできます。モデルレジストリ。
サーバーレス推論はすべてで一般的に利用可能ですAWS使用していただきたいと考えています。 SageMaker 利用可能 (以外AWS中国リージョン)。Amazon の詳細については SageMaker 地域別の販売状況については、AWS地域サービスリスト
使用方法
次の図表は、サーバーレス推論のワークフローと、サーバーレスエンドポイントを使用する利点を示しています。

サーバーレスエンドポイントを作成すると SageMaker コンピューティングリソースをプロビジョニングおよび管理します。次に、エンドポイントに推論リクエストを行い、レスポンスでモデル予測を受け取ることができます。 SageMaker は、リクエストトラフィックを処理するために必要に応じてコンピューティングリソースをスケールアップおよびスケールダウンし、使用した分だけ料金が発生します。
次のセクションでは、サーバーレス推論とその仕組みに関する追加の詳細について説明します。
コンテナのサポート
エンドポイントコンテナの場合、次のいずれかを選択できます。 SageMaker-コンテナを用意するか、ご自身でご持参ください。 SageMaker Apache MXNet など、いくつかの最も一般的な機械学習フレームワーク用に、組み込みアルゴリズムおよび構築済みの Docker イメージ用のコンテナを提供しています。 TensorFlow, PyTorch、そしてチェイナー。利用可能なリストについては SageMaker 画像、見る利用可能なDeep Learning Containers メージ
使用できるコンテナイメージのサイズは最大 10 GB です。サーバーレスエンドポイントの場合、コンテナ内にワーカーを 1 つだけ作成し、モデルのコピーを 1 つだけロードすることをお勧めします。ただし、これはリアルタイムエンドポイントとは異なる点に注意してください。 SageMaker コンテナは、推論リクエストを処理して各ワーカーにモデルをロードするために vCPU ごとにワーカーを作成するワーカーを作成できます。
リアルタイムエンドポイント用のコンテナが既にある場合は、サーバーレスエンドポイントに同じコンテナを使用できますが、一部の機能は除外されます。サーバーレス推論でサポートされていないコンテナ機能の詳細については、「機能の除外」を参照してください。同じコンテナを使用することを選択した場合、 SageMaker イメージを使用するすべてのエンドポイントを削除するまで、コンテナイメージのコピーをエスクロー (保持) します。 SageMaker コピーされた保存時のイメージを SageMakerが所有するAWS KMSキー。
メモリサイズ
サーバーレスエンドポイントの最小 RAM サイズは 1024 MB (1 GB) で、選択できる最大 RAM サイズは 6144 MB (6 GB) です。選択できるメモリサイズは、1024 MB、2048 MB、3072 MB、4096 MB、5120 MB、6144 MBです。サーバーレス推論は、選択したメモリに比例してコンピューティングリソースを自動的に割り当てます。より大きなメモリサイズを選択すると、コンテナはより多くの vCPUs にアクセスできます。モデルサイズに応じて、エンドポイントのメモリサイズを選択します。一般に、メモリサイズは少なくともモデルサイズと同じ大きさである必要があります。レイテンシー SLA に基づいてモデルに適したメモリを選択するために、ベンチマークが必要になる場合があります。メモリサイズの増分には、異なる料金体系があります。アマゾン SageMaker価格設定ページ
選択したメモリサイズに関係なく、サーバーレスエンドポイントには 5 GB の一時ディスクストレージがあります。ストレージを操作するときのコンテナ許可の問題については、「トラブルシューティング」を参照してください。
同時呼び出し
サーバーレス推論は、エンドポイントの容量に関する事前定義されたスケーリングポリシーとクォータを管理します。サーバーレスエンドポイントには、同時に処理できる同時呼び出しの数に対するクォータがあります。最初のリクエストの処理が完了する前にエンドポイントが呼び出されると、2 番目のリクエストを同時に処理します。米国東部 (オハイオ)、米国東部 (バージニア北部)、米国西部 (オレゴン)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、o欧州 (フランクフルト)、欧州 (アイルランド) リージョンの場合、アカウントの 1 リージョンあたりの全サーバーレスエンドポイントで共有できる同時実行数の合計は 1000 です。米国西部 (北カリフォルニア)、アフリカ (ケープタウン)、アジアパシフィック (香港)、アジアパシフィック (ムンバイ)、アジアパシフィック (大阪)、アジアパシフィック (ソウル)、カナダ (中部)、欧州 (ロンドン)、欧州 (ミラノ)、欧州 (パリ)、欧州 (ストックホルム)、中東 (バーレーン)、南米 (サンパウロ) リージョンの場合、1 リージョンあたりの同時実行数の合計は 500 です。1 つのエンドポイントの最大同時実行数は最大 200 に設定でき、1 つのリージョンでホストできるサーバーレスエンドポイントの数は最大 50 です。個々のエンドポイントの最大同時実行数は、そのエンドポイントがアカウントで許可されているすべての呼び出しを取得することを防ぎ、最大値を超えるエンドポイント呼び出しを抑制します。
エンドポイントの最大同時実行数を設定する方法については、「エンドポイント設定を作成する」を参照してください。のクォータと制限事項の詳細については、「」を参照してください。アマゾン SageMaker エンドポイントとクォータ()AWS全般のリファレンス。サービス制限の引き上げをリクエストするには、AWSSupport
コールドスタート
エンドポイントがしばらくトラフィックを受信せず、エンドポイントが突然新しいリクエストを受信した場合、エンドポイントがコンピューティングリソースをスピンアップしてリクエストを処理するまでに時間がかかることがあります。これは、コールドスタートと呼ばれます。サーバーレスエンドポイントはオンデマンドでコンピューティングリソースをプロビジョニングするため、エンドポイントでコールドスタートが発生する可能性があります。コールドスタートは、同時リクエストが現在の同時リクエストの使用量を超えた場合にも発生する可能性があります。コールドスタート時間は、モデルのサイズ、モデルのダウンロードにかかる時間、コンテナの起動時間によって異なります。
コールドスタート時間の長さを監視するには、Amazonを使用できます。 CloudWatch メトリックModelSetupTime
サーバーレスエンドポイントをモニタリングします。このメトリクスは、エンドポイントの新しいコンピューティングリソースの起動にかかる時間を追跡します。使用方法の詳細については CloudWatch サーバーレスエンドポイントでのメトリック、「」を参照してください。サーバーレスエンドポイントをモニタリングする。
機能の除外
現在利用可能な機能の一部 SageMaker リアルタイム推論は GPU を含むサーバーレス推論ではサポートされていません。AWSマーケットプレイスモデルモニター、マルチモデルレジストリ、VPC 設定、ネットワーク分離、複数のプロダクションバリアント、モデルモニター、推論パイプライン。
インスタンスベースのリアルタイムエンドポイントをサーバーレスエンドポイントに変換することはできません。リアルタイムエンドポイントをサーバーレスに更新しようとすると、ValidationError
メッセージが表示されます。サーバーレスエンドポイントをリアルタイムに変換することはできますが、更新を行うと、サーバーレスにロールバックできません。
開始方法
サーバーレスエンドポイントは、 SageMaker コンソール、AWSSDK のアマゾン SageMaker Python SDK
ノートブックとブログの例
Jupyter ノートブックの例としては end-to-end サーバレスエンドポイントワークフロー、を参照してくださいサーバーレス推論のサンプルノートブック