Amazon Bedrock での推論の仕組み

モデルに入力を送信すると、モデルは次のトークンのシーケンスを予測し、そのシーケンスを出力として返します。Amazon Bedrock は、選択した基盤モデルで推論を実行する機能を提供します。推論を実行する場合は、次の入力を提供します。

プロンプト — レスポンスを生成するためにモデルに提供される入力。プロンプトの書き方については、「プロンプトエンジニアリングの概念」を参照してください。プロンプトインジェクション攻撃の対策については、「プロンプトインジェクションのセキュリティ」を参照してください。
モデル – 推論の実行に使用する基盤モデルまたは推論プロファイル。選択したモデルまたは推論プロファイルによって、スループットのレベルも指定されます。つまり、処理できる入出力トークンの数とレートが定義されます。Amazon Bedrock で使用できる基盤モデルの詳細については、「Amazon Bedrock 基盤モデルの情報」を参照してください。推論プロファイルの詳細については、「推論プロファイルを使用してモデル呼び出しリソースを設定する」を参照してください。スループットの向上の詳細については、クロスリージョン推論によるスループットの向上「」および「」を参照してくださいAmazon Bedrock のプロビジョンドスループットでモデル呼び出し容量を増やす。
推論パラメータ — モデルレスポンスを制限したり影響を与えたりするように調整できる値のセット。推論パラメータの詳細については、「推論パラメータでレスポンスの生成に影響を与える」および「Inference request parameters and response fields for foundation models」を参照してください。

異なる AWS リージョンでモデルを呼び出す

モデルを呼び出すときは、そのモデルを呼び出す AWS リージョンを選択します。実行できるリクエストの頻度とサイズのクォータは、リージョンによって異なります。これらのクォータは、Amazon Bedrock サービスクォータで次のクォータを検索することで確認できます。

${Model} のオンデマンドモデル推論リクエスト/分
${Model} のオンデマンド InvokeModel トークン/分

基盤モデル自体の代わりに推論プロファイルを呼び出すこともできます。推論プロファイルは、モデルと、推論プロファイルがモデル呼び出しリクエストをルーティングできる 1 つ以上のリージョンを定義します。複数のリージョンを含む推論プロファイルを呼び出すことで、スループットを向上させることができます。詳細については、「クロスリージョン推論によるスループットの向上」を参照してください。推論プロファイルで実行できるリクエストの頻度とサイズのクォータを確認するには、Amazon Bedrock サービスクォータで次のクォータを検索します。

${Model} のクロスリージョン InvokeModel リクエスト/分
${Model} のクロスリージョン InvokeModel トークン/分
${Model} のグローバルクロスリージョン InvokeModel リクエスト/分
${Model} のグローバルクロスリージョン InvokeModel トークン/分

リージョンに対するリクエストは、同じ親リージョンを共有するローカルゾーンから処理できます。例えば、米国東部 (バージニア北部) (us-east-1) に対するリクエストは、米国アトランタ (us-east-1-atl-2a) など、それに関連付けられた任意のローカルゾーンから処理される場合があります。

クロスリージョン推論を使用する場合も同じ原則が適用されます。たとえば、米国AnthropicClaude 3 Haiku推論プロファイルに対するリクエストは、米国シアトル (us-west-2-sea-1a) など、親リージョンが米国にある任意のローカルゾーンで処理できます。新しいローカルゾーンがに追加されると AWS、対応するクロスリージョン推論エンドポイントにも追加されます。

ローカルエンドポイントとそれらが関連付けられている親リージョンのリストを確認するには、AWS 「Local Zones Locations」を参照してください。

Amazon Bedrock でクロスリージョン推論プロファイルを呼び出すと、リクエストはソースリージョンから送信され、そのプロファイルで定義された送信先リージョンのいずれかに自動的にルーティングされ、パフォーマンスが最適化されます。グローバルクロスリージョン推論プロファイルの送信先リージョンには、すべての商用リージョンが含まれます。

リクエストを処理できる商用リージョン AWS が追加されると、特定のモデルのグローバルクロスリージョン推論プロファイルは時間の経過とともに変化する可能性があります。ただし、推論プロファイルが地域 (米国、欧州、APAC など) に関連付けられている場合、その送信先リージョンリストは変更されません。は、新しいリージョンを組み込む新しい推論プロファイルを作成する AWS 可能性があります。セットアップの IDs を新しい ID に変更することで、これらの推論プロファイルを使用するようにシステムを更新できます。

注記

クロスリージョン推論プロファイルの送信先リージョンには、オプトインリージョンを含めることができます。オプトインリージョンは、 AWS アカウントまたは組織レベルで明示的に有効にする必要があるリージョンです。詳細については、アカウントの「有効または無効にする AWS リージョン」を参照してください。クロスリージョン推論プロファイルを使用する場合、アカウントのそのようなリージョンにオプトインしていない場合でも、推論リクエストをプロファイル内の任意の送信先リージョンにルーティングできます。

サービスコントロールポリシー (SCPs) と AWS Identity and Access Management (IAM) ポリシーは連携して、クロスリージョン推論が許可される場所を制御します。SCPs を使用すると、Amazon Bedrock が推論に使用できるリージョンを制御でき、IAM ポリシーを使用すると、推論を実行するアクセス許可を持つユーザーまたはロールを定義できます。クロスリージョン推論プロファイルの送信先リージョンが SCPs でブロックされている場合、他のリージョンが許可されたままであってもリクエストは失敗します。クロスリージョン推論による効率的なオペレーションを確保するために、SCPs と IAM ポリシーを更新して、選択した推論プロファイルに含まれるすべての送信先リージョンで必要なすべての Amazon Bedrock 推論アクション ( bedrock:InvokeModel*やなどbedrock:CreateModelInvocationJob) を許可できます。詳細については、「マルチアカウント環境での Amazon Bedrock クロスリージョン推論のhttps://aws.amazon.com/blogs/machine-learning/enable-amazon-bedrock-cross-region-inference-in-multi-account-environments/有効化」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

推論: レスポンスを生成する

推論パラメータでレスポンスの生成に影響を与える