翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
クロスリージョン推論によるレジリエンスの向上
オンデマンドモードでモデル推論を実行する場合、リクエストはサービスクォータまたはピーク使用時間によって制限される場合があります。クロスリージョン推論を使用すると、さまざまな でコンピューティングを活用することで、計画外のトラフィックバーストをシームレスに管理できます AWS リージョン。クロスリージョン推論を使用すると、複数の にトラフィックを分散できるため AWS リージョン、需要のピーク時に高いスループットと耐障害性を実現できます。
クロスリージョン推論を使用するには、モデル推論を実行するときに推論プロファイルを含め、InvokeModel、、変換InvokeModelWithResponseStream、または ConverseStreamリクエストを送信するmodelId
ときに推論プロファイルの ID を として指定します。推論プロファイルは、設定された からのリソースのオンデマンドプールを抽象化したものです AWS リージョン。推論プロファイルは、ソースリージョンから発信された推論リクエストを、プールで設定された別のリージョンにルーティングできます。クロスリージョン推論を使用すると、推論プロファイルで定義されたリージョン間でモデル呼び出しリクエストを動的にルーティングすることで、スループットが向上し、回復力が向上します。ユーザートラフィック、需要、リソースの使用率のルーティング要因。リクエストは、リクエスト元のリージョンで実行されます。
クロスリージョン推論は現在、次の機能で使用できます。
-
モデル推論 – Amazon Bedrock コンソールのプレイグラウンドを使用してモデル呼び出しを実行する場合、または InvokeModel、、InvokeModelWithResponseStreamConverse 、および ConverseStreamオペレーションを使用する場合、クロスリージョン推論を使用できます。詳細については、「モデル推論を使用してプロンプトを送信し、レスポンスを生成する」を参照してください。
-
ナレッジベースのレスポンス生成 – ナレッジベースのクエリ後にレスポンスを生成する場合や、データソース内の非テキスト情報を解析する場合に、クロスリージョン推論を使用できます。詳細については、「ナレッジベースをクエリして AI レスポンスを生成する」および「高度な解析オプション」を参照してください。
-
モデル評価 – モデル評価ジョブを送信するときに評価するモデルとして推論プロファイルを送信できます。詳細については、「Amazon Bedrock 評価を使用して最もパフォーマンスの高いモデルを選択する」を参照してください。
-
プロンプト管理 – プロンプト管理で作成したプロンプトのレスポンスを生成するときに、クロスリージョン推論を使用できます。詳細については、「Amazon Bedrock でプロンプト管理を使用して再利用可能なプロンプトを作成して保存する」を参照してください
-
プロンプトフロー – プロンプトフローのプロンプトノードでインラインに定義したプロンプトのレスポンスを生成するときに、クロスリージョン推論を使用できます。詳細については、「Amazon Bedrock Prompt フローを使用して生成 AI ワークフローを構築する end-to-end 」を参照してください。
プロビジョンドスループット を購入することで、モデルのスループットを向上させることもできます。推論プロファイルは現在、プロビジョンドスループットをサポートしていません。
クロスリージョン推論については、次の情報に注意してください。
-
クロスリージョン推論を使用する場合、追加のルーティングコストはかかりません。料金は、推論プロファイルを呼び出すリージョンに基づいて計算されます。料金の詳細については、「Amazon Bedrock の料金
」を参照してください。 -
クロスリージョン推論を使用する場合、スループットは、推論プロファイルがあるリージョンに割り当てられたクォータの最大 2 倍に達する可能性があります。スループットの増加は、推論プロファイルを介して実行される呼び出しにのみ適用されます。リージョン内のモデル呼び出しリクエストを選択した場合でも、通常のクォータが適用されます。例えば、米国を呼び出す場合 Anthropic Claude 3 Sonnet 米国東部 (バージニア北部) (us-east-1) の推論プロファイルでは、スループットは 1 分あたり最大 1,000 リクエスト、1 分あたり最大 2,000,000 トークンに達することができます。オンデマンドスループットのデフォルトのクォータを確認するには、 のランタイムクォータセクションを参照Amazon Bedrock のクォータするか、Service Quotas コンソールを使用します。
-
クロスリージョン推論リクエストは、使用された推論プロファイルの一部であるリージョン内に保持されます。例えば、EU 推論プロファイルを使用して行われたリクエストは、EU リージョン内に保持されます。
クロスリージョン推論の詳細については、「Amazon Bedrock でのクロスリージョン推論の開始方法