グローバルクロスリージョン推論 - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

グローバルクロスリージョン推論

グローバルクロスリージョン推論は、クロスリージョン推論を地理的境界を超えて拡張し、サポートされている AWS リージョン 世界中の商用 への推論リクエストのルーティングを可能にし、利用可能なリソースを最適化し、モデルスループットを向上させます。

グローバルクロスリージョン推論の利点

Anthropic の Claude Sonnet 4.5 のグローバルクロスリージョン推論は、従来の地理的クロスリージョン推論プロファイルよりも複数の利点を提供します。

  • ピーク需要時のスループットの向上 – グローバルクロスリージョン推論は、利用可能な容量 AWS リージョン を持つ にリクエストを自動的にルーティングすることで、ピーク需要の期間中の耐障害性を向上させます。この動的ルーティングは、開発者による追加の設定や介入なしにシームレスに行われます。間で複雑なクライアント側の負荷分散を必要とする従来のアプローチとは異なり AWS リージョン、グローバルクロスリージョン推論はトラフィックの急増を自動的に処理します。これは、ダウンタイムやパフォーマンスの低下が財務や評判に大きな影響を与える可能性があるビジネスクリティカルなアプリケーションにとって特に重要です。

  • コスト効率 – Anthropic の Claude Sonnet 4.5 のグローバルクロスリージョン推論では、地理的クロスリージョン推論と比較して、入力トークンと出力トークンの両方の料金が約 10% 削減されます。料金は、リクエスト AWS リージョン 元の (ソース) に基づいて計算されます AWS リージョン。つまり、組織はより低コストで回復力を向上させることができます。この料金モデルにより、グローバルクロスリージョン推論は、生成 AI デプロイの最適化を検討している組織にとって費用対効果の高いソリューションになります。リソース使用率を向上させ、追加コストなしでより高いスループットを実現することで、組織は Amazon Bedrock への投資の価値を最大化できます。

  • モニタリングの合理化 – グローバルクロスリージョン推論を使用する場合、CloudWatch と CloudTrail は引き続きソースにログエントリを記録し AWS リージョン、オブザーバビリティと管理を簡素化します。リクエストは AWS リージョン 世界各地で処理されますが、使い慣れた AWS モニタリングツールを通じて、アプリケーションのパフォーマンスと使用パターンを一元的に把握できます。

  • オンデマンドクォータの柔軟性 – グローバルクロスリージョン推論では、ワークロードが個々のリージョン容量に制限されなくなりました。特定の で使用可能な容量に制限される代わりに AWS リージョン、リクエストを AWS グローバルインフラストラクチャ全体に動的にルーティングできます。これにより、はるかに大きなリソースプールにアクセスできるため、大量のワークロードや突然のトラフィックスパイクを処理する複雑さが軽減されます。

グローバルクロスリージョン推論に関する考慮事項

グローバルクロスリージョン推論に関する次の情報に注意してください。

  • グローバルクロスリージョン推論プロファイルは、特定の地域に関連付けられた推論プロファイルよりも高いスループットを提供します。特定の地域に関連付けられた推論プロファイルは、単一リージョンの推論よりも高いスループットを提供します。

  • グローバル推論プロファイルを使用する場合のクロスリージョンスループットのデフォルトのクォータを確認するには、「AWS 全般のリファレンス」の「Amazon Bedrock サービスクォータ」で「${Model} のグローバルクロスリージョンモデル推論リクエスト/分」と「${Model} のグローバルクロスリージョンモデル推論トークン/分」の値を参照してください。

    Service Quotas コンソールから、またはソースリージョンで AWS CLI コマンドを使用して、グローバルクロスリージョン推論プロファイルのクォータをリクエスト、表示、管理できます。

グローバルクロスリージョン推論の IAM ポリシー要件

ユーザーに対してグローバルクロスリージョン推論を有効にするには、ロールに 3 つの IAM ポリシーを適用する必要があります。以下は、きめ細かな制御を提供する IAM ポリシーの例です。サンプルポリシー<REQUESTING REGION>の を、運用 AWS リージョン している に置き換えることができます。

{ "Version": "2012-10-17" , "Statement": [ { "Sid": "GrantGlobalCrisInferenceProfileRegionAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "<REQUESTING REGION>" } } }, { "Sid": "GrantGlobalCrisInferenceProfileInRegionModelAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:<REQUESTING REGION>::foundation-model/<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "<REQUESTING REGION>", "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" } } }, { "Sid": "GrantGlobalCrisInferenceProfileGlobalModelAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:::foundation-model/<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "unspecified", "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" } } } ] }

ポリシーの最初の部分では、 リクエストのリージョン推論プロファイルへのアクセスを許可します AWS リージョン。2 番目のパートでは、リージョン FM リソースへのアクセスを提供します。3 番目のパートでは、クロスリージョンルーティング機能を有効にするグローバル FM リソースへのアクセスを許可します。

これらのポリシーを実装するときは、3 つのリソース Amazon リソースネーム (ARNs) がすべて IAM ステートメントに含まれていることを確認してください。

  • リージョン推論プロファイル ARN はパターン に従いますarn:aws:bedrock:REGION:ACCOUNT:inference-profile/global.MODEL-NAME。これは、ソース のグローバル推論プロファイルへのアクセスを許可するために使用されます AWS リージョン。

  • リージョン FM は を使用しますarn:aws:bedrock:REGION::foundation-model/MODEL-NAME。これは、ソースの FM へのアクセスを許可するために使用されます AWS リージョン。

  • グローバル FM には が必要ですarn:aws:bedrock:::foundation-model/MODEL-NAME。これは、さまざまなグローバルの FM へのアクセスを許可するために使用されます AWS リージョン。

グローバル FM ARN には、 AWS リージョン または アカウントが指定されていません。これは意図的で、クロスリージョン機能に必要です。

グローバルクロスリージョン推論を無効にする

2 つの主要なアプローチから選択して、特定の IAM ロールのグローバル CRIS に拒否ポリシーを実装できます。それぞれのユースケースと影響は異なります。

  • IAM ポリシーの削除 – 最初の方法では、ユーザーアクセス許可から 3 つの必要な IAM ポリシーのうち 1 つ以上を削除します。グローバル CRIS では 3 つのポリシーすべてが機能する必要があるため、ポリシーを削除するとアクセスが拒否されます。

  • 拒否ポリシーの実装 – 2 番目のアプローチは、グローバル CRIS 推論プロファイルを特にターゲットとする明示的な拒否ポリシーを実装することです。この方法では、セキュリティインテントを明確に文書化し、後で誰かが必要な許可ポリシーを誤って追加した場合でも、明示的な拒否が優先されます。拒否ポリシーは、パターン に一致するStringEquals条件を使用する必要があります"aws:RequestedRegion": "unspecified"。このパターンは、特に global プレフィックスを持つ推論プロファイルを対象としています。

拒否ポリシーを実装するときは、グローバル CRIS がaws:RequestedRegionフィールドの動作を変更することを理解することが重要です。などの特定の AWS リージョン 名前StringEqualsの条件を使用する従来の AWS リージョンベースの拒否ポリシー"aws:RequestedRegion": "us-west-2"は、グローバル CRIS では期待どおりに機能しません。これは、サービスが実際の送信先globalではなくこのフィールドを に設定するためです AWS リージョン。ただし、前述のように、 "aws:RequestedRegion": "unspecified" は拒否効果をもたらします。

グローバルクロスリージョン推論のサービスコントロールポリシーの要件

グローバルクロスリージョン推論の場合、組織のセキュリティポリシーで SCPs を使用して未使用のリージョンをブロックする場合は、リージョン固有の SCP 条件を更新して、 によるアクセスを許可する必要があります"aws:RequestedRegion": "unspecified"。この条件は Amazon Bedrock Global クロスリージョン推論に固有であり、サポートされているすべての AWS 商用リージョンにリクエストをルーティングできます。

次の SCP の例では、 をグローバルルーティングのリージョン"unspecified"として使用する Amazon Bedrock Global Cross-Region Inference コールを許可しながら、承認されたリージョン外のすべての AWS API コールをブロックします。

{ "Version": "2012-10-17" , "Statement": [ { "Sid": "DenyAllOutsideApprovedRegions", "Effect": "Deny", "Action": "*", "Resource": "*", "Condition": { "StringNotEquals": { "aws:RequestedRegion": [ "us-east-1", "us-east-2", "us-west-2", "unspecified" ] } } } ] }

グローバルクロスリージョン推論を無効にする

データレジデンシーまたはコンプライアンス要件を持つ組織は、リクエストがサポートされている他の AWS 商用リージョンで処理される可能性があるため、グローバルクロスリージョン推論がコンプライアンスフレームワークに適合するかどうかを評価する必要があります。グローバルクロスリージョン推論を明示的に無効にするには、次の SCP ポリシーを実装します。

{ "Effect": "Deny", "Action": "bedrock:*", "Resource": "*", "Condition": { "StringEquals": { "aws:RequestedRegion": "unspecified" }, "ArnLike": { "bedrock:InferenceProfileArn": "arn:aws:bedrock:*:*:inference-profile/global.*" } } }

この SCP はグローバルクロスリージョン推論を明示的に拒否します。これは、 "aws:RequestedRegion""unspecified"であり、"ArnLike"条件が ARN の global プレフィックスを持つ推論プロファイルをターゲットにしているためです。

AWS Control Tower の実装

AWS Control Tower が管理する SCPs を手動で編集することは、ドリフトを引き起こす可能性があるため、強くお勧めしません。代わりに、Control Tower が提供するメカニズムを使用してこれらの例外を管理します。コア原則には、既存のリージョン拒否コントロールを拡張するか、リージョンを有効にしてから、カスタムの条件付きブロッキングポリシーを適用することが含まれます。

Control Tower を使用したクロスリージョン推論の実装に関する詳細なstep-by-stepについては、ブログ記事「マルチアカウント環境で Amazon Bedrock クロスリージョン推論を有効にする」を参照してください。これには、既存のリージョン拒否 SCPs を拡張し、カスタム SCPs で拒否されたリージョンを有効にし、Customizations for AWS Control Tower (CfCT) を使用してカスタム SCPs としてデプロイすることが含まれます。

グローバルクロスリージョン推論のリクエスト制限の引き上げ

グローバル CRIS 推論プロファイルを使用する場合、20 を超えるサポートされているソースからグローバル CRIS を使用できます AWS リージョン。これはグローバル制限であるため、グローバルクロスリージョン推論プロファイルの表示、管理、またはクォータの引き上げのリクエストは、リクエストされたソースの Service Quotas コンソールまたはコマンドラインインターフェイス (AWS CLI) AWS を使用して行う必要があります AWS リージョン。

制限の引き上げをリクエストするには、次の手順を実行します。

  1. AWS アカウントの Service Quotas コンソールにサインインします。

  2. ナビゲーションペインで、AWS [サービス] を選択します。

  3. サービスのリストから、Amazon Bedrock を見つけて選択します。

  4. Amazon Bedrock のクォータのリストで、検索フィルターを使用して特定のグローバル CRIS クォータを見つけます。例えば、次のようになります。

    • Anthropic Claude Sonnet 4.5 V1 のグローバルクロスリージョンモデル推論トークン/分

  5. 引き上げたいクォータを選択します。

  6. [アカウントレベルでの引き上げをリクエスト] をクリックします。

  7. 目的の新しいクォータ値を入力します。

  8. [Request] (リクエスト) を選択して、リクエストを送信します。

必要なクォータの引き上げを計算するときは、バーンダウン率を考慮してください。バーンダウン率は、入力トークンと出力トークンがスロットリングシステムのトークンクォータ使用量に変換されるレートとして定義されます。次のモデルでは、出力トークンのバーンダウン率が 5 倍です (1 つの出力トークンがクォータから 5 つのトークンを消費します)

  • Anthropic Claude Opus 4

  • Anthropic Claude Sonnet 4.5

  • Anthropic Claude Sonnet 4

  • Anthropic Claude 3.7 Sonnet

他のすべてのモデルの場合、バーンダウンレートは 1:1 になります (1 つの出力トークンはクォータから 1 つのトークンを消費します)。入力トークンの場合、トークンとクォータの比率は 1:1 です。リクエストあたりのトークンの合計数の計算は次のとおりです。

Input token count + Cache write input tokens + (Output token count x Burndown rate)

グローバルクロスリージョン推論を使用する

Anthropic の Claude Sonnet 4.5 でグローバルクロスリージョン推論を使用するには、デベロッパーが以下の重要なステップを完了する必要があります。

  • グローバル推論プロファイル ID を使用する – Amazon Bedrock を API コールするときは、 AWS リージョン特定のモデル ID ではなく、グローバル Anthropic の Claude Sonnet 4.5 推論プロファイル ID (global.anthropic.claude-sonnet-4-5-20250929-v1:0) を指定します。

  • IAM アクセス許可の設定 – 潜在的な送信先で推論プロファイルと FMs にアクセスするための適切な IAM アクセス許可を付与します AWS リージョン。

グローバルクロスリージョン推論は、以下に対してサポートされています。

  • オンデマンドモデル推論

  • バッチ推論

  • [エージェント]  

  • モデル評価

  • プロンプト管理

  • プロンプトフロー

注記

グローバル推論プロファイルは、オンデマンドモデル推論、バッチ推論、エージェント、モデル評価、プロンプト管理、プロンプトフローでサポートされています。

グローバルクロスリージョン推論を実装する

Anthropic の Claude Sonnet 4.5 を使用したグローバルクロスリージョン推論の実装は簡単で、既存のアプリケーションコードにわずかな変更を加えるだけで済みます。以下は、Python でコードを更新する方法の例です。

import boto3 import json bedrock = boto3.client('bedrock-runtime', region_name='us-east-1') model_id = "global.anthropic.claude-sonnet-4-5-20250929-v1:0" response = bedrock.converse( messages=[{"role": "user", "content": [{"text": "Explain cloud computing in 2 sentences."}]}], modelId=model_id, ) print("Response:", response['output']['message']['content'][0]['text']) print("Token usage:", response['usage']) print("Total tokens:", response['usage']['totalTokens'])