使用跨區域推論增加輸送量

使用跨區域推論，您可以選擇與特定地理位置（例如美國或歐洲）繫結的跨區域推論設定檔，也可以選擇全域推論設定檔。當您選擇與特定地理繫結的推論設定檔時，Amazon Bedrock 會自動選取該地理 AWS 區域內的最佳商業，以處理您的推論請求。使用全域推論設定檔，Amazon Bedrock 會自動選取最佳商業 AWS 區域廣告來處理請求，進而最佳化可用資源並提高模型輸送量。

在隨需模式下執行模型推論時，您的請求可能會受到服務配額或尖峰使用時間的限制。跨區域推論可讓您利用不同的運算，順暢地管理意外流量暴增 AWS 區域。透過跨區域推論，您可以跨多個區域分配流量 AWS 區域，從而實現更高的輸送量。

您也可以購買佈建輸送量來增加模型的輸送量。推論設定檔目前不支援佈建輸送量。

若要查看您可以使用推論設定檔來執行跨區域推論的區域和模型，請參閱推論描述檔支援的區域和模型。

跨區域（系統定義）推論描述檔是以其支援的模型命名，並由其支援的區域定義。若要了解跨區域推論描述檔如何處理您的請求，請檢閱下列定義：

來源區域 – 您從中發出指定推論設定檔之 API 請求的區域。
目的地區域 – Amazon Bedrock 服務可以從來源區域路由請求的區域。

當您在 Amazon Bedrock 中調用跨區域推論設定檔時，您的請求來自來源區域，並會自動路由到該設定檔中定義的其中一個目的地區域，以最佳化效能。全域跨區域推論設定檔的目的地區域包含所有商業區域。

注意

跨區域推論設定檔中的目的地區域可以包含選擇加入區域，這是您必須在 AWS 帳戶或組織層級明確啟用的區域。若要進一步了解，請參閱AWS 區域在您的帳戶中啟用或停用。使用跨區域推論設定檔時，您的推論請求可以路由到設定檔中的任何目的地區域，即使您未選擇加入帳戶中的此類區域。

服務控制政策 SCPs) 和 AWS Identity and Access Management (IAM) 政策共同運作，以控制允許跨區域推論的位置。使用 SCPs，您可以控制 Amazon Bedrock 可以使用哪些區域進行推論，並使用 IAM 政策來定義哪些使用者或角色具有執行推論的許可。如果跨區域推論設定檔中的任何目的地區域在 SCPs 中遭到封鎖，即使其他區域仍然允許，請求也會失敗。為了確保使用跨區域推論進行有效率的操作，您可以更新 SCPs 和 IAM 政策，以允許在所選推論設定檔中包含的所有目的地區域中執行所有必要的 Amazon Bedrock 推論動作（例如 bedrock:InvokeModel*或 bedrock:CreateModelInvocationJob)。若要進一步了解，請參閱在多帳戶環境中啟用 Amazon Bedrock 跨區域推論。

注意

有些推論設定檔會根據您呼叫它的來源區域，路由到不同的目的地區域。例如，如果您us.anthropic.claude-3-haiku-20240307-v1:0從美國東部（俄亥俄）呼叫 us-east-2，它可以將請求路由到 us-east-1、或 us-west-2，但如果您從美國西部（奧勒岡）呼叫請求，它只能將請求路由到 us-east-1和 us-west-2。

若要檢查來源和目的地區域的推論設定檔，您可以執行下列其中一項操作：

在支援的跨區域推論設定檔清單中展開對應的區段。
從來源區域傳送具有 Amazon Bedrock 控制平面端點的 GetInferenceProfile 請求，並在 inferenceProfileIdentifier 欄位中指定推論設定檔的 Amazon Resource Name (ARN) 或 ID。回應中的 models 欄位會映射至模型 ARNs 清單，您可以在其中識別每個目的地區域。

注意

特定模型的全域跨區域推論設定檔可能會隨著時間而變更，因為 AWS 會新增更多可處理您的請求的商業區域。不過，如果推論設定檔與地理位置（例如美國、歐洲或亞太地區）繫結，則其目的地區域清單永遠不會變更。 AWS 可能會建立新的推論設定檔，其中包含新的區域。您可以更新系統以使用這些推論設定檔，方法是將設定中的 IDs變更為新的 ID。

全球跨區域推論描述檔目前僅支援下列來源區域的AnthropicClaude Sonnet 4模型：美國西部（奧勒岡）、美國東部（維吉尼亞北部）、美國東部（俄亥俄）、歐洲（愛爾蘭）和亞太區域（東京）。全域推論設定檔的目的地區域包含所有商業 AWS 區域。

請注意下列有關跨區域推論的資訊：

使用跨區域推論無需額外的路由成本。價格是根據您從中呼叫推論設定檔的區域來計算。如需定價的相關資訊，請參閱 Amazon Bedrock 定價。
全域跨區域推論描述檔的輸送量高於與特定地理位置繫結的推論描述檔。與特定地理位置繫結的推論設定檔可提供比單一區域推論更高的輸送量。
若要在使用與地理位置（例如美國、歐洲和亞太區）繫結的推論設定檔時查看跨區域輸送量的預設配額，請參閱《 AWS 一般參考》中 ${Model} 的每分鐘跨區域模型推論請求，以及 Amazon Bedrock 服務配額中 ${Model} 值的每分鐘跨區域模型推論字符。
若要在使用全域推論設定檔時查看跨區域輸送量的預設配額，請參閱《 AWS 一般參考》中 ${Model} 的每分鐘全域跨區域模型推論請求，以及 Amazon Bedrock 服務配額中 ${Model} 值的每分鐘全域跨區域模型推論字符。

您可以從 Service Quotas 主控台或使用美國東部（維吉尼亞北部） 區域中的 AWS CLI 命令，請求、檢視和管理全域跨區域推論設定檔的配額。請注意，針對全域推論設定檔中列出的其他來源區域，全域跨區域推論配額不會出現在 Service Quotas 主控台或 AWS CLI 中。
跨區域推論請求與地理（例如美國、歐洲和亞太區）繫結的推論描述檔，會保留在 AWS 區域原始資料所在地理的內。例如，在美國提出的請求會保留 AWS 區域在美國的內。雖然資料只會存放在來源區域中，但您的輸入提示和輸出結果可能會在跨區域推論期間移動到來源區域之外。所有資料都會透過 Amazon 的安全網路進行加密傳輸。
AWS 由 Amazon Bedrock 提供支援的服務也可能使用 CRIS。如需詳細資訊，請參閱服務特定文件。

使用跨區域（系統定義）推論描述檔

若要使用跨區域推論，請在執行模型推論時以下列方式包含推論描述檔：

隨需模型推論 – 在傳送 InvokeModel、InvokeModelWithResponseStream、Converse 或 ConverseStream 請求modelId時，將推論設定檔的 ID 指定為。推論描述檔會定義一或多個區域，其可將來自來源區域的推論請求路由至這些區域。使用跨區域推論可透過在推論描述檔中定義的區域中動態路由模型調用請求來提高輸送量和效能。使用者流量、需求和資源使用率的路由因素。如需詳細資訊，請參閱提交提示並使用模型推論產生回應
批次推論 – 在傳送 CreateModelInvocationJob 請求modelId時，將推論描述檔的 ID 指定為，以批次推論非同步方式提交請求。使用推論設定檔可讓您跨多個使用運算 AWS 區域，並加快批次任務的處理時間。任務完成後，您可以從來源區域中的 Amazon S3 儲存貯體擷取輸出檔案。
客服人員 – 在CreateAgent請求的 foundationModel 欄位中指定推論設定檔的 ID。如需詳細資訊，請參閱手動建立和設定代理程式。
產生知識庫回應 – 您可以在查詢知識庫之後產生回應時使用跨區域推論。如需詳細資訊，請參閱使用查詢和回應測試您的知識庫。
模型評估 – 您可以提交推論描述檔做為模型，以在提交模型評估任務時進行評估。如需詳細資訊，請參閱評估 Amazon Bedrock 資源的效能。
提示管理 – 您可以在為在提示管理中建立的提示產生回應時使用跨區域推論。如需詳細資訊，請參閱在 Amazon Bedrock 中使用提示管理來建構和儲存可重複使用的提示
提示流程 – 您可以在為提示產生回應時使用跨區域推論，以便在提示流程中的提示節點中內嵌定義提示。如需詳細資訊，請參閱使用 end-to-end生成式 AI 工作流程。

注意

隨需模型推論、批次推論、客服人員、模型評估、提示管理和提示流程支援全域推論描述檔。

若要了解如何使用推論設定檔跨區域傳送模型調用請求，請參閱在模型調用中使用推論描述檔。

若要進一步了解跨區域推論，請參閱 Amazon Bedrock 中的跨區域推論入門。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

處理使用案例

佈建輸送量：增加模型輸送量

使用跨區域推論增加輸送量

注意

注意

注意

使用跨區域 （系統定義） 推論描述檔

注意

使用跨區域（系統定義）推論描述檔