本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
透過跨區域推論改善復原能力
在隨需模式下執行模型推論時,您的請求可能會受到服務配額或尖峰使用時段的限制。跨區域推論可讓您跨不同 使用運算,無縫管理意外流量爆增 AWS 區域。透過跨區域推論,您可以在多個 之間分配流量 AWS 區域,從而在尖峰需求期間提高輸送量和增強彈性。
若要使用跨區域推論,您可以在執行模型推論時包含推論設定檔,方法是在傳送 InvokeModel、、InvokeModelWithResponseStreamConverse 或 ConverseStream 請求modelId
時,將推論設定檔的 ID 指定為 。推論設定檔是來自已設定 的隨需資源集區的抽象 AWS 區域。推論設定檔可以將源自來源區域的推論請求路由至集區中設定的另一個區域。使用跨區域推論可增加輸送量,並透過在推論描述檔中定義的區域動態路由模型調用請求來改善復原能力。使用者流量、需求和資源使用率的路由因素。請求會在其發起的區域中完成。
跨區域推論目前適用於下列功能:
-
模型推論 – 您可以使用 Amazon Bedrock 主控台中的遊樂場執行模型調用,或使用 InvokeModel、InvokeModelWithResponseStream、Converse 和 ConverseStream操作時,使用跨區域推論。如需詳細資訊,請參閱提交提示並使用模型推斷產生回應。
-
知識庫回應產生 – 您可以在查詢知識庫之後產生回應,或在資料來源中剖析非文字資訊時,使用跨區域推論。如需詳細資訊,請參閱 查詢知識庫並產生 AI 回應 和 進階剖析選項。
-
模型評估 – 您可以提交推論設定檔作為模型,以在提交模型評估任務時進行評估。如需詳細資訊,請參閱使用 Amazon Bedrock 評估選擇效能最佳的模型。
-
提示管理:您可以在產生提示管理中建立的提示的回應時使用跨區域推論。如需詳細資訊,請參閱 使用 Amazon Bedrock 中的提示管理來建構和儲存可重複使用的提示
-
提示流程:您可以在為提示流程的提示中內嵌定義提示,產生回應時使用跨區域推論。如需詳細資訊,請參閱使用 Amazon Bedrock Prompt 流程建置 end-to-end生成式 AI 工作流程。
您也可以購買佈建輸送量 來增加模型的輸送量。推論設定檔目前不支援佈建輸送量。
請注意下列跨區域推論的相關資訊:
-
使用跨區域推論無需額外的路由成本。價格是根據您呼叫推論設定檔的區域來計算。如需有關定價的資訊,請參閱 Amazon Bedrock 定價
。 -
使用跨區域推論時,您的輸送量可以達到推論設定檔所在區域中配置配額的兩倍。輸送量的增加僅適用於透過推論設定檔執行的調用,如果您選擇區域模型調用請求,則一般配額仍然適用。例如,如果您叫用美國 Anthropic Claude 3 Sonnet 美國東部 (維吉尼亞北部) (us-east-1) 的推論設定檔,您的輸送量每分鐘可以達到 1,000 個請求和 2,000,000 個字符。若要查看隨需輸送量的預設配額,請參閱 中的執行期配額區段Amazon Bedrock 的配額或使用 Service Quotas 主控台。
-
跨區域推論請求會保留在所使用的推論描述檔的一部分區域中。例如,使用 EU 推論設定檔提出的請求會保留在 EU 區域中。
若要進一步了解跨區域推論,請參閱 Amazon Bedrock 中的跨區域推論入門。