本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
跨区域推理会自动选择您所在地理区域 AWS 区域 内的最佳位置来处理您的推理请求。这通过最大限度地提高可用资源和模型可用性来改善客户体验。
在按需模式下运行模型推理时,您的请求可能会受到服务配额的限制或在高峰使用时间受到限制。跨区域推理使您能够通过利用跨不同区域的计算来无缝管理计划外的流量爆发。 AWS 区域通过跨区域推理,您可以将流量分配到多个区域 AWS 区域,从而实现更高的吞吐量。
您还可以通过购买预调配吞吐量来增加模型的吞吐量。推理配置文件目前不支持预调配吞吐量。
要查看您可以使用推理配置文件运行跨区域推理的区域和模型,请参阅。推理配置文件支持的区域和模型
跨区域(系统定义)推理配置文件以其支持的模型命名,并由其支持的区域定义。要了解跨区域推理配置文件如何处理您的请求,请查看以下定义:
-
来源区域-您发出 API 请求的区域,该请求指定了推理配置文件。
-
目标区域 — Amazon Bedrock 服务可以将请求从您的来源区域路由到的区域。
您从源区域调用跨区域推理配置文件,Amazon Bedrock 服务会将您的请求路由到推理配置文件中定义的任何目标区域。
注意
某些推理配置文件会路由到不同的目标区域,具体取决于您调用它的源区域。例如,如果您us.anthropic.claude-3-haiku-20240307-v1:0
从美国东部(俄亥俄州)呼叫,它可以将请求路由到us-east-1
us-east-2
us-west-2
、或,但是如果您从美国西部(俄勒冈州)拨打该电话,它只能将请求路由到us-east-1
和us-west-2
。
要检查源区域和目标区域的推理配置文件,您可以执行以下操作之一:
-
展开支持的跨区域推理配置文件列表中的相应部分。
-
使用来自来源区域的 A mazon Bedrock 控制平面终端节点发送GetInferenceProfile请求,并在字段中指定推理配置文件的亚马逊资源名称 (ARN) 或 ID。
inferenceProfileIdentifier
响应中的models
字段映射到模型列表 ARNs,您可以在其中标识每个目标区域。
注意
推理配置文件是不可变的,这意味着我们不会在现有的推理配置文件中添加新的区域。但是,我们可能会创建包含新区域的新推理配置文件。您可以通过将设置 IDs 中的更改为新的推理配置文件来更新系统以使用这些推理配置文件。
请注意以下有关跨区域推理的信息:
-
使用跨区域推理不会产生额外的路由成本。价格是根据您调用推理配置文件的区域计算得出的。有关定价的信息,请参阅 Amazon Bedrock 定价
。 -
使用跨区域推理时,您的吞吐量最多可以达到推理配置文件所在区域默认配额的两倍。吞吐量的增加仅适用于通过推理配置文件执行的调用,如果您选择区域内模型调用请求,仍使用常规配额。例如,如果你援引美国 Anthropic Claude 3 Sonnet 在 us-east-1 中,您的吞吐量可以达到每分钟 1,000 个请求和每分钟 2,000,000 个令牌。要查看按需吞吐量的默认配额,请参阅 Amazon Bedrock 的配额中的运行时配额部分或使用“服务配额”控制台。
-
跨区域推理请求保存在数据最初所在的地理位置的 AWS 区域 s 内。例如, 在美国境内提出的请求保存在美国的 AWS 区域 s内. 尽管数据仅存储在源区域,但在跨区域推理期间,您的输入提示和输出结果可能会移到源区域之外。所有数据都将通过亚马逊的安全网络进行加密传输。
使用跨区域(系统定义)推理配置文件
要使用跨区域推理,请在通过以下方式运行模型推理时包含推理配置文件:
-
按需模型推理 — 在发送、、C onverse 或请求
modelId
时 InvokeModelInvokeModelWithResponseStream,将推理配置文件的 ID 指定为。ConverseStream推理配置文件定义了一个或多个区域,它可以将来自您的源区域的推理请求路由到这些区域。使用跨区域推理可以跨推理配置文件中定义的区域动态路由模型调用请求,从而提高吞吐量和性能。路由会考虑用户流量、需求和资源利用率。有关更多信息,请参阅 使用模型推理提交提示并生成响应。 -
Batch In ference — 通过在发送请求
modelId
时指定推理配置文件的 ID,使用批量推理异步提交请求。CreateModelInvocationJob使用推理配置文件可以让你利用多重计算 AWS 区域 ,缩短批处理作业的处理时间。任务完成后,您可以从源区域的 Amazon S3 存储桶中检索输出文件。 -
知识库响应生成-您可以在查询知识库后生成响应时使用跨区域推理。有关更多信息,请参阅 利用查询和响应测试知识库。
-
模型评估-在提交模型评估任务时,您可以将推理配置文件作为模型进行评估。有关更多信息,请参阅 评估 Amazon Bedrock 资源的性能。
-
提示管理 — 在为在 Prompt 管理中创建的提示生成响应时,您可以使用跨区域推理。有关更多信息,请参阅 在 Amazon Bedrock 中使用提示管理器构建和存储可重复使用的提示。
-
提示流 — 在提示流的提示节点中为内联定义的提示生成响应时,您可以使用跨区域推理。有关更多信息,请参阅 使用 Amazon Bedrock Flows 构建 end-to-end生成式 AI 工作流程。
要了解如何使用推理配置文件跨区域发送模型调用请求,请参阅。在模型调用中使用推理配置文件
要了解有关跨区域推理的更多信息,请参阅 Getting started with cross-region inference in Amazon Bedrock