通过跨区域推理提高弹性 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

通过跨区域推理提高弹性

在按需模式下运行模型推理时,您的请求可能会受到服务配额或高峰使用时间的限制。跨区域推理使您能够通过利用跨不同区域的计算来无缝管理计划外的流量爆发。 AWS 区域通过跨区域推理,您可以跨多个区域分配流量 AWS 区域,从而在需求高峰期实现更高的吞吐量并增强弹性。

要使用跨区域推理,您可以在运行模型推理时包含推理配置文件,方法是在发送、、Converse 或请求modelId时将推理配置文件的 ID 指定为。InvokeModelInvokeModelWithResponseStreamConverseStream推理配置文件是对配置的按需资源池的抽象。 AWS 区域推理配置文件可以将源自您的源区域的推理请求路由到池中配置的另一个区域。跨区域推理的使用可以跨推理配置文件中定义的区域动态路由模型调用请求,从而提高吞吐量并提高弹性。用户流量、需求和资源利用率中的路由因素。请求在其来源地区得到满足。

跨区域推理目前可用于以下功能:

您还可以通过购买预配置吞吐量来增加模型的吞吐量。推理配置文件目前不支持预配置吞吐量。

请注意以下有关跨区域推理的信息:

  • 使用跨区域推理不会产生额外的路由成本。价格是根据您调用推理配置文件的区域计算得出的。有关定价的信息,请参阅 Amazon Bedrock 定价

  • 使用跨区域推理时,您的吞吐量最多可以达到推理配置文件所在区域中分配的配额的两倍。吞吐量的增加仅适用于通过推理配置文件执行的调用,如果您选择区域内模型调用请求,常规配额仍然适用。例如,如果你援引美国 Anthropic Claude 3 Sonnet 在美国东部(弗吉尼亚北部)(us-east-1)中,您的吞吐量可以达到每分钟 1,000 个请求和每分钟 2,000,000 个令牌。要查看按需吞吐量的默认配额,请参阅中的运行时配额部分Amazon Bedrock 的配额或使用 Service Quotas 控制台。

  • 跨区域推理请求保存在所使用的推理配置文件中的区域内。例如,使用欧盟推理配置文件发出的请求保存在欧盟区域内。

要了解有关跨区域推理的更多信息,请参阅 Amazon Bedrock 中的跨区域推理入门