通过跨区域推理提高吞吐量 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

通过跨区域推理提高吞吐量

在按需模式下运行模型推理时,您的请求可能会受到服务配额的限制或在高峰使用时间受到限制。跨区域推理使您能够通过利用跨不同区域的计算来无缝管理计划外的流量爆发。 AWS 区域通过跨区域推理,您可以将流量分配到多个区域 AWS 区域,从而实现更高的吞吐量。

要使用跨区域推理,请在通过以下方式运行模型推理时包含推理配置文件

要查看可用于使用推理配置文件运行跨区域推理的区域和模型,请参阅。推理配置文件支持的区域和模型

您还可以通过购买预调配吞吐量来增加模型的吞吐量。推理配置文件目前不支持预调配吞吐量。

要了解如何使用推理配置文件跨区域发送模型调用请求,请参阅。在模型调用中使用推理配置文件

请注意以下有关跨区域推理的信息:

  • 使用跨区域推理不会产生额外的路由成本。价格是根据您调用推理配置文件的区域计算得出的。有关定价的信息,请参阅 Amazon Bedrock 定价

  • 使用跨区域推理时,您的吞吐量最多可以达到推理配置文件所在区域的默认配额的两倍。吞吐量的增加仅适用于通过推理配置文件执行的调用,如果您选择区域内模型调用请求,仍使用常规配额。例如,如果你援引美国 Anthropic Claude 3 Sonnet 在 us-east-1 中,您的吞吐量可以达到每分钟 1,000 个请求和每分钟 2,000,000 个令牌。要查看按需吞吐量的默认配额,请参阅 Amazon Bedrock 的配额中的运行时配额部分或使用“服务配额”控制台。

  • 跨区域推理请求保存在所使用的推理配置文件中的区域内。例如,使用欧洲推理配置文件发出的请求会保存在欧洲区域内。

要了解有关跨区域推理的更多信息,请参阅 Getting started with cross-region inference in Amazon Bedrock