通过跨区域推理提高吞吐量 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

通过跨区域推理提高吞吐量

使用跨区域推理,您可以选择与特定地理位置(例如美国或欧盟)相关的跨区域推理配置文件,也可以选择全球推理配置文件。当您选择与特定地理位置相关的推理配置文件时,Amazon Bedrock 会自动选择该地理区域 AWS 区域 内的最佳商业信息来处理您的推理请求。借助全球推理配置文件,Amazon Bedrock 会自动选择最佳的商业模式 AWS 区域 来处理请求,从而优化可用资源并提高模型吞吐量。

在按需模式下运行模型推理时,您的请求可能会受到服务配额的限制或在高峰使用时间受到限制。跨区域推理使您能够通过利用跨不同区域的计算来无缝管理计划外的流量爆发。 AWS 区域通过跨区域推理,您可以将流量分配到多个区域 AWS 区域,从而实现更高的吞吐量。

您还可以通过购买预调配吞吐量来增加模型的吞吐量。推理配置文件目前不支持预调配吞吐量。

要查看您可以使用推理配置文件运行跨区域推理的区域和模型,请参阅。推理配置文件支持的区域和模型

跨区域(系统定义)推理配置文件以其支持的模型命名,并由其支持的区域定义。要了解跨区域推理配置文件如何处理您的请求,请查看以下定义:

  • 来源区域-您发出 API 请求的区域,该请求指定了推理配置文件。

  • 目标区域 — Amazon Bedrock 服务可以将请求从您的来源区域路由到的区域。

当您在 Amazon Bedrock 中调用跨区域推理配置文件时,您的请求来自源区域,并自动路由到该配置文件中定义的目标区域之一,从而优化性能。全球跨区域推理配置文件的目标区域包括所有商业区域。

注意

跨区域推理配置文件中的目标区域可以包括可选区域,即您必须在 AWS 账户 或组织级别明确启用的区域。要了解更多信息,请参阅AWS 区域 在您的账户中启用或禁用。使用跨区域推理配置文件时,您的推理请求可以路由到配置文件中的任何目标区域,即使您没有在账户中选择加入此类区域。

服务控制策略 (SCPs) 和 AWS Identity and Access Management (IAM) 策略协同工作,以控制允许跨区域推断的位置。使用 SCPs,您可以控制 Amazon Bedrock 可以使用哪些区域进行推理;使用 IAM 策略,您可以定义哪些用户或角色有权运行推理。如果您的跨区域推理配置文件中的任何目标区域被屏蔽 SCPs,则即使其他区域仍被允许,请求也会失败。为了确保跨区域推理的高效运行,您可以更新您的 SCPs 和 IAM 策略,以允许在您选择的推理配置文件中包含的所有目标区域执行所有必需的 Amazon Bedrock 推理操作(例如,bedrock:InvokeModel*bedrock:CreateModelInvocationJob)。要了解更多信息,请参阅在多账户环境中启用 Amazon Bedrock 跨区域推理。

注意

某些推理配置文件会路由到不同的目标区域,具体取决于您调用它的源区域。例如,如果您us.anthropic.claude-3-haiku-20240307-v1:0从美国东部(俄亥俄州)呼叫,它可以将请求路由到us-east-1us-east-2us-west-2、或,但是如果您从美国西部(俄勒冈州)拨打该电话,它只能将请求路由到us-east-1us-west-2

要检查源区域和目标区域的推理配置文件,您可以执行以下操作之一:

注意

随着更多可以处理请求的商业区域的 AWS 增加,特定模型的全球跨区域推理配置文件可能会随着时间的推移而发生变化。但是,如果推理配置文件与地理位置(例如美国、欧盟或亚太地区)相关联,则其目标区域列表将永远不会更改。 AWS 可能会创建包含新区域的新推理配置文件。您可以通过将设置 IDs 中的更改为新的推理配置文件来更新系统以使用这些推理配置文件。

全球跨区域推理配置文件目前仅支持以下来源区域的AnthropicClaude Sonnet 4模型:美国西部(俄勒冈)、美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、欧洲(爱尔兰)和亚太地区(东京)。全球推理的目标区域概况包括所有商业 AWS 区域区域。

请注意以下有关跨区域推理的信息:

  • 使用跨区域推理不会产生额外的路由成本。价格是根据您调用推理配置文件的区域计算的。有关定价的信息,请参阅 Amazon Bedrock 定价

  • 与与特定地理位置相关的推理配置文件相比,全球跨区域推理配置文件提供的吞吐量更高。与特定地理位置关联的推理配置文件比单区域推理提供的吞吐量更高。

  • 要查看使用与地理位置(例如美国、欧盟和亚太地区)关联的推理配置文件时跨区域吞吐量的默认配额,请参阅《一般参考》中的 “跨区域模型每分钟推理请求 $ {Model}” 和 A mazon Bedro ck 服务配额中每分钟 $ {Model} 值的跨区域模型推理令牌。AWS

  • 要查看使用全球推理配置文件时跨区域吞吐量的默认配额,请参阅《一般参考》中的 “全球跨区域模型每分钟推理请求 $ {Model}” 和 “A mazon Bedrock 服务配额中每分钟 $ {Model} 值的全球跨区域模型推理令牌”。AWS

    您可以从 Service Quotas 控制台或在美国东部(弗吉尼亚北部)区域使用 CL AWS I 命令请求、查看和管理全球跨区域推理配置文件的配额。请注意,全球跨区域推理配额不会出现在全球推理配置文件中列出的其他源区域的 Service Quotas 控制台 AWS 或 CLI 中。

  • 向与地理位置(例如美国、欧盟和亚太地区)关联的推理配置文件发出的跨区域推理请求保存在数据最初所在的地理区域内。 AWS 区域 例如,在美国境内提出的请求保存在美国境内。 AWS 区域 尽管数据仅存储在源区域中,但在跨区域推理期间,您的输入提示和输出结果可能会移到源区域之外。所有数据都将通过 Amazon 的安全网络进行加密传输。

  • AWS 由 Amazon Bedrock 提供支持的服务也可以使用 CRIS。有关更多详细信息,请参阅特定于服务的文档。

使用跨区域(系统定义)推理配置文件

要使用跨区域推理,请在通过以下方式运行模型推理时包含推理配置文件

注意

按需模型推理、批量推理、代理、模型评估、提示管理和提示流支持全局推理配置文件。

要了解如何使用推理配置文件跨区域发送模型调用请求,请参阅。在模型调用中使用推理配置文件

要了解有关跨区域推理的更多信息,请参阅 Amazon Bedrock 中的跨区域推理入门