通过跨区域推理提高吞吐量

使用跨区域推理，您可以选择与特定地理位置（例如美国或欧盟）相关的跨区域推理配置文件，也可以选择全球推理配置文件。当您选择与特定地理位置相关的推理配置文件时，Amazon Bedrock 会自动选择该地理区域 AWS 区域内的最佳商业信息来处理您的推理请求。借助全球推理配置文件，Amazon Bedrock 会自动选择最佳的商业模式 AWS 区域来处理请求，从而优化可用资源并提高模型吞吐量。

在按需模式下运行模型推理时，您的请求可能会受到服务配额的限制或在高峰使用时间受到限制。跨区域推理使您能够通过利用跨不同区域的计算来无缝管理计划外的流量爆发。 AWS 区域通过跨区域推理，您可以将流量分配到多个区域 AWS 区域，从而实现更高的吞吐量。

您还可以通过购买预调配吞吐量来增加模型的吞吐量。推理配置文件目前不支持预调配吞吐量。

要查看您可以使用推理配置文件运行跨区域推理的区域和模型，请参阅。推理配置文件支持的区域和模型

跨区域（系统定义）推理配置文件以其支持的模型命名，并由其支持的区域定义。要了解跨区域推理配置文件如何处理您的请求，请查看以下定义：

来源区域-您发出 API 请求的区域，该请求指定了推理配置文件。
目标区域 — Amazon Bedrock 服务可以将请求从您的来源区域路由到的区域。

当您在 Amazon Bedrock 中调用跨区域推理配置文件时，您的请求来自源区域，并自动路由到该配置文件中定义的目标区域之一，从而优化性能。全球跨区域推理配置文件的目标区域包括所有商业区域。

注意

跨区域推理配置文件中的目标区域可以包括可选区域，即您必须在 AWS 账户或组织级别明确启用的区域。要了解更多信息，请参阅AWS 区域在您的账户中启用或禁用。使用跨区域推理配置文件时，您的推理请求可以路由到配置文件中的任何目标区域，即使您没有在账户中选择加入此类区域。

服务控制策略 (SCPs) 和 AWS Identity and Access Management (IAM) 策略协同工作，以控制允许跨区域推断的位置。使用 SCPs，您可以控制 Amazon Bedrock 可以使用哪些区域进行推理；使用 IAM 策略，您可以定义哪些用户或角色有权运行推理。如果您的跨区域推理配置文件中的任何目标区域被屏蔽 SCPs，则即使其他区域仍被允许，请求也会失败。为了确保跨区域推理的高效运行，您可以更新您的 SCPs 和 IAM 策略，以允许在您选择的推理配置文件中包含的所有目标区域执行所有必需的 Amazon Bedrock 推理操作（例如，bedrock:InvokeModel*或bedrock:CreateModelInvocationJob）。要了解更多信息，请参阅在多账户环境中启用 Amazon Bedrock 跨区域推理。

注意

某些推理配置文件会路由到不同的目标区域，具体取决于您调用它的源区域。例如，如果您us.anthropic.claude-3-haiku-20240307-v1:0从美国东部（俄亥俄州）呼叫，它可以将请求路由到us-east-1us-east-2us-west-2、或，但是如果您从美国西部（俄勒冈州）拨打该电话，它只能将请求路由到us-east-1和us-west-2。

要检查源区域和目标区域的推理配置文件，您可以执行以下操作之一：

展开支持的跨区域推理配置文件列表中的相应部分。
使用来自来源区域的 A mazon Bedrock 控制平面终端节点发送GetInferenceProfile请求，并在字段中指定推理配置文件的亚马逊资源名称 (ARN) 或 ID。inferenceProfileIdentifier响应中的models字段映射到模型列表 ARNs，您可以在其中标识每个目标区域。

注意

随着更多可以处理请求的商业区域的 AWS 增加，特定模型的全球跨区域推理配置文件可能会随着时间的推移而发生变化。但是，如果推理配置文件与地理位置（例如美国、欧盟或亚太地区）相关联，则其目标区域列表将永远不会更改。 AWS 可能会创建包含新区域的新推理配置文件。您可以通过将设置 IDs 中的更改为新的推理配置文件来更新系统以使用这些推理配置文件。

全球跨区域推理配置文件目前仅支持以下来源区域的AnthropicClaude Sonnet 4模型：美国西部（俄勒冈）、美国东部（弗吉尼亚北部）、美国东部（俄亥俄州）、欧洲（爱尔兰）和亚太地区（东京）。全球推理的目标区域概况包括所有商业 AWS 区域区域。

请注意以下有关跨区域推理的信息：

使用跨区域推理不会产生额外的路由成本。价格是根据您调用推理配置文件的区域计算的。有关定价的信息，请参阅 Amazon Bedrock 定价。
与与特定地理位置相关的推理配置文件相比，全球跨区域推理配置文件提供的吞吐量更高。与特定地理位置关联的推理配置文件比单区域推理提供的吞吐量更高。
要查看使用与地理位置（例如美国、欧盟和亚太地区）关联的推理配置文件时跨区域吞吐量的默认配额，请参阅《一般参考》中的 “跨区域模型每分钟推理请求 $ {Model}” 和 A mazon Bedro ck 服务配额中每分钟 $ {Model} 值的跨区域模型推理令牌。AWS
要查看使用全球推理配置文件时跨区域吞吐量的默认配额，请参阅《一般参考》中的 “全球跨区域模型每分钟推理请求 $ {Model}” 和 “A mazon Bedrock 服务配额中每分钟 $ {Model} 值的全球跨区域模型推理令牌”。AWS

您可以从 Service Quotas 控制台或在美国东部（弗吉尼亚北部）区域使用 CL AWS I 命令请求、查看和管理全球跨区域推理配置文件的配额。请注意，全球跨区域推理配额不会出现在全球推理配置文件中列出的其他源区域的 Service Quotas 控制台 AWS 或 CLI 中。
向与地理位置（例如美国、欧盟和亚太地区）关联的推理配置文件发出的跨区域推理请求保存在数据最初所在的地理区域内。 AWS 区域例如，在美国境内提出的请求保存在美国境内。 AWS 区域尽管数据仅存储在源区域中，但在跨区域推理期间，您的输入提示和输出结果可能会移到源区域之外。所有数据都将通过 Amazon 的安全网络进行加密传输。
AWS 由 Amazon Bedrock 提供支持的服务也可以使用 CRIS。有关更多详细信息，请参阅特定于服务的文档。

使用跨区域（系统定义）推理配置文件

要使用跨区域推理，请在通过以下方式运行模型推理时包含推理配置文件：

按需模型推理 — 在发送、、C onverse 或请求modelId时 InvokeModel InvokeModelWithResponseStream，将推理配置文件的 ID 指定为。ConverseStream推理配置文件定义了一个或多个区域，它可以将来自您的源区域的推理请求路由到这些区域。使用跨区域推理可以跨推理配置文件中定义的区域动态路由模型调用请求，从而提高吞吐量和性能。路由会考虑用户流量、需求和资源利用率。有关更多信息，请参阅使用模型推理提交提示并生成响应。
Batch In ference — 通过在发送请求modelId时指定推理配置文件的 ID，使用批量推理异步提交请求。CreateModelInvocationJob使用推理配置文件可以让你利用多重计算 AWS 区域，缩短批处理作业的处理时间。任务完成后，您可以从源区域的 Amazon S3 存储桶中检索输出文件。
代理-在CreateAgent请求的foundationModel字段中指定推理配置文件的 ID。有关更多信息，请参阅手动创建和配置代理。
知识库响应生成-您可以在查询知识库后生成响应时使用跨区域推理。有关更多信息，请参阅利用查询和响应测试知识库。
模型评估-在提交模型评估任务时，您可以将推理配置文件作为模型进行评估。有关更多信息，请参阅评估 Amazon Bedrock 资源的性能。
提示管理 — 在为在 Prompt 管理中创建的提示生成响应时，您可以使用跨区域推理。有关更多信息，请参阅在 Amazon Bedrock 中使用提示管理器构建和存储可重复使用的提示。
提示流 — 在提示流的提示节点中为内联定义的提示生成响应时，您可以使用跨区域推理。有关更多信息，请参阅使用 Amazon Bedrock Flows 构建 end-to-end生成式 AI 工作流程。

注意

按需模型推理、批量推理、代理、模型评估、提示管理和提示流支持全局推理配置文件。

要了解如何使用推理配置文件跨区域发送模型调用请求，请参阅。在模型调用中使用推理配置文件

要了解有关跨区域推理的更多信息，请参阅 Amazon Bedrock 中的跨区域推理入门。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

处理用例

预置吞吐量：增加模型吞吐量