本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
通过跨区域推理提高吞吐量
在按需模式下运行模型推理时,您的请求可能会受到服务配额的限制或在高峰使用时间受到限制。跨区域推理使您能够通过利用跨不同区域的计算来无缝管理计划外的流量爆发。 AWS 区域通过跨区域推理,您可以将流量分配到多个区域 AWS 区域,从而实现更高的吞吐量。
要使用跨区域推理,请在通过以下方式运行模型推理时包含推理配置文件:
-
按需模型推理 — 在发送、、C onverse 或请求
modelId
时 InvokeModelInvokeModelWithResponseStream,将推理配置文件的 ID 指定为。ConverseStream推理配置文件定义了一个或多个区域,它可以将来自您的源区域的推理请求路由到这些区域。使用跨区域推理可以跨推理配置文件中定义的区域动态路由模型调用请求,从而提高吞吐量和性能。路由会考虑用户流量、需求和资源利用率。有关更多信息,请参阅 使用模型推理提交提示并生成响应 -
Batch In ference — 通过在发送请求
modelId
时指定推理配置文件的 ID,使用批量推理异步提交请求。CreateModelInvocationJob使用推理配置文件可以让你利用多重计算 AWS 区域 ,缩短批处理作业的处理时间。任务完成后,您可以从源区域的 Amazon S3 存储桶中检索输出文件。 -
知识库响应生成-在查询知识库后生成响应或解析数据源中的非文本信息时,您可以使用跨区域推理。有关更多信息,请参阅利用查询和响应测试知识库 和数据源的解析选项。
-
模型评估-在提交模型评估任务时,您可以将推理配置文件作为模型进行评估。有关更多信息,请参阅 评估 Amazon Bedrock 资源的性能。
-
提示管理 — 在为在 Prompt 管理中创建的提示生成响应时,您可以使用跨区域推理。有关更多信息,请参阅 在 Amazon Bedrock 中使用提示管理器构建和存储可重复使用的提示
-
提示流 — 在提示流的提示节点中为内联定义的提示生成响应时,您可以使用跨区域推理。有关更多信息,请参阅 使用 Amazon Bedrock Flows 构建 end-to-end生成式 AI 工作流程。
要查看可用于使用推理配置文件运行跨区域推理的区域和模型,请参阅。推理配置文件支持的区域和模型
您还可以通过购买预调配吞吐量来增加模型的吞吐量。推理配置文件目前不支持预调配吞吐量。
要了解如何使用推理配置文件跨区域发送模型调用请求,请参阅。在模型调用中使用推理配置文件
请注意以下有关跨区域推理的信息:
-
使用跨区域推理不会产生额外的路由成本。价格是根据您调用推理配置文件的区域计算得出的。有关定价的信息,请参阅 Amazon Bedrock 定价
。 -
使用跨区域推理时,您的吞吐量最多可以达到推理配置文件所在区域的默认配额的两倍。吞吐量的增加仅适用于通过推理配置文件执行的调用,如果您选择区域内模型调用请求,仍使用常规配额。例如,如果你援引美国 Anthropic Claude 3 Sonnet 在 us-east-1 中,您的吞吐量可以达到每分钟 1,000 个请求和每分钟 2,000,000 个令牌。要查看按需吞吐量的默认配额,请参阅 Amazon Bedrock 的配额中的运行时配额部分或使用“服务配额”控制台。
-
跨区域推理请求保存在所使用的推理配置文件中的区域内。例如,使用欧洲推理配置文件发出的请求会保存在欧洲区域内。
要了解有关跨区域推理的更多信息,请参阅 Getting started with cross-region inference in Amazon Bedrock