选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

针对延迟优化模型推理

聚焦模式
针对延迟优化模型推理 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

注意

延迟优化推理功能处于预览版 Amazon Bedrock ,可能会发生变化。

中针对基础模型进行了延迟优化的推理, Amazon Bedrock 可缩短响应时间,提高了 AI 应用程序的响应速度。Anthropic的Claude 3.5 Haiku模型以及 Meta的Llama 3.1 405B和70B模型的优化版本在不影响准确性的前提下显著降低了延迟。

访问延迟优化功能无需进行额外的设置或模型微调,从而能够以更快的响应时间立即增强现有应用程序。您可以在调用 Bedrock 运行时 API 时将 “延迟” 参数设置为 “已优化”。如果您选择 “标准” 作为调用选项,则您的请求将由标准推断处理。默认情况下,所有请求都通过 “标准” 路由到。

“performanceConfig” : { “latency” : “standard | optimized” }

一旦达到模型延迟优化的使用配额,我们将尝试使用标准延迟处理请求。在这种情况下,将按标准延迟费率对请求收费。已处理请求的延迟配置在 API 响应和 AWS CloudTrail 日志中可见。您还可以在 Amazon CloudWatch 日志中的 “model-id+延迟优化” 下查看延迟优化请求的指标。

延迟优化推理适用于Meta的Llama 3.1 70B和405B,以及美国东部(俄亥俄州)地区Anthropic的Claude 3.5 Haiku,可通过跨区域推断进行推理。有关定价的更多信息,请访问定价页面

注意

Llama 3.1 405B 的延迟优化推理目前支持输入和输出令牌总数高达 11K 的请求。对于较大的代币数量请求,我们将回退到标准模式。

基础模型 型号编号 支持的区域

Anthropic Claude 3.5

us.anthropic.claude-3-5-haiku-20241022-v 1:0

美国东部(俄亥俄州)、美国西部(俄勒冈)

Meta Llama 3.1 70B Instruct us.meta.llama3-1-70 1:0 b-instruct-v

美国东部(俄亥俄州)、美国西部(俄勒冈)

Llama 3.1 405B Instruct

us.meta.llama3-1-405 1:0 b-instruct-v 美国东部(俄亥俄州)
隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。