针对延迟优化模型推理

聚焦模式

针对延迟优化模型推理 - Amazon Bedrock

注意

延迟优化推理功能处于预览版 Amazon Bedrock ，可能会发生变化。

中针对基础模型进行延迟优化的推理 Amazon Bedrock 可缩短响应时间并提高 AI 应用程序的响应速度。的优化版本 Amazon Nova Pro，Anthropic 的 Claude 3.5 Haiku 模型以及 Meta 的 Llama 3.1 405B 和 70B 型号在不影响准确性的前提下显著降低了延迟。

访问延迟优化功能无需进行额外的设置或模型微调，从而能够以更快的响应时间立即增强现有应用程序。您可以在调用 Amazon Bedrock 运行时 API 时将 “延迟” 参数设置为 “已优化”。如果您选择 “标准” 作为调用选项，则您的请求将由标准推断处理。默认情况下，所有请求都通过 “标准” 路由到。


“performanceConfig” : {
    “latency” : “standard | optimized” 
}

一旦达到模型延迟优化的使用配额，我们将尝试使用标准延迟处理请求。在这种情况下，将按标准延迟费率对请求收费。已处理请求的延迟配置在 API 响应和 AWS CloudTrail 日志中可见。您还可以在 Amazon CloudWatch 日志中的 “model-id+延迟优化” 下查看延迟优化请求的指标。

延迟优化推理适用于Meta的Llama 3.1 70B和405B，以及Anthropic的Claude 3.5 Haiku通过跨区域推理在美国东部（俄亥俄州）和美国西部（俄勒冈）地区。

延迟优化的推理可用于 Amazon Nova Pro 通过跨区域推断在美国东部（弗吉尼亚北部）、美国东部（俄亥俄州）和美国西部（俄勒冈）区域。

有关定价的更多信息，请访问定价页面。

注意

Llama 3.1 405B 的延迟优化推理目前支持输入和输出令牌总数高达 11K 的请求。对于较大的代币数量请求，我们将回退到标准模式。

提供商	模型	支持推理配置文件的区域
Amazon	Nova Pro	us-east-1 us-east-2
Anthropic	Claude 3.5 Haiku	us-east-2 us-west-2
Meta	Llama 3.1 405B Instruct	us-east-2
Meta	Llama 3.1 70B Instruct	us-east-2 us-west-2

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

利用模型推理增强模型响应

使用 API 生成响应

下一主题：

使用 API 生成响应

上一主题：

利用模型推理增强模型响应

需要帮助吗？

选择您的 Cookie 首选项

自定义 Cookie 首选项

关键

性能

功能

广告

无法保存 Cookie 首选项

针对延迟优化模型推理

注意

注意

下一主题：

上一主题：

需要帮助吗？

Related resources

此页内容对您是否有帮助？

Related resources