本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
注意
延迟优化推理功能处于预览版 Amazon Bedrock ,可能会发生变化。
中针对基础模型进行延迟优化的推理 Amazon Bedrock 可缩短响应时间并提高 AI 应用程序的响应速度。的优化版本 Amazon Nova Pro,Anthropic 的 Claude 3.5 Haiku 模型
访问延迟优化功能无需进行额外的设置或模型微调,从而能够以更快的响应时间立即增强现有应用程序。您可以在调用 Amazon Bedrock 运行时 API 时将 “延迟” 参数设置为 “已优化”。如果您选择 “标准” 作为调用选项,则您的请求将由标准推断处理。默认情况下,所有请求都通过 “标准” 路由到。
“performanceConfig” : { “latency” : “standard | optimized” }
一旦达到模型延迟优化的使用配额,我们将尝试使用标准延迟处理请求。在这种情况下,将按标准延迟费率对请求收费。已处理请求的延迟配置在 API 响应和 AWS CloudTrail 日志中可见。您还可以在 Amazon CloudWatch 日志中的 “model-id+延迟优化” 下查看延迟优化请求的指标。
延迟优化推理适用于Meta的Llama 3.1 70B和405B,以及Anthropic的Claude 3.5 Haiku通过跨区域推理在美国东部(俄亥俄州)和美国西部(俄勒冈)地区。
延迟优化的推理可用于 Amazon Nova Pro 通过跨区域推断在美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)和美国西部(俄勒冈)区域。
有关定价的更多信息,请访问定价页面
注意
Llama 3.1 405B 的延迟优化推理目前支持输入和输出令牌总数高达 11K 的请求。对于较大的代币数量请求,我们将回退到标准模式。
提供商 | 模型 | 支持推理配置文件的区域 |
---|---|---|
Amazon | Nova Pro |
us-east-1 us-east-2 |
Anthropic | Claude 3.5 Haiku |
us-east-2 us-west-2 |
Meta | Llama 3.1 405B Instruct |
us-east-2 |
Meta | Llama 3.1 70B Instruct |
us-east-2 us-west-2 |